Extrakce melodie z audio signálu Ladislav Vincourek
Vyhledávání v multimediálních databázích - DBI030 2 Úvod Co je to melodie, audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004.
Vyhledávání v multimediálních databázích - DBI030 3 Extrakce melodie
Vyhledávání v multimediálních databázích - DBI030 4 Audio signál signál (z latinského signalis - dávat znamení)
Vyhledávání v multimediálních databázích - DBI030 5 Zvukové vlnění Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až Hz (16 kHz). Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.
Vyhledávání v multimediálních databázích - DBI030 6 Šířka pásma pro různé zdroje zvuku
Vyhledávání v multimediálních databázích - DBI030 7 Melodie Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.
Vyhledávání v multimediálních databázích - DBI030 8 Tón je v akustice považován každý zvuk se stálou frekvencí. v hudbě je tón základním stavebním kamenem.
Vyhledávání v multimediálních databázích - DBI030 9 Základní vlastnosti tónu výška – ta je dána především frekvencí, délka – jak dlouho tón zní, síla – ta je dána amplitudou, barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.
Vyhledávání v multimediálních databázích - DBI Další Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.
Vyhledávání v multimediálních databázích - DBI Decibel dB síly zvuku
Vyhledávání v multimediálních databázích - DBI Využití extrakce melodie Melodie poskytuje důležité shrnutí z polyfonní hudba. Její aplikace je důležitá pro analýzu struktury hudby. Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).
Vyhledávání v multimediálních databázích - DBI Melodie x Audio signál Melodie poskytuje konzistentní a přirozený popis hudby. Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).
Vyhledávání v multimediálních databázích - DBI Typy extrakce melodie Většina převádí jen specifický audio signál –Každá část hudby je realizována harmonickou sadou základních tónů. –Např.: automatické rozpoznávání hlasů Předchozí znalost štítků –Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. Přes dominantní melodii
Vyhledávání v multimediálních databázích - DBI Postup 1.Vstupní audio signál transformujeme na charakteristickou reprezentaci(short- time magnitude spectrum). 2.Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.
Vyhledávání v multimediálních databázích - DBI Zvukové rysy Originální zvuk musíme převést na mono o max. rozpětí 8 kHz Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)
Vyhledávání v multimediálních databázích - DBI STFT Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms)
Vyhledávání v multimediálních databázích - DBI STFT (2) Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.
Vyhledávání v multimediálních databázích - DBI Support Vector Machine (SVM) Zabývá se řešením úloh vyhledávání v znalostních databázích. Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin
Vyhledávání v multimediálních databázích - DBI SVM (2) Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.
Vyhledávání v multimediálních databázích - DBI Trénovací data Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. Problém najít vhodná tréninková data.
Vyhledávání v multimediálních databázích - DBI Trénovací data (2) Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. Zdroje mohou být: –Multi-track záznamy –MIDI soubory
Vyhledávání v multimediálních databázích - DBI Multi-track záznamy Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). 10 ms omezená 100 hodnot na 1kHz
Vyhledávání v multimediálních databázích - DBI YIN Určuje pravidelný rozsah. P PERIODIC je celková síla harmonického kmitu objeveného pravidelně. P TOT je celková síla v rámu.
Vyhledávání v multimediálních databázích - DBI Jistota tónu Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). Data se musí ručně ověřit pro integritu tréninku. Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.
Vyhledávání v multimediálních databázích - DBI MIDI soubory Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.
Vyhledávání v multimediálních databázích - DBI MIDI soubory (2) V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.
Vyhledávání v multimediálních databázích - DBI Půltónové posuny Při omezeném tréninku. –Kvalita, kvantita a různorodost Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.
Vyhledávání v multimediálních databázích - DBI ISMIR 2004 Melody Contest 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. 2 úryvky z populární hudby se zpěvákem.
Vyhledávání v multimediálních databázích - DBI Hodnocení ISMIR 2004 Jsou navržené tři možné metriky: 1.Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). 2.Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. 3.Edituje vzdálenost mezi odhadovanou a správnou melodií. Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.
Vyhledávání v multimediálních databázích - DBI Melodie zpěváka
Vyhledávání v multimediálních databázích - DBI Melodie opery
Vyhledávání v multimediálních databázích - DBI Úspěšnost
Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 Články –Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments ( ) –A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION ( melody.pdf)
Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 RNDr. Tomáš Dvořák, CSc. – Zvuk Kvantizace Internet – – – – (SuVeMa Vojtěch Franc)