Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006.

Podobné prezentace


Prezentace na téma: "Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006."— Transkript prezentace:

1 Extrakce melodie z audio signálu Ladislav Vincourek

2 Vyhledávání v multimediálních databázích - DBI030 2 Úvod Co je to melodie, audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004.

3 Vyhledávání v multimediálních databázích - DBI030 3 Extrakce melodie

4 Vyhledávání v multimediálních databázích - DBI030 4 Audio signál signál (z latinského signalis - dávat znamení)

5 Vyhledávání v multimediálních databázích - DBI030 5 Zvukové vlnění Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až Hz (16 kHz). Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.

6 Vyhledávání v multimediálních databázích - DBI030 6 Šířka pásma pro různé zdroje zvuku

7 Vyhledávání v multimediálních databázích - DBI030 7 Melodie Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.

8 Vyhledávání v multimediálních databázích - DBI030 8 Tón je v akustice považován každý zvuk se stálou frekvencí. v hudbě je tón základním stavebním kamenem.

9 Vyhledávání v multimediálních databázích - DBI030 9 Základní vlastnosti tónu výška – ta je dána především frekvencí, délka – jak dlouho tón zní, síla – ta je dána amplitudou, barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.

10 Vyhledávání v multimediálních databázích - DBI Další Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.

11 Vyhledávání v multimediálních databázích - DBI Decibel dB síly zvuku

12 Vyhledávání v multimediálních databázích - DBI Využití extrakce melodie Melodie poskytuje důležité shrnutí z polyfonní hudba. Její aplikace je důležitá pro analýzu struktury hudby. Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).

13 Vyhledávání v multimediálních databázích - DBI Melodie x Audio signál Melodie poskytuje konzistentní a přirozený popis hudby. Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).

14 Vyhledávání v multimediálních databázích - DBI Typy extrakce melodie Většina převádí jen specifický audio signál –Každá část hudby je realizována harmonickou sadou základních tónů. –Např.: automatické rozpoznávání hlasů Předchozí znalost štítků –Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. Přes dominantní melodii

15 Vyhledávání v multimediálních databázích - DBI Postup 1.Vstupní audio signál transformujeme na charakteristickou reprezentaci(short- time magnitude spectrum). 2.Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.

16 Vyhledávání v multimediálních databázích - DBI Zvukové rysy Originální zvuk musíme převést na mono o max. rozpětí 8 kHz Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)

17 Vyhledávání v multimediálních databázích - DBI STFT Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms)

18 Vyhledávání v multimediálních databázích - DBI STFT (2) Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.

19 Vyhledávání v multimediálních databázích - DBI Support Vector Machine (SVM) Zabývá se řešením úloh vyhledávání v znalostních databázích. Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin

20 Vyhledávání v multimediálních databázích - DBI SVM (2) Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.

21 Vyhledávání v multimediálních databázích - DBI Trénovací data Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. Problém najít vhodná tréninková data.

22 Vyhledávání v multimediálních databázích - DBI Trénovací data (2) Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. Zdroje mohou být: –Multi-track záznamy –MIDI soubory

23 Vyhledávání v multimediálních databázích - DBI Multi-track záznamy Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). 10 ms omezená 100 hodnot na 1kHz

24 Vyhledávání v multimediálních databázích - DBI YIN Určuje pravidelný rozsah. P PERIODIC je celková síla harmonického kmitu objeveného pravidelně. P TOT je celková síla v rámu.

25 Vyhledávání v multimediálních databázích - DBI Jistota tónu Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). Data se musí ručně ověřit pro integritu tréninku. Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.

26 Vyhledávání v multimediálních databázích - DBI MIDI soubory Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.

27 Vyhledávání v multimediálních databázích - DBI MIDI soubory (2) V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.

28 Vyhledávání v multimediálních databázích - DBI Půltónové posuny Při omezeném tréninku. –Kvalita, kvantita a různorodost Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.

29 Vyhledávání v multimediálních databázích - DBI ISMIR 2004 Melody Contest 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. 2 úryvky z populární hudby se zpěvákem.

30 Vyhledávání v multimediálních databázích - DBI Hodnocení ISMIR 2004 Jsou navržené tři možné metriky: 1.Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). 2.Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. 3.Edituje vzdálenost mezi odhadovanou a správnou melodií. Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.

31 Vyhledávání v multimediálních databázích - DBI Melodie zpěváka

32 Vyhledávání v multimediálních databázích - DBI Melodie opery

33 Vyhledávání v multimediálních databázích - DBI Úspěšnost

34 Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 Články –Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments (www.ieeexplore.ieee.org/ ) –A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION ( melody.pdf)

35 Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 RNDr. Tomáš Dvořák, CSc. –http://ksvi.mff.cuni.cz/~dvorak/ Zvuk Kvantizace Internet –http://cs.wikipedia.org/ –http://en.wikipedia.org/ –http://www.gbl.cz/seminarky/ –http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)


Stáhnout ppt "Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006."

Podobné prezentace


Reklamy Google