Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006.

Podobné prezentace


Prezentace na téma: "Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006."— Transkript prezentace:

1 Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006

2 Vyhledávání v multimediálních databázích - DBI030 2 Úvod Co je to melodie, audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004.

3 5.12.2006Vyhledávání v multimediálních databázích - DBI030 3 Extrakce melodie

4 5.12.2006Vyhledávání v multimediálních databázích - DBI030 4 Audio signál signál (z latinského signalis - dávat znamení)

5 5.12.2006Vyhledávání v multimediálních databázích - DBI030 5 Zvukové vlnění Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz). Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.

6 5.12.2006Vyhledávání v multimediálních databázích - DBI030 6 Šířka pásma pro různé zdroje zvuku

7 5.12.2006Vyhledávání v multimediálních databázích - DBI030 7 Melodie Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.

8 5.12.2006Vyhledávání v multimediálních databázích - DBI030 8 Tón je v akustice považován každý zvuk se stálou frekvencí. v hudbě je tón základním stavebním kamenem.

9 5.12.2006Vyhledávání v multimediálních databázích - DBI030 9 Základní vlastnosti tónu výška – ta je dána především frekvencí, délka – jak dlouho tón zní, síla – ta je dána amplitudou, barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.

10 5.12.2006Vyhledávání v multimediálních databázích - DBI030 10 Další Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.

11 5.12.2006Vyhledávání v multimediálních databázích - DBI030 11 Decibel dB síly zvuku

12 5.12.2006Vyhledávání v multimediálních databázích - DBI030 12 Využití extrakce melodie Melodie poskytuje důležité shrnutí z polyfonní hudba. Její aplikace je důležitá pro analýzu struktury hudby. Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).

13 5.12.2006Vyhledávání v multimediálních databázích - DBI030 13 Melodie x Audio signál Melodie poskytuje konzistentní a přirozený popis hudby. Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).

14 5.12.2006Vyhledávání v multimediálních databázích - DBI030 14 Typy extrakce melodie Většina převádí jen specifický audio signál –Každá část hudby je realizována harmonickou sadou základních tónů. –Např.: automatické rozpoznávání hlasů Předchozí znalost štítků –Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. Přes dominantní melodii

15 5.12.2006Vyhledávání v multimediálních databázích - DBI030 15 Postup 1.Vstupní audio signál transformujeme na charakteristickou reprezentaci(short- time magnitude spectrum). 2.Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.

16 5.12.2006Vyhledávání v multimediálních databázích - DBI030 16 Zvukové rysy Originální zvuk musíme převést na mono o max. rozpětí 8 kHz Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)

17 5.12.2006Vyhledávání v multimediálních databázích - DBI030 17 STFT Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms)

18 5.12.2006Vyhledávání v multimediálních databázích - DBI030 18 STFT (2) Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.

19 5.12.2006Vyhledávání v multimediálních databázích - DBI030 19 Support Vector Machine (SVM) Zabývá se řešením úloh vyhledávání v znalostních databázích. Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin

20 5.12.2006Vyhledávání v multimediálních databázích - DBI030 20 SVM (2) Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.

21 5.12.2006Vyhledávání v multimediálních databázích - DBI030 21 Trénovací data Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. Problém najít vhodná tréninková data.

22 5.12.2006Vyhledávání v multimediálních databázích - DBI030 22 Trénovací data (2) Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. Zdroje mohou být: –Multi-track záznamy –MIDI soubory

23 5.12.2006Vyhledávání v multimediálních databázích - DBI030 23 Multi-track záznamy Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). 10 ms omezená 100 hodnot na 1kHz

24 5.12.2006Vyhledávání v multimediálních databázích - DBI030 24 YIN Určuje pravidelný rozsah. P PERIODIC je celková síla harmonického kmitu objeveného pravidelně. P TOT je celková síla v rámu.

25 5.12.2006Vyhledávání v multimediálních databázích - DBI030 25 Jistota tónu Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). Data se musí ručně ověřit pro integritu tréninku. Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.

26 5.12.2006Vyhledávání v multimediálních databázích - DBI030 26 MIDI soubory Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.

27 5.12.2006Vyhledávání v multimediálních databázích - DBI030 27 MIDI soubory (2) V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.

28 5.12.2006Vyhledávání v multimediálních databázích - DBI030 28 Půltónové posuny Při omezeném tréninku. –Kvalita, kvantita a různorodost Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.

29 5.12.2006Vyhledávání v multimediálních databázích - DBI030 29 ISMIR 2004 Melody Contest 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. 2 úryvky z populární hudby se zpěvákem.

30 5.12.2006Vyhledávání v multimediálních databázích - DBI030 30 Hodnocení ISMIR 2004 Jsou navržené tři možné metriky: 1.Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). 2.Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. 3.Edituje vzdálenost mezi odhadovanou a správnou melodií. Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.

31 5.12.2006Vyhledávání v multimediálních databázích - DBI030 31 Melodie zpěváka

32 5.12.2006Vyhledávání v multimediálních databázích - DBI030 32 Melodie opery

33 5.12.2006Vyhledávání v multimediálních databázích - DBI030 33 Úspěšnost

34 5.12.2006Vyhledávání v multimediálních databázích - DBI030 34 Zdroje 1/2 Články –Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments (www.ieeexplore.ieee.org/ ) –A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION ( www.ee.columbia.edu/~dpwe/pubs/ismir05- melody.pdf)

35 5.12.2006Vyhledávání v multimediálních databázích - DBI030 35 Zdroje 1/2 RNDr. Tomáš Dvořák, CSc. –http://ksvi.mff.cuni.cz/~dvorak/ Zvuk Kvantizace Internet –http://cs.wikipedia.org/ –http://en.wikipedia.org/ –http://www.gbl.cz/seminarky/ –http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)


Stáhnout ppt "Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006."

Podobné prezentace


Reklamy Google