Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006
2
Vyhledávání v multimediálních databázích - DBI030 2 Úvod Co je to melodie, audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004.
3
5.12.2006Vyhledávání v multimediálních databázích - DBI030 3 Extrakce melodie
4
5.12.2006Vyhledávání v multimediálních databázích - DBI030 4 Audio signál signál (z latinského signalis - dávat znamení)
5
5.12.2006Vyhledávání v multimediálních databázích - DBI030 5 Zvukové vlnění Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz). Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.
6
5.12.2006Vyhledávání v multimediálních databázích - DBI030 6 Šířka pásma pro různé zdroje zvuku
7
5.12.2006Vyhledávání v multimediálních databázích - DBI030 7 Melodie Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.
8
5.12.2006Vyhledávání v multimediálních databázích - DBI030 8 Tón je v akustice považován každý zvuk se stálou frekvencí. v hudbě je tón základním stavebním kamenem.
9
5.12.2006Vyhledávání v multimediálních databázích - DBI030 9 Základní vlastnosti tónu výška – ta je dána především frekvencí, délka – jak dlouho tón zní, síla – ta je dána amplitudou, barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.
10
5.12.2006Vyhledávání v multimediálních databázích - DBI030 10 Další Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.
11
5.12.2006Vyhledávání v multimediálních databázích - DBI030 11 Decibel dB síly zvuku
12
5.12.2006Vyhledávání v multimediálních databázích - DBI030 12 Využití extrakce melodie Melodie poskytuje důležité shrnutí z polyfonní hudba. Její aplikace je důležitá pro analýzu struktury hudby. Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).
13
5.12.2006Vyhledávání v multimediálních databázích - DBI030 13 Melodie x Audio signál Melodie poskytuje konzistentní a přirozený popis hudby. Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).
14
5.12.2006Vyhledávání v multimediálních databázích - DBI030 14 Typy extrakce melodie Většina převádí jen specifický audio signál –Každá část hudby je realizována harmonickou sadou základních tónů. –Např.: automatické rozpoznávání hlasů Předchozí znalost štítků –Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. Přes dominantní melodii
15
5.12.2006Vyhledávání v multimediálních databázích - DBI030 15 Postup 1.Vstupní audio signál transformujeme na charakteristickou reprezentaci(short- time magnitude spectrum). 2.Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.
16
5.12.2006Vyhledávání v multimediálních databázích - DBI030 16 Zvukové rysy Originální zvuk musíme převést na mono o max. rozpětí 8 kHz Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)
17
5.12.2006Vyhledávání v multimediálních databázích - DBI030 17 STFT Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms)
18
5.12.2006Vyhledávání v multimediálních databázích - DBI030 18 STFT (2) Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.
19
5.12.2006Vyhledávání v multimediálních databázích - DBI030 19 Support Vector Machine (SVM) Zabývá se řešením úloh vyhledávání v znalostních databázích. Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin
20
5.12.2006Vyhledávání v multimediálních databázích - DBI030 20 SVM (2) Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.
21
5.12.2006Vyhledávání v multimediálních databázích - DBI030 21 Trénovací data Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. Problém najít vhodná tréninková data.
22
5.12.2006Vyhledávání v multimediálních databázích - DBI030 22 Trénovací data (2) Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. Zdroje mohou být: –Multi-track záznamy –MIDI soubory
23
5.12.2006Vyhledávání v multimediálních databázích - DBI030 23 Multi-track záznamy Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). 10 ms omezená 100 hodnot na 1kHz
24
5.12.2006Vyhledávání v multimediálních databázích - DBI030 24 YIN Určuje pravidelný rozsah. P PERIODIC je celková síla harmonického kmitu objeveného pravidelně. P TOT je celková síla v rámu.
25
5.12.2006Vyhledávání v multimediálních databázích - DBI030 25 Jistota tónu Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). Data se musí ručně ověřit pro integritu tréninku. Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.
26
5.12.2006Vyhledávání v multimediálních databázích - DBI030 26 MIDI soubory Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.
27
5.12.2006Vyhledávání v multimediálních databázích - DBI030 27 MIDI soubory (2) V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.
28
5.12.2006Vyhledávání v multimediálních databázích - DBI030 28 Půltónové posuny Při omezeném tréninku. –Kvalita, kvantita a různorodost Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.
29
5.12.2006Vyhledávání v multimediálních databázích - DBI030 29 ISMIR 2004 Melody Contest 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. 2 úryvky z populární hudby se zpěvákem.
30
5.12.2006Vyhledávání v multimediálních databázích - DBI030 30 Hodnocení ISMIR 2004 Jsou navržené tři možné metriky: 1.Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). 2.Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. 3.Edituje vzdálenost mezi odhadovanou a správnou melodií. Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.
31
5.12.2006Vyhledávání v multimediálních databázích - DBI030 31 Melodie zpěváka
32
5.12.2006Vyhledávání v multimediálních databázích - DBI030 32 Melodie opery
33
5.12.2006Vyhledávání v multimediálních databázích - DBI030 33 Úspěšnost
34
5.12.2006Vyhledávání v multimediálních databázích - DBI030 34 Zdroje 1/2 Články –Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments (www.ieeexplore.ieee.org/ ) –A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION ( www.ee.columbia.edu/~dpwe/pubs/ismir05- melody.pdf)
35
5.12.2006Vyhledávání v multimediálních databázích - DBI030 35 Zdroje 1/2 RNDr. Tomáš Dvořák, CSc. –http://ksvi.mff.cuni.cz/~dvorak/ Zvuk Kvantizace Internet –http://cs.wikipedia.org/ –http://en.wikipedia.org/ –http://www.gbl.cz/seminarky/ –http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.