Extrakce melodie z audio signálu Ladislav Vincourek 5.12.2006.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Zvuk v počítači.
TEORIE ROZHODOVÁNÍ A TEORIE HER
MECHANICKÉ KMITÁNÍ A VLNĚNÍ
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Lego Mindstorms Martin Flusser.
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
Akustika.
Dynamické rozvozní úlohy
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
ARITMETICKÁ POSLOUPNOST II
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
ARITMETICKÁ POSLOUPNOST I
Základní škola Zlín, Nová cesta 268, příspěvková organizace
VLASTNOSTI ZVUKU.
Zvuk Mechanické vlnění vzduchu.
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO:
Získávání informací Získání informací o reálném systému
Gravitační vlny v přesných řešeních Einsteinových rovnic RNDr
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Základní škola Karviná – Nové Město tř. Družby 1383
Jazyk vývojových diagramů
Analogový a digitální zvuk a jejich rozdíly

Nejmenší společný násobek
Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
IV. ELEKTRONOVÁ KONFI- GURACE a PSP
Barva zvuku Veronika Kučerová.
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Fyzika 2 – ZS_4 OPTIKA.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou I NFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE Ing. Jan Roubíček.
Elektronická zařízení
Tón, jeho výška a barva.
Základní škola Karviná – Nové Město tř. Družby 1383
A K U S T I K A Z V U K O V É J E V Y.
Přednost početních operací
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO:
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
TRUHLÁŘ I.ročník Výrobní zařízení Střední škola stavební Teplice
Autor: Ondřej Šimeček Verze: 1.1.3
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
Autor: Mgr. Libor Sovadina
Audio Josefína Čadská 4.A.
Šablona:III/2č. materiálu: VY_32_INOVACE_FYZ47 Jméno autora:Mgr. Alena Krejčíková Třída/ročník:2. ročník Datum vytvoření: Výukový materiál zpracován.
Temperované ladění.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
MECHANICKÉ KMITÁNÍ 03. Harmonické kmitání Mgr. Marie Šiková KMITAVÉ A VLNOVÉ JEVY
MECHANICKÉ VLNĚNÍ 17. Zvukové vlnění KMITAVÉ A VLNOVÉ JEVY Mgr. Marie Šiková.
A KUSTICKÉ VLASTNOSTI KLAVÍRU Jan Máca FJFI ČVUT v Praze Fyzikální seminář ZS
Základní škola Benátky nad Jizerou, Pražská 135 projekt v rámci Operačního programu VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST Šablona číslo: III/2 Název: Využívání.
Hudební akustika PhDr. Petr Kalina, Ph.D
Zvukové jevy. Struktura prezentace úvod otázky na úvod výklad příklad/praktická aplikace otázky k zopakování shrnutí.
Ondřej Pavlas, Tomáš Karhut
ZVUKOVÉ JEVY - AKUSTIKA
Hudební akustika PhDr. Petr Kalina, Ph.D
Význam matematiky v hudbě
ZVUK A JEHO VLASTNOSTI.
Mgr. Jan Ptáčník - GJVJ - 2. ročník - Fyzika
Transkript prezentace:

Extrakce melodie z audio signálu Ladislav Vincourek

Vyhledávání v multimediálních databázích - DBI030 2 Úvod Co je to melodie, audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004.

Vyhledávání v multimediálních databázích - DBI030 3 Extrakce melodie

Vyhledávání v multimediálních databázích - DBI030 4 Audio signál signál (z latinského signalis - dávat znamení)

Vyhledávání v multimediálních databázích - DBI030 5 Zvukové vlnění Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až Hz (16 kHz). Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk. Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.

Vyhledávání v multimediálních databázích - DBI030 6 Šířka pásma pro různé zdroje zvuku

Vyhledávání v multimediálních databázích - DBI030 7 Melodie Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce. Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.

Vyhledávání v multimediálních databázích - DBI030 8 Tón je v akustice považován každý zvuk se stálou frekvencí. v hudbě je tón základním stavebním kamenem.

Vyhledávání v multimediálních databázích - DBI030 9 Základní vlastnosti tónu výška – ta je dána především frekvencí, délka – jak dlouho tón zní, síla – ta je dána amplitudou, barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.

Vyhledávání v multimediálních databázích - DBI Další Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.

Vyhledávání v multimediálních databázích - DBI Decibel dB síly zvuku

Vyhledávání v multimediálních databázích - DBI Využití extrakce melodie Melodie poskytuje důležité shrnutí z polyfonní hudba. Její aplikace je důležitá pro analýzu struktury hudby. Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).

Vyhledávání v multimediálních databázích - DBI Melodie x Audio signál Melodie poskytuje konzistentní a přirozený popis hudby. Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání. Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).

Vyhledávání v multimediálních databázích - DBI Typy extrakce melodie Většina převádí jen specifický audio signál –Každá část hudby je realizována harmonickou sadou základních tónů. –Např.: automatické rozpoznávání hlasů Předchozí znalost štítků –Rozpoznávací mechanismus není schopen rozpoznat bez předchozí znalosti reprezentantů. Přes dominantní melodii

Vyhledávání v multimediálních databázích - DBI Postup 1.Vstupní audio signál transformujeme na charakteristickou reprezentaci(short- time magnitude spectrum). 2.Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.

Vyhledávání v multimediálních databázích - DBI Zvukové rysy Originální zvuk musíme převést na mono o max. rozpětí 8 kHz Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)

Vyhledávání v multimediálních databázích - DBI STFT Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka po 10ms)

Vyhledávání v multimediálních databázích - DBI STFT (2) Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků). Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.

Vyhledávání v multimediálních databázích - DBI Support Vector Machine (SVM) Zabývá se řešením úloh vyhledávání v znalostních databázích. Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin

Vyhledávání v multimediálních databázích - DBI SVM (2) Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria. Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.

Vyhledávání v multimediálních databázích - DBI Trénovací data Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou. Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení. Problém najít vhodná tréninková data.

Vyhledávání v multimediálních databázích - DBI Trénovací data (2) Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování. Zdroje mohou být: –Multi-track záznamy –MIDI soubory

Vyhledávání v multimediálních databázích - DBI Multi-track záznamy Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami. Základní četnost melodie je odhadována YIN fundamental frequency estimator (de Cheveigne and Kawahara, 2002). 10 ms omezená 100 hodnot na 1kHz

Vyhledávání v multimediálních databázích - DBI YIN Určuje pravidelný rozsah. P PERIODIC je celková síla harmonického kmitu objeveného pravidelně. P TOT je celková síla v rámu.

Vyhledávání v multimediálních databázích - DBI Jistota tónu Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu). Data se musí ručně ověřit pro integritu tréninku. Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.

Vyhledávání v multimediálních databázích - DBI MIDI soubory Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV). Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie. Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.

Vyhledávání v multimediálních databázích - DBI MIDI soubory (2) V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace. Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.

Vyhledávání v multimediálních databázích - DBI Půltónové posuny Při omezeném tréninku. –Kvalita, kvantita a různorodost Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu. multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.

Vyhledávání v multimediálních databázích - DBI ISMIR 2004 Melody Contest 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů. 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem. 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou. 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou. 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem. 2 úryvky z populární hudby se zpěvákem.

Vyhledávání v multimediálních databázích - DBI Hodnocení ISMIR 2004 Jsou navržené tři možné metriky: 1.Správná výška. Okamžité srovnání mezi odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení). 2.Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné. 3.Edituje vzdálenost mezi odhadovanou a správnou melodií. Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.

Vyhledávání v multimediálních databázích - DBI Melodie zpěváka

Vyhledávání v multimediálních databázích - DBI Melodie opery

Vyhledávání v multimediálních databázích - DBI Úspěšnost

Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 Články –Audio Melody Extraction Based on TimbralSimilarity of Melodic Fragments ( ) –A CLASSIFICATION APPROACH TO MELODY TRANSCRIPTION ( melody.pdf)

Vyhledávání v multimediálních databázích - DBI Zdroje 1/2 RNDr. Tomáš Dvořák, CSc. – Zvuk Kvantizace Internet – – – – (SuVeMa Vojtěch Franc)