Realtime identifikace osob podle hlasu

Slides:



Advertisements
Podobné prezentace
Zvuk v počítači.
Advertisements

Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
MATLAB LEKCE 8.
Dualita úloh lineárního programování a analýza citlivosti
Cvičení 1 Data pro experimentální práci
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
LOGISTICKÉ SYSTÉMY 6/14.
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
Koncepce rozvoje a řízení vědy a výzkumu
Základy informatiky přednášky Kódování.
Algoritmy a struktury neuropočítačů ASN - P1 Prof.Ing. Jana Tučková,CSc. Katedra teorie.
Základy práce s počítačem – lekce II. Zvyšování IT gramotnosti zaměstnanců vybraných fakult MU.
DOK.
Informatika pro ekonomy II přednáška 2
Informatika pro ekonomy II přednáška 3
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Difrakce na difrakční mřížce
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Algoritmy a programovací techniky
Algoritmy vyhledávání a řazení
Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou I NFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE Ing. Jan Roubíček.
QT intervaly – metody detekce konce T vlny Jitka Jirčíková.
Tato prezentace byla vytvořena
Diskrétní Fourierova transformace
ZPRACOVÁNÍ A ANALÝZA BIOSIGNÁLŮ
Aplikační programy, programovací jazyky, formáty datových souborů
ZÁZNAM A KÓDOVÁNÍ INFORMACÍ
Programové vybavení počítače
Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu
Aplikační počítačové prostředky X15APP MATLAB Katedra elektroenergetiky, Fakulta elektrotechniky ČVUT, Technická 2, Praha 6 Ing. Zbyněk Brettschneider.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
SOFTWARE, USPOŘÁDÁNÍ DAT V POČÍTAČI I. Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Světlana Filipová Materiál zpracován v rámci projektu.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
Rozpoznávání v řetězcích
CW01 - Teorie měření a regulace © Ing. Václav Rada, CSc. cv ZS – 2010/2011 Ústav technologie, mechanizace a řízení staveb.
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
Informatika pro ekonomy přednáška 4
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
1 Audio retrieval Referát Vyhledávání v multimediálních databázích MFF UK 2005/06 Jan Kodym.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Výuka základů algoritmického myšlení na prvním stupni základních škol
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Programování v MATLABu © Leonard Walletzký, ESF MU, 2000.
Využití neuronových sítí IVTH – Informační technologie ve vodním hospodářství Vypracoval: Jiří Vacek Z-92.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
VŠB - TU Ostrava1 Wavelet transformace v metodách zvýraznění řeči Petr OPRŠAL.
Geografické informační systémy pojetí, definice, součásti
Matematické modelování transportu neutronů SNM 1, ZS 09/10 Tomáš Berka, Marek Brandner, Milan Hanuš, Roman Kužel.
Grafické systémy II. Ing. Tomáš Neumann Interní doktorand kat. 340 Vizualizace, tvorba animací.
Gymnázium Jakuba Škody Septima A 2011/2012.  Cílem tohoto matematicko-fyzikálního projektu byla ukázka využití vektorů v praxi.  Základním úkolem projektu.
České vysoké učení technické v Praze Fakulta dopravní K620 – ÚSTAV ŘÍDICÍ TECHNIKY A TELEMATIKY ČVUT FD, Konviktská 20, Praha května 2016 Stávající.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Vypracoval / Roman Málek
Laplaceova transformace
Algoritmizace – základní pojmy
Dobývání znalostí z databází znalosti
Orbis pictus 21. století Přenosové schéma
4. cvičení
Hardware číslicové techniky
Ing. Milan Houška KOSA PEF ČZU v Praze
Informatika pro ekonomy přednáška 4
ANALÝZA A KLASIFIKACE DAT
Informatika pro ekonomy přednáška 4
Úvod do počítačových sítí - Linková úroveň
Střední škola obchodně technická s. r. o.
Transkript prezentace:

Realtime identifikace osob podle hlasu (rozpoznávání izolovaných slov)

ČÁSTI PREZENTACE základní problém zpracování vybrané řešení praktické výsledky rozdělení projektu použitá literatura

ZÁKLADNÍ PROBLÉM komunikace se stroji mluvenou řečí je zákl. prostředkem přenosu informací přenos informace se obvykle skládá z určité posloupnosti akcí: - zpracování řečového signálu - syntéza a rozpoznávání řeči - porozumění významu rozpoznaných slov a vět

ZPRACOVÁNÍ AKUSTICKÉHO SIGNÁLU analýza daného zvukového souboru krátkodobá analýza - úseky řečového signálu se zpracovávají tak, jako by to byly oddělené krátké zvuky výsledkem analýzy je soubor čísel, které popisují daný mikrosegment, získané kódováním tvaru vlny (pcm)

ZPRACOVÁNÍ AKUSTICKÉHO SIGNÁLU získání vektoru obsahující jednotlivé složky zvukového souboru zvolenou vzorkovací hodnotou k analýze zvukového souboru jsme použili matematický software MATLAB

ROZPOZNÁVÁNÍ IZOLOVANÝCH SLOV aplikace dynamického programování Základní odlišnosti jsou v časovém členění nepoměru mezi délkami částí uvnitř slova algoritmus DTW - porovnává řečové obrazy na principu dynamického programování

ROZPOZNÁVÁNÍ IZOLOVANÝCH SLOV modelování slov skrytými Markovými modely - vychází z představy o vytváření řeči vektorová kvantizace - vytvoření kódové knihy typových spektrálních vzorů a nahrazení indexem „nejbližšího“ typového spektrálního vzoru z kódové knihy

ZPRACOVÁNÍ AKUSTICKÉHO SIGNÁLU 1) Vytvoření vzorků (izolované slovo) získání vzorků 4 řečníků – vyslovené slovo („AHOJ“) s různými vzorkovacími frekvencemi a to konkrétně: 8 kHz 16 kHz 44,1 kHz. Pro testovací účely použity vzorky s vzorkovací frekvencí 16kHz

Ukázka akustického signálu – slovo „AHOJ“

2) Zpracování akustického signálu - akustický signál byl načten ve formě WAV souboru, dále kvantifikován (převeden na int hodnoty) a uložen do textového souboru pomocnou funkcí MATLABU function wav2txt(filename) Try [y,fs,bits] = wavread(filename); // načtení vzorků y = uencode(y,16); // kvantizace y = double(y); fid = fopen(strcat(filename,'.txt'),'w'); fprintf(fid,'%d\n',y); fclose(fid); end

3) Vektorový model - každý dokument vyjádřit jako vektor dj v n-rozměrném prostoru Rn a každému dokumentu je pak přiřazen vektor vah 4) Výpočet podobnosti vektorů ve vektorovém modelu - jejich vzájemnou podobnost budeme měřit pomocí vyjádřené Kosinovy vzdálenosti

Test na příkladu vektorů: Vektor u={1,2,3,4,5} Vektor u={1,3,0,2,5} cos 90 = 0 - vektory mezi sebou svírají pravý úhel – nejsou si vůbec podobné cos 0 = 1 - vektory mezi sebou svírají nulový úhel – jsou si nejvíce podobné

PROBLÉMY - každý vektor reprezentující řečníka měl odlišný počet prvků, způsobena rozdílnou délkou hudební nahrávky - počet složek jednotlivých vektorů 8kHz, 16kHz a 44,1kHz velmi rozdílný  hledání nového řešení. Histogram četností Aplikace SVD Time Stretch – WaveLab, Cubase, CoolEdit

ŘEŠENÍ histogram četností – vytvoření nového vektoru, který bude obsahovat četnost výskytu opakujících se složek akustického signálu. Tak získáme vektory stejné velikosti a z těchto vektorů bude vytvořena matice F reprezentující množinu všech dokumentů

ŘEŠENÍ Indexování latentní sémantiky SVD (singulární rozklad)– slouží pro výraznou redukci šumu v akustickém signálu. Princip spočívá v rozložení původní matice A na ortogonální matice U a V, a diagonální matici Σ.

IMPLEMENTACE PRAKTICKÉ VÝSLEDKY Implementace v jazyce C Implementace v jazyce C# implementace výše uvedeného přístupu není však příliš kvalitní, nicméně nám dá informaci o jisté podobnosti našich vzorků

ROZDĚLENÍ PROJEKTU Miroslav Trecha, tre041 vypracování analýzy – tvorba dokumentu, zajištění potřebných materiálů a softwaru, tvorba akustických vzorků, práce s Matlabem, implementace v C# Tomáš Huňka, hun012 zajištění potřebných materiálů a informací, podíl na analýze, zajištění potřebného hardwarového vybavení, tvorba akustických vzorků, tvorba prezentace, implementace v C

POUŽITÉ MATERIÁLY Problematika a teorie - J. Psutka – Komunikace s počítačem mluvenou řečí Problematika a teorie – zpracování akustické signálu, vybrání použitelného modelu pro reprezentaci dat, implementace - M.Krátký – Využití SVD pro indexování latentní sémantiky Internetové zdroje: http://www.eecg.utoronto.ca/~aamodt