Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1, 14.2.2014.

Podobné prezentace


Prezentace na téma: "Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1, 14.2.2014."— Transkript prezentace:

1 Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1,

2 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

3 ZRE#1, Honza Černocký /54 Kdo jsme - Skupina založena v 1997 (1 člověk) ~20 lidí v 2012 Fakultní posice Výzkumníci na projektech PhD a mladší studenti Podpora Bosses: Výzkum: Lukáš Burget Management: Honza Černocký Guru: Hynek Heřmanský

4 ZRE#1, Honza Černocký /54 Faculty (faculty members, research funds) EU projects (FP[4567]) Past: SpeechDat, SpeeCon, M4, AMI, CareTaker, AMIDA, MOBIO, weKnowIt, DIRAC, GLOCAL Running: ApiMod US funding – Air Force EOARD, IARPA, DARPA Local funding agencies - Grant Agency of CR, Technology Agency of CR, Ministries of Education, Trade and Commerce, Defense, Interior IT4I supporting academia-industry cooperation Funding ~ 1 M$ / year – the usual slide

5 ZRE#1, Honza Černocký /54 Steel and soft … HW Blade centers with 2400 CPU cores + Many more computers in class-rooms + GPUs >120 TB of disk space Professional administration by Center of Computing Resources. SW commercial (Matlab) free (HTK, SGE) own (TNet, STK, KALDI)

6 ZRE#1, Honza Černocký /54 Co děláme ? Automatická extrakce informací ze spontánní řeči Rozpoznávání mluvčího Rozpoznávání pohlaví Rozpoznávání jazyka Rozpoznávání řeči Identita Pohlaví Jazyk Přepis Jan Novák Muž nebo žena Angličtina ? Němčina ? Sejdeme se u Pavouka. Detekce klíčových slov Detekce “Pavouk” Řeč

7 7/54 Evaluace “Úspěšnost 100% ? Jasně!” … pokud si sami definujeme data, podmínky a evaluační metriky. NIST – agentura vlády USA Pravidelné „benchmark campaigns“ – evaluace – řečových technologií Všichni účastníci mají ta samá data a stejný časový rámec na jejich zpracování a zaslání výsledků => objektivní hodnocení Výsledky a detaily systémů jsou diskutovány na NIST workshopech BUT se účastní … Transcription 2005, 2006, 2007, 2009 Language ID 2003, 2005, 2007, 2009, 2011 Speaker Verification 1998, 1999, 2006, 2008, 2010, IARPA 2011 Spoken term detection 2006 Proč to děláme? Porovnání s ostatními, zajištění (občas i definice ) „state of the art“ Nechceme dělat hovadiny, které lidé vyzkoušeli a nefungovaly.

8 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

9 ZRE#1, Honza Černocký /54 Trochu detailněji – jak se dělá rozpoznávač ? Podle obecného receptu z jakékoliv knihy o detekci nebo rozpoznávání … Nasbírat dataZvolit parametryZvolit modelNatrénovat model Evaluaovat klasifikátor Apriorní znalost problému nasazení

10 ZRE#1, Honza Černocký /54 Klasifikace a rozpoznávání IKR pondělí 13:00 do 16:00, D0206 Lukáš Burget

11 ZRE#1, Honza Černocký /54 A co je výsledkem ? Už jste asi viděli … Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Modely “Dekódování” vstuprozhodnutí

12 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

13 13/54 Nejjednodušší případ – rozpoznávání pohlaví (GID) Nejjednuší aplikace pro implementaci, trénování a nasazení. … a také nejpřesnější (>96% na reálných kanálech) Omezení vyhledávacího prostoru na 50%

14 ZRE#1, Honza Černocký /54 Jak se dělá ? Vyhodnocení GMM skóre MFCC vstup Gaussian Mixture models – kluci, holky Rozhodnutí kluk, holka

15 ZRE#1, Honza Černocký /54 Parametry – Mel frekvenční cepstrální koeficienty Signál není stacionární => rámce A slyšení není lineární – banka filtrů a log.

16 ZRE#1, Honza Černocký /54 Matice parametrů O – sada čísel každých 10ms

17 ZRE#1, Honza Černocký /54 Vyhodenocení skóre kluků a holek Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O:

18 ZRE#1, Honza Černocký /54 Rozhodnutí - „dekódování“

19 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

20 ZRE#1, Honza Černocký /54 Rozpoznávání mluvčího Verifikace Je pan Vopička v nahrávce opravdu pan Vopička ? Enrollment Test Identifikace Mám nahrávku, kdo to je ? Search Najít pana Vopičku v tisících hovorů Identifikace i search se dají převést na N krát verifikaci.

21 ZRE#1, Honza Černocký /54 Základní schéma 2 hypotézy H0: mluvčí v testovací nahrávce není ten, kterého jsme viděli v enrollmentu. H1: mluvčí v testovací nahrávce je ten, kterého jsme viděli v enrollmentu. Log likelihood ratio

22 ZRE#1, Honza Černocký /54 Parametry

23 ZRE#1, Honza Černocký /54 GMM Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O:

24 ZRE#1, Honza Černocký /54 UBM – background model Na co je ? Produkuje likelihood hypotézy H0 „toto není cílový mluvčí“ – nutné pro normalizaci. Adaptuje se z něj model cílového mluvčího, protože pro plné trénování není dost cílových dat. Jak se trénuje ? Ideálně na nahrávkách všech > lidí, každý z několika různých kanálů. Reálně na stovkách mluvčích z dostupných databází (LDC, dotrénování na cílová data).

25 ZRE#1, Honza Černocký /54 Inter-session variability Popsaný systém dokáže postavit průměrně zdatný student s Matlabem za půl dne (IKR). Bude uspokojivě fungovat, pokud bude koherence mezi enrollmentem a testováním. ALE ONA NENÍ    - Inter-session variabilita Variabilita mluvčího Jazyk Emoce, stres, Lombard effect Zdravotní stav Obsah promluvy, atd Variabilita mimo mluvčího Šum Přenosový kanál – mikrofon, kodek, záznamové zařízení… Toto vše snižuje přesnost systému. Vyhrává ten, kdo Dokáže lépe popsat DOBROU VARIABILITU (rozdíly mezi mluvčími) Dokáže lépe zničit ŠPATNOU (inter-session) VARIABILITU

26 ZRE#1, Honza Černocký /54 Boj s inter-session variabilitou Front-end processing Front-end processing Target model Background model Background model LR score normalization LR score normalization   Adapt Feature domainModel domainScore domain Noise removal Tone removal Cepstral mean subtraction RASTA filtering Mean & variance normalization Feature warping Speaker Model Synthesis Eigenchannel compensation Joint Factor Analysis Nuisance Attribute Projection Z-norm T-norm ZT-norm Feature Mapping Eigenchannel adaptation in feature domain 2006

27 ZRE#1, Honza Černocký /54 27 Vysoká inter-session variabilita Vysoká variabilita mezi mluvčími UBM Model cílového mluvčího Příklad: jedna Gaussovka s 2D parametry Princip kompensace ŠPATNÉ variability 1.

28 ZRE#1, Honza Černocký /54 28 Vysoká inter-session variabilita Vysoká variabilita mezi mluvčími UBM Target speaker model Test data Rozpoznávání: nech oba modely pohybovat ve směru vysoké inter-session variability a nastav je tak, aby dávaly co nejvíce pro testovací data Princip kompensace ŠPATNÉ variability 2.

29 ZRE#1, Honza Černocký /54 Boj s inter-session variabilitou Front-end processing Front-end processing Target model Background model Background model LR score normalization LR score normalization   Adapt Feature domainModel domainScore domain Noise removal Tone removal Cepstral mean subtraction RASTA filtering Mean & variance normalization Feature warping Speaker Model Synthesis Eigenchannel compensation Joint Factor Analysis Nuisance Attribute Projection Z-norm T-norm ZT-norm Feature Mapping Eigenchannel adaptation in feature domain 2008

30 ZRE#1, Honza Černocký /54 Od složitého k jednoduchému – total variability i-vectors Zjednodušená verze JFA, s jediným podprostorem, který definuje celkovou variabilitu (nerozlišujeme dobrou a špatnou) Podobně jako u speaker/channel faktorů nám jde o representaci nahrávky pomocí malého počtu parametrů. Už při jednoduchém skórování pomocí skalárního součinu i- vektorů dostáváme výsledky lepší než plná JFA iVectors? i-vectors !

31 ZRE#1, Honza Černocký /54 Od jednoduchého zase ke složitému - PLDA Probabilistic LDA i-vectors jsou samy modelovány pomocí zjednodušené verze JFA. Inspirace [Prince ’07] PLDA pro verifikaci obličejů Model, který umožňuje Rychlé skórování Nejprve extrakce i-vectoru – “voice/print” Pak jednoduché srovnání Symetrické skórování – enrollment vs. test => skóre pro pár dvou nahrávek Funguje pro krátké nahrávky Velmi zajímavé pro masivní zpracování dat N nahrávek proti M mluvčím, Speaker clustering Dříve: 10ky – 100ky párů nahrávka/model za 1s na 1 CPU Nyní: desetitisíce Dá se ořezat, dokonce máme demo na mobilu.

32 ZRE#1, Honza Černocký /54 NIST SRE STBU BUT STBU consortium BUT Spescom datavoice TNO

33 ZRE#1, Honza Černocký /54 NIST SRE 2008

34 ZRE#1, Honza Černocký /54 NIST SRE 2010 ABC systém: Agnitio (Jižní Afrika) BUT CRIM (Kanada) 2012 (také ABC) Také moc dobré!

35 ZRE#1, Honza Černocký /54 NIST SRE 2012 ABC system

36 ZRE#1, Honza Černocký /54 Jak to ? Umíme teorii klasifikace a rozpoznávání vzorů. Jsme v kontaktu s lidmi, kteří jsou světovými špičkami – Patrick Kenny, Niko Brümmer, další. dokážeme rychle implementovat nové nápady, a testovat Analyzujeme výsledky a přemýšlíme o nich Dokážeme se dívat mimo obor (uvnitř zpracování řeči – rozpoznávání jazyka, přepis, detekce klíčových slov) i jinde (grafika - Prince) a rychle aplikovat nápady. A máme hodně POČÍTAČŮ, takže kolegy občas pobijeme HRUBOU SILOU.

37 ZRE#1, Honza Černocký /54 Spolupráce v rozpoznávání mluvčího Komunita NIST SRE 2010 workshop na FITu. Odyssey 2010: The Speaker and Language Recognition Workshop také na FITu. BOSARIS – 5ti týdenní výzkumný workshop v červenci (incl. Patrick Kenny a Niko Brümmer) také na FITu. Software pro svět: JFA demo na BOSARIS toolkit Lidi, co se jezdí naučit JFA, i-vectors, a spol.

38 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

39 ZRE#1, Honza Černocký /54 Identifikace jazyka - LID Jakým jazykem se mluvilo LID

40 ZRE#1, Honza Černocký /54 Dva hlavní přístupy Akustika – zase Gaussovky … Fonotaktika – fonémový rozpoznávač + fonotaktický model.

41 ZRE#1, Honza Černocký /54 Na čem trénovat LID ? Nahrávky (mnoho) daného jazyka. Možnost automatického získávání detekce telefonních hovorů v internetových archívech vysílání Pomoc LDC pro NIST LRE 2008 Projekt US Air Force EOARD. Dá se i u klienta na ostrých datech. Současná práce JFA, i-vectors a spol. – i v LID je nutné bojovat s inter- session (a tentokrát i s inter-speaker) variabilitou.

42 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

43 ZRE#1, Honza Černocký /54 Přepis řeči na text Voice2text V2T Speech2text S2T Large vocabulary continuous speech recognition LVCSR Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Akustické modely “Dekódování” vstuprozhodnutí Jazykový model Výslovnostní slovník Rozponávací SÍŤ

44 ZRE#1, Honza Černocký /54 Rozpoznávací síť

45 ZRE#1, Honza Černocký /54 Na čem se trénuje V2T ? Závislé na jazyce a na doméně Problémem je fonetická sada a slovník Snaha o přístupy, které budou pracovat automaticky Korpus mluvené řeči + textové popisy Fonetická sada, výslovnostní slovník Textový korpus Systém pro rozpoznávání řeči

46 ZRE#1, Honza Černocký /54 BABEL IARPA projekt Jazyky pro 2013 Cantonese Turkish Pashto Tagalog Surprise - Vietnamese 2014 Bengali Assamese Zulu Haiti Creole Lao Surprise ??

47 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

48 48/54 Přístupy Akustický KWS Prohledávání výstupu LVCSR Prohledávání výstupu LVCSR s pod-slovními (sub-word) jednotkami Detekce klíčových slov - KWS Co ? Kde ? S jakou konfidencí ? Model klíčového slova vs. anti-model. Volby: Jaký je požadovaný poměr mezi rychlostí a přesností ? Bude se zpracovávat jen jednou (taktické aplikace) nebo prohledávat (intelligence) ? Vadí nám slova mimo slovník - Out of Vocabulary (OOV) words?

49 ZRE#1, Honza Černocký /54 Akustika není problém s OOVs  Indexování není možné  až 0.01xRT  Nemá sílu jazykového modelu, problém s krátkými slovy. Model klíčového slova proti modelu pozadí Bez modelu jazyka

50 ZRE#1, Honza Černocký /54 Prohledávání výstupu LVCSR rychlost vyhledávání přesnější na častých slovech  limitován slovníkem LVCSR vocabulary – OOV problém  LVCSR je složitější a pomalejší než jen akustika. LVCSR, pak vyhledávání V 1-best nebo lattici. Možnost indexování !

51 ZRE#1, Honza Černocký /54 Prohledávání výstupu LVCSR + sub-words Zachována rychlost vyhledávání Zachována přesnost na častých slovech. Dají se vyhledávat OOV – bez nového zpracování dat!  LVCSR a indexování jsou složitější. LVCSR se slovy a pod- slovními jednotkami Indexování slov i pod- slovních jednotek

52 ZRE#1, Honza Černocký /54 Agenda skupina klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text detekce klíčových slov organisace a projekty

53 ZRE#1, Honza Černocký /54 Výzkum, vývoj a produktizace a jejich výstupy Výzkum Vývoj technologií Vývoj produktů Články, reporty, experimentální kód (Matlab, C++, lepidlo ve skriptech), datové soubory Cílem je přesnost Opakovatelnost, stabilita, rychlost, dokumentace  Cílem je stabilita (zpracování chyb, verifikace kódu, testování na různých úrovních) Pravidelné vývojové cykly a plánování Dobře definovaná rozhraní (APIs) Dokumentace Integrace s dalšími technologiemi Zaměření na funkcionalitu integrovaného řešení Uživatelská rozhraní

54 ZRE#1, Honza Černocký /54 Ze do aplikací Phonexia s.r.o. Existuje od r Vývoja komercializace modulů a systémů pro dolování informací z řeči pro Zákazníky z oblasti bezpečnosti a obrany Call Centra - kontakt: Petr Schwarz, Ph.D.http://phonexia.com/ Podporováno reklamní agenturou:

55 ZRE#1, Honza Černocký /54 Ze do aplikací ReplayWell s.r.o Existuje od r Vývoj a komercializace systému pro prohlížení přednášek pro konference a výuku - kontakt: Igor Szöke, Ph.D.http://www.superlectures.com/


Stáhnout ppt "Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1, 14.2.2014."

Podobné prezentace


Reklamy Google