Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

„ostatní jen drží slovo … my ho umíme chytit “ Honza Černocký ZRE, 11.2.2009.

Podobné prezentace


Prezentace na téma: "„ostatní jen drží slovo … my ho umíme chytit “ Honza Černocký ZRE, 11.2.2009."— Transkript prezentace:

1 „ostatní jen drží slovo … my ho umíme chytit “ Honza Černocký ZRE,

2 2 Co je ? >20-členná skupina zpracování řeči na Ústavu počítačové grafiky a multimédií FIT

3 3 Lidé … Dr. Jan “Honza” Černocký Executive direction Prof. Hynek Heřmanský - (IDIAP Martigny, Switzerland) advisor and guru Dr. Lukáš Burget – Scientific director Sub-group leaders: Petr Schwarz – phonemes, implementation Pavel “Pája” Matějka – SpeakerID, LanguageID PhD. research assistants: František Grézl, Ph.D. PhD students Igor Szöke, Martin Karafiát, Ondřej Glembek, Michal Fapšo, Oldřich Plchot, Jiří Kopecký, Tomáš Mikolov, Marcel Kockmann, Květoslav Malý Pre-grad students Valiantsina Hubeika, Jakub Kubalík, Pavel Tomášek, Karel Veselý, Stefan Kombrink Administration Sylva Otáhalová, Jana Slámová Technical and support staff Kamil Chalupníček, Tomáš Cipr, Tomáš Kašpárek, Josef Žižka

4 4 … Šrot a SW 3 IBM Blade centra s 44 IBM Blade servery po 2 CPU Cca 120 počítačů v laboratořích 16 TB diskového prostoru Profesionální správa SW: Obecný: HTK, Matlab, SGE, QuickNet Vlastní: STK, SNet

5 5 Kategorie rozpoznávání řeči „Co bylo řečeno“ – rozpoznávání řeči (speech recognition) –Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) –Detekce klíčových slov nebo frází – keyword/keyphrase spotting „Jakou řečí“ – rozpoznávání jazyka (language identification LID) „Kdo to řekl“– rozpoznávání mluvčího –Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification –Ověření předpokládané identity – verifikace mluvčího – speaker verification.

6 6 Evaluace – NIST „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky NIST – agentura vlády USA, Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. se evaluací účastní (Meeting recognition 2005, 2006, 2007, Language ID 2003, 2005, 2007, SpkVer 1998, 1999, 2006, 2008, Spoken term detection 2006)

7 7 Identifikace jazyka - LID Na základě řečového signálu (z mikrofonu či telefonu), určí systém jazyk (čeština, angličtina, čínština, arabština, …) Akustický a fonotaktický přístup

8 8 LID – výsledky NIST LRE 2005 – systém nejlepší ve 2 kategoriích a těsně druhý v jedné kategorii v konkurenci 13 laboratoří ze 4 kontinentů. Potvrzení v NIST LRE 2007 – „viděli jste v TV…“ Nejen výzkumný prototyp – reálná aplikace nasazená u složky MO ČR.

9 9 Detekce klíčových slov a frází Úkol KWS: detekce klíčových slov nebo frází: On-line pro sledování např. meetingu v reálném čase. Off-line pro prohledávání velkých audio archívů („audio- Google“).

10 10 KWS – výsledky a implementace Velmi dobré umístění v NIST STD 2006 – angličtina a arabština. Aplikace nasazená u MO ČR, několik jazyků. Real-time zpracování pro meeting room – CeBIT Integrace s multimodálním prohlížečem JFerret

11 11 Rozpoznávání mluvčího – SpkID, SpkVer Úkol SpkID: přiřadit řečový segment k jednomu z N mluvčích nebo prohlásit, že to není žádný. Úkol SpkVer: ověřit předpokládanou identitu „Je to opravdu pan Novák?“

12 12 Výsledky NIST 2006 Náš systém STBU konsorcium: FIT VUT TNO Human Factors (Nizozemí) Spescom DataVoice (Jižní Afrika) University of Stellenbosch (Jižní Afrika) + SRE > NIST page

13 13 Kdo to platí – ~10 mil/rok… Fakulta (učitelé FIT a celofakultní výzkumné projekty) EU projekty –Byly: SpeechDat-E, SpeeCon, M4, AMI, CareTaker. –Jsou: AMIDA, MOBIO, KIWI, weKnowIt. –Podávané: MPO, EU, … České grantové agentury: GAČR, FRVŠ, MŠMT, MPO. „Silová“ ministerstva – obrana, vnitro. EU a české průmyslové projekty Spin-off – Phonexia, s.r.o..

14 14 Diplomka/PhD ve ? Připravte se na –Celkem drsnou matematiku –Celkem drsné programování –100% úvazek –Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) Ale také na –Zpracování řeči má netriviální teorii, ale okamžitě jej aplikujeme v praxi. –Účast na mezinárodních projektech a evaluacích – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. –Zahraniční konference –Příspěvek k fakultnímu stipendiu –Výkonnou administrativu a support FIT. –Příjemné lidi, kteří si pomáhají, a mimofakultní akce I před PhD !

15 15

16 16

17 17 Není to zas tak složitý… Zdroj: S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj: T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007.


Stáhnout ppt "„ostatní jen drží slovo … my ho umíme chytit “ Honza Černocký ZRE, 11.2.2009."

Podobné prezentace


Reklamy Google