Speech@FIT „ostatní jen drží slovo … my ho umíme chytit“ Speech@FIT „ostatní jen drží slovo … my ho umíme chytit“ Honza Černocký ZRE, 11.2.2009
Co je Speech@FIT ? >20-členná skupina zpracování řeči na Ústavu počítačové grafiky a multimédií FIT
Lidé … PhD. research assistants: František Grézl, Ph.D. PhD students Igor Szöke, Martin Karafiát, Ondřej Glembek, Michal Fapšo, Oldřich Plchot, Jiří Kopecký, Tomáš Mikolov, Marcel Kockmann, Květoslav Malý Pre-grad students Valiantsina Hubeika, Jakub Kubalík, Pavel Tomášek, Karel Veselý, Stefan Kombrink Administration Sylva Otáhalová, Jana Slámová Technical and support staff Kamil Chalupníček, Tomáš Cipr, Tomáš Kašpárek, Josef Žižka Dr. Jan “Honza” Černocký Executive direction Prof. Hynek Heřmanský - (IDIAP Martigny, Switzerland) advisor and guru Dr. Lukáš Burget – Scientific director Sub-group leaders: Petr Schwarz – phonemes, implementation Pavel “Pája” Matějka – SpeakerID, LanguageID
… Šrot a SW 3 IBM Blade centra s 44 IBM Blade servery po 2 CPU Cca 120 počítačů v laboratořích 16 TB diskového prostoru Profesionální správa SW: Obecný: HTK, Matlab, SGE, QuickNet Vlastní: STK, SNet
Kategorie rozpoznávání řeči „Co bylo řečeno“ – rozpoznávání řeči (speech recognition) Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) Detekce klíčových slov nebo frází – keyword/keyphrase spotting „Jakou řečí“ – rozpoznávání jazyka (language identification LID) „Kdo to řekl“– rozpoznávání mluvčího Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification Ověření předpokládané identity – verifikace mluvčího – speaker verification.
Evaluace – NIST „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky NIST – agentura vlády USA, http://www.nist.gov/speech Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. Speech@FIT se evaluací účastní (Meeting recognition 2005, 2006, 2007, Language ID 2003, 2005, 2007, SpkVer 1998, 1999, 2006, 2008, Spoken term detection 2006)
Identifikace jazyka - LID Na základě řečového signálu (z mikrofonu či telefonu), určí systém jazyk (čeština, angličtina, čínština, arabština, …) Akustický a fonotaktický přístup
LID – výsledky NIST LRE 2005 – systém Speech@FIT nejlepší ve 2 kategoriích a těsně druhý v jedné kategorii v konkurenci 13 laboratoří ze 4 kontinentů. Potvrzení v NIST LRE 2007 – „viděli jste v TV…“ Nejen výzkumný prototyp – reálná aplikace nasazená u složky MO ČR.
Detekce klíčových slov a frází Úkol KWS: detekce klíčových slov nebo frází: On-line pro sledování např. meetingu v reálném čase. Off-line pro prohledávání velkých audio archívů („audio-Google“).
KWS – výsledky a implementace Velmi dobré umístění v NIST STD 2006 – angličtina a arabština. Aplikace nasazená u MO ČR, několik jazyků. Real-time zpracování pro meeting room – CeBIT 2006. Integrace s multimodálním prohlížečem JFerret
Rozpoznávání mluvčího – SpkID, SpkVer Úkol SpkID: přiřadit řečový segment k jednomu z N mluvčích nebo prohlásit, že to není žádný. Úkol SpkVer: ověřit předpokládanou identitu „Je to opravdu pan Novák?“
Výsledky NIST 2006 Náš systém STBU konsorcium: FIT VUT TNO Human Factors (Nizozemí) Spescom DataVoice (Jižní Afrika) University of Stellenbosch (Jižní Afrika) + SRE 2008 -> NIST page
Kdo to platí – ~10 mil/rok… Fakulta (učitelé FIT a celofakultní výzkumné projekty) EU projekty Byly: SpeechDat-E, SpeeCon, M4, AMI, CareTaker. Jsou: AMIDA, MOBIO, KIWI, weKnowIt. Podávané: MPO, EU, … České grantové agentury: GAČR, FRVŠ, MŠMT, MPO. „Silová“ ministerstva – obrana, vnitro. EU a české průmyslové projekty Spin-off – Phonexia, s.r.o..
Diplomka/PhD ve Speech@FIT ? Připravte se na Celkem drsnou matematiku Celkem drsné programování 100% úvazek Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) Ale také na Zpracování řeči má netriviální teorii, ale okamžitě jej aplikujeme v praxi. Účast na mezinárodních projektech a evaluacích – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. Zahraniční konference Příspěvek k fakultnímu stipendiu Výkonnou administrativu a support FIT. Příjemné lidi, kteří si pomáhají, a mimofakultní akce I před PhD !
Není to zas tak složitý… Zdroj: S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj: T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007.