Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

„ostatní jen drží slovo … my ho umíme chytit“

Podobné prezentace


Prezentace na téma: "„ostatní jen drží slovo … my ho umíme chytit“"— Transkript prezentace:

1 Speech@FIT „ostatní jen drží slovo … my ho umíme chytit“
„ostatní jen drží slovo … my ho umíme chytit“ Honza Černocký ZRE,

2 Co je ? >20-členná skupina zpracování řeči na Ústavu počítačové grafiky a multimédií FIT

3 Lidé … PhD. research assistants: František Grézl, Ph.D. PhD students
Igor Szöke, Martin Karafiát, Ondřej Glembek, Michal Fapšo, Oldřich Plchot, Jiří Kopecký, Tomáš Mikolov, Marcel Kockmann, Květoslav Malý Pre-grad students Valiantsina Hubeika, Jakub Kubalík, Pavel Tomášek, Karel Veselý, Stefan Kombrink Administration Sylva Otáhalová, Jana Slámová Technical and support staff Kamil Chalupníček, Tomáš Cipr, Tomáš Kašpárek, Josef Žižka Dr. Jan “Honza” Černocký Executive direction Prof. Hynek Heřmanský - (IDIAP Martigny, Switzerland) advisor and guru Dr. Lukáš Burget – Scientific director Sub-group leaders: Petr Schwarz – phonemes, implementation Pavel “Pája” Matějka – SpeakerID, LanguageID

4 … Šrot a SW 3 IBM Blade centra s 44 IBM Blade servery po 2 CPU
Cca 120 počítačů v laboratořích 16 TB diskového prostoru Profesionální správa SW: Obecný: HTK, Matlab, SGE, QuickNet Vlastní: STK, SNet

5 Kategorie rozpoznávání řeči
„Co bylo řečeno“ – rozpoznávání řeči (speech recognition) Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) Detekce klíčových slov nebo frází – keyword/keyphrase spotting „Jakou řečí“ – rozpoznávání jazyka (language identification LID) „Kdo to řekl“– rozpoznávání mluvčího Výběr jednoho mluvčího z množiny – identifikace mluvčího – speaker identification Ověření předpokládané identity – verifikace mluvčího – speaker verification.

6                                                                                                         Evaluace – NIST „Já jsem lepší než ti druzí“ – jen kecy, pokud nejsou stejná data a evaluační metriky NIST – agentura vlády USA, Její řečová skupina organizuje pravidelné evaluace řečových technologií (rozpoznávání řeči, řečníka, jazyka, …). Všechny participující laboratoři obdrží stejná data a mají omezený čas na jejich analýzu a odeslání výsledků NISTu – objektivní srovnání výsledků. Výsledky a detaily jednotlivých systémů se diskutují na následném workshopu. se evaluací účastní (Meeting recognition 2005, 2006, 2007, Language ID 2003, 2005, 2007, SpkVer 1998, 1999, 2006, 2008, Spoken term detection 2006)

7 Identifikace jazyka - LID
Na základě řečového signálu (z mikrofonu či telefonu), určí systém jazyk (čeština, angličtina, čínština, arabština, …) Akustický a fonotaktický přístup

8                                                                                                         LID – výsledky NIST LRE 2005 – systém nejlepší ve 2 kategoriích a těsně druhý v jedné kategorii v konkurenci 13 laboratoří ze 4 kontinentů. Potvrzení v NIST LRE 2007 – „viděli jste v TV…“  Nejen výzkumný prototyp – reálná aplikace nasazená u složky MO ČR.

9 Detekce klíčových slov a frází
Úkol KWS: detekce klíčových slov nebo frází: On-line pro sledování např. meetingu v reálném čase. Off-line pro prohledávání velkých audio archívů („audio-Google“).

10 KWS – výsledky a implementace
Velmi dobré umístění v NIST STD 2006 – angličtina a arabština. Aplikace nasazená u MO ČR, několik jazyků. Real-time zpracování pro meeting room – CeBIT 2006. Integrace s multimodálním prohlížečem JFerret

11 Rozpoznávání mluvčího – SpkID, SpkVer
Úkol SpkID: přiřadit řečový segment k jednomu z N mluvčích nebo prohlásit, že to není žádný. Úkol SpkVer: ověřit předpokládanou identitu „Je to opravdu pan Novák?“

12 Výsledky NIST 2006 Náš systém STBU konsorcium: FIT VUT
TNO Human Factors (Nizozemí) Spescom DataVoice (Jižní Afrika) University of Stellenbosch (Jižní Afrika) + SRE > NIST page

13 Kdo to platí – ~10 mil/rok…
Fakulta (učitelé FIT a celofakultní výzkumné projekty) EU projekty Byly: SpeechDat-E, SpeeCon, M4, AMI, CareTaker. Jsou: AMIDA, MOBIO, KIWI, weKnowIt. Podávané: MPO, EU, … České grantové agentury: GAČR, FRVŠ, MŠMT, MPO. „Silová“ ministerstva – obrana, vnitro. EU a české průmyslové projekty Spin-off – Phonexia, s.r.o..

14 Diplomka/PhD ve Speech@FIT ?
Připravte se na Celkem drsnou matematiku Celkem drsné programování 100% úvazek Dlouhou učící křivku („proč si na meetingu pořád připadám jako debil ?“) Ale také na Zpracování řeči má netriviální teorii, ale okamžitě jej aplikujeme v praxi. Účast na mezinárodních projektech a evaluacích – zajímaví lidé, zajímavá místa (i na déle) a skutečné srovnání se světem. Zahraniční konference Příspěvek k fakultnímu stipendiu Výkonnou administrativu a support FIT. Příjemné lidi, kteří si pomáhají, a mimofakultní akce I před PhD !

15

16

17 Není to zas tak složitý…
Zdroj: S. Young et al.: The HTK Book (for HTK Version 3.4), Cambridge University Engineering Department, 2006 Zdroj: T. Černocký: poznámky z předmětu Matematika pro 1. ročník, ZŠ Krásného Brno, školní rok 2006/2007.


Stáhnout ppt "„ostatní jen drží slovo … my ho umíme chytit“"

Podobné prezentace


Reklamy Google