Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke ZRE,
2 Osnova Použité zkratky Trénovací / testovací data Popis systémů –FastLVCSR: KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu. –HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním. –Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu. –Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě. Porovnání systémů - Brno Závěr a porovnání všech systémů
3 Použité zkratky a termíny KWS - detektor klíčových slov Ak. KWS - Akustický KWS LVCSR - slovní rozpoznávač Hybrid LVCSR - slovně/podslovní rozpoznávač Lattice - (svaz/mřížka) dopředný acyklický graf hypotéz LM - jazykový model AM - akustický model RT - real time faktor (1 jádro v CPU) Term - klíčové slovo OOV - slovo mimo rozpoznávací slovník
44 Trénovací / testovací data Trénování Akustický model: 35.75h řeči Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky (513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová data(0,8G) Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT) Slovník HybridLVCSR: 1 mil. slov fonémových multigramů, výslovnosti pomocí transc (ČVUT) Testování 2h dat, 502 termů, 1712 výskytů Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Termy, které jsou podslovy jiných termů: 19 (90 výskytů)
5 FastLVCSR Rychlý LVCSR s malým slovníkem včetně hledaných termů. 2-gram LM, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x00 MB RAM. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu)
6 FastLVCSR Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.
7 HybridLVCSR LVCSR s velkým slovníkem (1 mil.) a schopností rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Nahrávky se zpracovávají jen jednou a ukládají do indexu. Při změně seznamu klíčových slov lze rychle vyhledávat v indexu (~ RT). Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro index. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)
8 HybridLVCSR Z 502 termů bylo 28 OOV (1 mil. slovník). Z 1712 výskytů bylo 35 OOV. Možnost detekce OOV zlepšilo úspěšnost o 1%. Podobně jako u FastLVCSR má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.
9 Akustický CD-GM Akustický KWS, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR). Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,3 (příznaky) + dekódování (údaj z grafu)
10 Akustický CD-GM Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.
11 Akustický CI-NN Rychlý akustický KWS, kont. nezávislé fonémy, CMN/CVN. Jako akustický model je použita neuronová síť. Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,5 (příznaky + dekódování)
12 Porovnání systémů - přesnost
13 Porovnání systémů - délka slov Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá.
14 Porovnání systémů - 1fon. Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Podobná slova snižují úspěšnost akustických systémů.
15 Porovnání systémů - podslova Termy, které jsou podslovy jiných termů: 19 (90 výskytů) Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost.
16 Porovnání systémů - rychlost Závislost úspěšnosti na rychlosti systému. LVCSR: +0.5RT (vtln, cmllr fast) Ak. CD-GM: +0.3RT (vtln)
17 Porovnání systémů - ak. modely Příklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).
18 Shrnutí Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické FastLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu. HybridLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu. Akustický CD-GM je vhodný pro spolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR. Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).