Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Téma: SČÍTÁNÍ A ODČÍTÁNÍ RACIONÁLNÍCH ČÍSEL 3
Produkce odpadů 2002 – 2007 obce ORP Šumperk
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona III/2VY_32_INOVACE_705.
Cvičení 1 Data pro experimentální práci
Mobilní display kampaně
SEZÓNA 2012/2013. TRÉNINKOVÉ JEDNOTKY  POČET TJ: 109  V MINUTÁCH: 8175  V HODINÁCH: 136,25  V DNECH: 5,67.
49. mistrovství světa ve zpracování textu na počítači
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
Dlouhodobá paměť autor : Tomáš Geryk kontakt : web :
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
Systémy tisku CTP a CTF semestrální práce
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Komprese barev Jakub Gemrot Ondřej Burkert. Popis problému Běžné obrázky mají 16,7 mil. barev Běžné obrázky mají 16,7 mil. barev Problém: Jak je rozumně.
Kdo chce být milionářem ?
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
Diplomová práce Autorka: Ing. et Ing. Zuzana Hynoušová
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Gymnázium Jiřího Ortena KUTNÁ HORA
ČLOVĚK A JEHO SVĚT 2. Ročník - hodiny, minuty Jana Štadlerová ŽŠ Věšín.
Lineární rovnice Běloun 91/1 a
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
Základní škola národního umělce Petra Bezruče, Frýdek-Místek, tř. T. G
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Název školy Základní škola Domažlice, Komenského 17 Číslo projektu CZ.1.07/1.4.00/ Název projektu „EU Peníze školám ZŠ Domažlice“ Číslo a název.
Tvorba prezentací v programu PowerPoint Autor: ing. Jaroslav Mochan
Zábavná matematika.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Letokruhy Projekt žáků Střední lesnické školy a střední odborné školy sociální ve Šluknově.
projekt PŘEDPOVĚĎ POČASÍ předpověď počasí na 13. května 2014.
METROPOLITNÍ PŘENOSOVÝ SYSTÉM
projekt PŘEDPOVĚĎ POČASÍ
Projekt PŘEDPOVĚĎ POČASÍ. Předpověď počasí na
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Únorové počítání.
52_INOVACE_ZBO2_1364HO Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Rozvoj vzdělanosti.
Jemný úvod do detekce klíčových slov Honza Černocký Fakulta informačních technologií VUT v Brně ZRE poslední přednes,
předpověď počasí na 14. května 2009 OBLAČNOST 6.00.
73.1 Zaokrouhlování desetinných čísel
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
„ostatní jen drží slovo … my ho umíme chytit“
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Vnějšího prostředí Marián Vávra Ekonomické modelování.
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není – li uvedeno jinak, je tento materiál zpracován.
MS PowerPoint Příloha - šablony.
Pojmy a interpretace.
1 Ekonomický růst a trh práce (několik postřehů) František Cvengroš Smilovice, prosinec 2004.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Speech – a micro-intro Honza Černocký BUT
Jan Majer, Tomáš Pytlík, Tomáš Vondráček IKE D o k u m e n t o g r a f i c k é i n f o r m a č n í s y s t é m y.
Základní škola Podbořany, Husova 276, okres Louny
Přednost početních operací
Slovní úlohy řešené soustavou rovnic
Predikce hospitalizační mortality u akutního infarktu myokardu
Porovnání výroby a prodejů vozidel ve světě
Strana: 1 © Vema, a. s. Ucelené řešení pro řízení lidských zdrojů, ekonomiky a logistiky.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Systémy zpracování řeči - SRE Úvod Honza Černocký 2008/09.
MorČe morfologické značkování češtiny
Neuronové sítě.
Neuronové sítě.
Transkript prezentace:

Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza Černocký, Mišo Fapšo, Ondřej Glembek, František Grézl, Kamil Chalupníček, Martin Karafiát, Jiří Kopecký, Pavel Matějka, Tomáš Mikolov, Petr Schwarz, Igor Szöke ZRE,

2 Osnova Použité zkratky Trénovací / testovací data Popis systémů –FastLVCSR: KWS založený na LVCSR s vkládáním klíčových slov do jazykového modelu. –HybridLVCSR: KWS založený na LVCSR s indexací a rychlým vyhledáváním. –Ak. CD-GM: Akustický KWS založený na kontextově závislých fonémech a GMM/HMM akustickém modelu. –Ak. CI-NN: Akustický KWS založený na kontextově nezávislých fonémech a akustickém modelu pomocí neuronové sítě. Porovnání systémů - Brno Závěr a porovnání všech systémů

3 Použité zkratky a termíny KWS - detektor klíčových slov Ak. KWS - Akustický KWS LVCSR - slovní rozpoznávač Hybrid LVCSR - slovně/podslovní rozpoznávač Lattice - (svaz/mřížka) dopředný acyklický graf hypotéz LM - jazykový model AM - akustický model RT - real time faktor (1 jádro v CPU) Term - klíčové slovo OOV - slovo mimo rozpoznávací slovník

44 Trénovací / testovací data Trénování Akustický model: 35.75h řeči Jazykový model pro FastLVCSR: přednášky(251K) + telefonní nahrávky (513K) + PMKBMK(1,2M) + titulky(3M) + VOA (147K) = 5,4M slov Jazykový model pro HybridLVCSR: FastLVCSR + CNK (0,5G) + webová data(0,8G) Slovník FastLVCSR: 50K + Termlist, výslovnosti pomocí transc (ČVUT) Slovník HybridLVCSR: 1 mil. slov fonémových multigramů, výslovnosti pomocí transc (ČVUT) Testování 2h dat, 502 termů, 1712 výskytů Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Termy, které jsou podslovy jiných termů: 19 (90 výskytů)

5 FastLVCSR Rychlý LVCSR s malým slovníkem včetně hledaných termů. 2-gram LM, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x00 MB RAM. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu)

6 FastLVCSR Pruning výrazně ovlivňuje rychlost a množství detekcí, které systém produkuje. Pruning nemá velký vliv na přesnost.

7 HybridLVCSR LVCSR s velkým slovníkem (1 mil.) a schopností rozpoznat i slova, která nejsou ve slovníku. 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE, CMLLR Start systému ~x minut. Nahrávky se zpracovávají jen jednou a ukládají do indexu. Při změně seznamu klíčových slov lze rychle vyhledávat v indexu (~ RT). Paměťové nároky ~1GB RAM, ~x0MB/h HDD pro index. Dobře zvládá krátká slova a podslova. RT: 0,5 (příznaky) + dekódování (údaj z grafu) + 0,05 (indexace)

8 HybridLVCSR Z 502 termů bylo 28 OOV (1 mil. slovník). Z 1712 výskytů bylo 35 OOV. Možnost detekce OOV zlepšilo úspěšnost o 1%. Podobně jako u FastLVCSR má pruning velký vliv na rychlost a počet detekcí. Pruning nemá velký vliv na úspěšnost.

9 Akustický CD-GM Akustický KWS, 12G x-word, kont. závislé fonémy, CMN/CVN, VTLN, MLLT, MPE. Používá stejné akustické modely jako LVCSR (pouze bez CMLLR). Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,3 (příznaky) + dekódování (údaj z grafu)

10 Akustický CD-GM Pruning má menší vliv na rychlost a vetší vliv na úspěšnost (v porovnání s LVCSR KWS). Akustický KWS produkuje mnohem větší množství detekcí.

11 Akustický CI-NN Rychlý akustický KWS, kont. nezávislé fonémy, CMN/CVN. Jako akustický model je použita neuronová síť. Start systému ~x sekund. Při změně seznamu klíčových slov je třeba zpracovat všechny nahrávky znova. Paměťové nároky ~x0MB RAM. RT: 0,5 (příznaky + dekódování)

12 Porovnání systémů - přesnost

13 Porovnání systémů - délka slov Akustické systémy mají mnohem menší úspěšnost pro krátká slova než pro slova dlouhá.

14 Porovnání systémů - 1fon. Termy lišící se pouze v jediném fonému: 39 (186 výskytů) Podobná slova snižují úspěšnost akustických systémů.

15 Porovnání systémů - podslova Termy, které jsou podslovy jiných termů: 19 (90 výskytů) Slova která mohou být podslovy (auto - automobil) podstatně zvyšují falešné záchyty a tím snižují úspěšnost.

16 Porovnání systémů - rychlost Závislost úspěšnosti na rychlosti systému. LVCSR: +0.5RT (vtln, cmllr fast) Ak. CD-GM: +0.3RT (vtln)

17 Porovnání systémů - ak. modely Příklad vlivu technik akustického modelování na úspěšnost systému FastLVCSR (RT faktor pouze pro dekódování).

18 Shrnutí Jsou k dispozici 4 systémy, 2 založené na slovním rozpoznávači a 2 akustické FastLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 1.5RT. Není vhodný pro velmi častou změnu klíčových slov. Nadetekuje kolem 79% výskytů klíčového slova při 1 falešném záchytu za hodinu. HybridLVCSR je vhodný pro spolehlivou detekci klíčových slov (vč. krátkých a podslov). Rychlost kolem 3.5RT. Je vhodný pro velmi častou změnu klíčových slov (vyhledávání slov v již zpracovaných datech za zlomek sekundy). Nadetekuje kolem 78% výskytů klíčového slova při 1 falešném záchytu za hodinu. Akustický CD-GM je vhodný pro spolehlivou detekci klíčových slov. Rychlost kolem 4.0RT (lze výrazně měnit). Nadetekuje kolem 68% výskytů klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Možnost přidat CMLLR. Akustický CI-NN je vhodný pro velmi rychlou detekci klíčových slov. Rychlost kolem 0.5RT. Nadetekuje kolem 50% výskytu klíčového slova při 1 falešném záchytu za hodinu. Lze snadno natrénovat na novém jazyku (není třeba velké množství textových dat pro jazykový model). Potenciál velkého urychlení (až 0,01 RT).