Jemný úvod do detekce klíčových slov Honza Černocký Fakulta informačních technologií VUT v Brně ZRE poslední přednes, 29.4.2009.

Slides:



Advertisements
Podobné prezentace
Vestavné mikropočítačové systémy
Advertisements

CIT Paměti Díl X.
Podpora personálních procesů v HR Vema Jaroslav Šmarda
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Nový přístup k aplikacím Vema
Dualita úloh lineárního programování a analýza citlivosti
Cvičení 1 Data pro experimentální práci
Page 1 © 3M All rights reserved. TS/Speedglas SL Představení produktu 3M ™ Speedglas ™ SL.
Kvantitativní metody výzkumu v praxi
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
PROGRAM PRO VÝUKU T ČLÁNKU
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Styly Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí pro 21.
Kontrola kvality hovorů „trochu“ jinak – lépe a efektivněji.
Regulační diagram je to základní grafický nástroj statistické regulace procesu, který umožňuje posoudit statistickou zvládnutost procesu statisticky zvládnutý.
Koreferát: LISp-Miner a (lékařské) ontologie Vojtěch Svátek.
Úvod do databází Databáze.
Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1,
Získávání informací Získání informací o reálném systému
Řečové technologie – výzkum a využití
M O R A V S K O S L E Z S K Ý K R A J 1 Vedení správních řízení ve spisové službě a statistika vyřizování dokumentů.
Lenka Fialová Martina Procházková Ondřej Soukup Martin Valenta Cyril Vojáček 1.
Statistika Vypracoval: Mgr. Lukáš Bičík
Geo-informační systémy
„ostatní jen drží slovo … my ho umíme chytit“
NaviTerier Navigační systém pro zrakově postižené.
Řešení elektronického docházkového systému Vema
PROPORCIONÁLNÍ TECHNIKA V HYDRAULICE Seminář 4. června 2014
Automatické rozpoznávání zpěvů ptáků
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Systémy pro podporu managementu 2
Konference SI Praha Ladislav Přívozník is:energy czech a.s.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
VII. Neutronová interferometrie II. cvičení KOTLÁŘSKÁ 7. DUBNA 2010 F4110 Kvantová fyzika atomárních soustav letní semestr
Elektronická zařízení
Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza.
Speech – a micro-intro Honza Černocký BUT
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
Databázové systémy Přednáška č. 7 Uživatelské rozhraní.
Aplikace DVB-T Český Telecom, a.s.. 2 Agenda DVB-T MHP Platforma ČTc DVB-T MHP Platforma ČTc – aplikace Shrnutí cílů společnsti Český Telecom, a.s.
TRUHLÁŘ I.ročník Výrobní zařízení Střední škola stavební Teplice
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
Strana: 1 © Vema, a. s. Ucelené řešení pro řízení lidských zdrojů, ekonomiky a logistiky.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Lineární regrese.
Lineární regresní analýza
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Realtime identifikace osob podle hlasu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Speciální struktury číslicových systémů ASN – P9
Pohled z ptačí perspektivy
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Systémy zpracování řeči - SRE Úvod Honza Černocký 2008/09.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
MorČe morfologické značkování češtiny
1 Rozpoznávač jeté vařečky s HMM Honza Černocký
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Využití neuronových sítí IVTH – Informační technologie ve vodním hospodářství Vypracoval: Jiří Vacek Z-92.
Geografické informační systémy pojetí, definice, součásti
Ukládání dat biodiverzity a jejich vizualizace
Inf Elektronická komunikace
Chyby měření / nejistoty měření
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Informatika pro ekonomy přednáška 4
Optimalizace SQL dotazů
Pokročilé neparametrické metody Validační techniky
Informatika pro ekonomy přednáška 4
Transkript prezentace:

Jemný úvod do detekce klíčových slov Honza Černocký Fakulta informačních technologií VUT v Brně ZRE poslední přednes,

2 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS

3 Národní bezpečnost a zpracování řeči Řeč je nejdůležitější modalitou lidské komunikace (~80% informace). Přenos řeči pomocí elektronických médií (pozemní a radiové sítě, IP telefonie) Při bezpečnostní analýze není nejtěžší získat řeč, ale orientovat se v ní. Kapacita lidských expertů je omezená (lidské zdroje, finance, mluvené jazyky, bezpečnostní prověrky). Technologie zpracování řeči mohou pomoci automatizovat některé etapy a „omezit vyhledávací prostor“.

4 Kategorie AZŘ Co se dá analyzovat ? „Co bylo řečeno“ – rozpoznávání řeči (speech recognition) –Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) –Detekce klíčových slov nebo frází – keyword/keyphrase spotting „Jakou řečí“ – rozpoznávání jazyka (language identification LID) „Kdo to řekl“ –Výběr jednoho mluvčího z množiny – rozpoznávání mluvčího – speaker recognition –Ověření předpokládané identity – verifikace mluvčího – speaker verification. –Detekce pohlaví a věku. Speciální aplikace – stres, detektor lži, alkohol v krvi, patologické změny hlasu.

5 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS Patetický závěr

6 Rozpoznávání řeči s velkým slovníkem Úkol LVCSR: Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR)

7 Výpočet parametrů (feature extraction) Úkol: popsat řeč omezeným počtem čísel, která zachovají informaci o obsahu (slova) a omezí rušivé informace (pohlaví, šum,, …) Jak se dělá: Mel-frekvenční cepstrální koeficienty (MFCC) – každých 10 ms, zahrnují poznatky o lidském slyšení. Úprava parametrů tak, aby byly co nejméně závislé na řečníkovi a na kanálu: –Cepstral Mean Normalization / Cepstral Variance Normalization (CMN/CVN) – z promluvy je odhadnuta střední hodnota a směrodatná odchylka a parametry jsou normalizovány na sřední hodnotu 0 a směrodatnou odcylku 1. –Vocal Tract Length Normalization (VTLN) – frekvenční charakteristika se upravuje tak, aby se srovnaly rozdíly mezi muži a ženy a malými a velkými lidmi. –Heteroscedastic Linear Discriminant Transform (HLDA) – transformace, která omezuje velikost parametrů a zachovává informaci pro rozpoznávání. –Maximum Likelihood Linear Transform (MLLT) – HLDA, ale bez redukce velikosti vektoru. Trénuje se feature extraction? Obvykle ne.

8 Akustické modely (AM) – I. Úkol: určují pravděpodobnost, že vstupní signál náleží k akustickým jednotkám (fonémům). Co se modeluje: –Fonémy: ahoj honzo -> a h o j h o n z o –Kontextově závislé fonémy - trifóny: sil-a+h a-h+o h-o+j o-j+sil sil- h+o h-o+n … –Kontextově závislé fonémy s přechodem přes slovo (cross-word triphones): sil-a+h a-h+o h-o+j o-j+h j-h+o h-o+n … Jak se modeluje: Vždy skrytými Markovovými modely – HMM

9 Akustické modely (AM) – II. Pravděpodobnost v jednotlivých stavech může být počítána: směsí Gaussových rozdělení – Gaussian Mixture Models (HMM/GMM) Neuronovou sítí (HMM/NN) Trénují se akustické modely ? ANO ! –Na velkých množstvích přepsaných akustických dat. Diskriminativní trénování je většinou lepší, ale potřebuje více dat: MPE (minimum phone error) Na určitou databázi / řečníka / nahrávku se používá adaptace: –Maximum A Posteriori (MAP) –Maximum Likelihood Linear Regression (MLLR) –Constrained MLLR (CMLLR)

10 Jazykový model (LM) Na co je: určuje pravděpodobnost sekvencí slov „prezident Václav Klaus“ vs. „prezident Václav aplaus“ Jak se realizuje: –Tabulka s pravděpodobnostmi sekvencí 3 slov (trigramy), 2 slov (bigramy) a 1 slov (unigramy). –Snaží se vždy modelovat pravděpodobnosti 3 slov, pokud nenajde, „ustoupí“ (back-off) na 2 slova, atd. Trénují se jazykové modely ? –ANO ! –Standardně na velkých textových korpusech. –Jenže cílová doména je zcela jiná (spontánní mluva, vulgární slova, přeřeky, …) –Nejvíce pomáhají přepisy cílových dat … jenže těch je málo

11 Výslovnostní slovník Na co je: mapuje slova na sekvence jednotek (fonémů) dcera spěje k nirváně -> c e r a s p j e j e g n y r v á n ě Jak se realizuje: –Výslovnostní slovníky na základě dostupných zdrojů a vlastní ruční práce. –Automatický G2P (grapheme to phoneme): Ručně vytvořená pravidla pro převod (ČVUT transc) Automaticky naučená pravidla pro převod výslovnosti. Trénují se výslovnostní slovníky ? –Standardně ne, automatické G2P systémy ano. Noční můra – OOV out of vocabulary words.

12 Dekodér neboli rozpoznávač Na co je: na základě rozpoznávací sítě, která zahrnuje AM, LM a výslovnostní slovník, vyhledává optimální sekvenci slov. Síť může být v paměti staticky nebo být tvořená dynamicky. Procházení celé sítě není možné, probíhá pruning (zahazování nekvalitních hypotéz za běhu rozpoznávače).

13 Co produkuje dekodér Posloupnost slov - one best dopředný acyklický graf hypotéz - Lattice

14 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS

15 Detekce klíčových slov Co vlastně chceme vědět: KDE je klíčové slovo. A jak moc můžeme věřit tomu, že tam je – confidence. Základní schéma: Zpracování signálu, výpočet parametrů. Model, který říká že tady JE klíčové slovo. Model, který říká, že tady NENÍ klíčové slovo. Rozdíl jejich výstupů je confidence Normalizace, prahování.

16 Možné přístupy ke KWS Založené na akustických modelech. Zpracování výstupu LVCSR –Pouze slova –Doplněné rozpoznávání pod-slov. Mód fungování On-line – klíčové slovo nadetekováno ihned jak zazní. Pseudo on-line – klíčové slovo je nadetekováno ihned jak skončí promluva (telefonní hovor nebo jeden řečový segment, např. ohraničený tichem). 2 etapy: –Rozpoznávání + tvorba indexu – off-line –Vyhledávání

17 Akustický KWS nemá problém OOV  Nemožná indexace – nutnost projít vše  až 0.01xRT  Nemá sílu LM – problém s krátkými slovy a pod-slovy Model slova proti background modelu. On-line Bez jazykového modelu

18 Prohledávání výstupu LVCSR rychlost vyhledávání přesnější na častých slovech  omezení slovníkem - OOV  LVCSR je složitější a pomalejší Rozpoznání s velkým slovníkem, pak prohledávání 1-best nebo lattice Pseudo on-line nebo off-line s indexováním.

19 Prohledávání výstupu LVCSR + pod-slova zachovává rychlost vyhledávání zachovává přesnost na častých slovech Umožňuje hledat OOV bez nového zpracování všech dat.  LVCSR a indexování je složitější Rozpoznání s velkým slovníkem + menšími jednotkami pro zachycení OOV. Off-line s indexováním.

20 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS

21 Použití KWS Nastavení prahu: Tvrdší: méně záchytů, ale také méně falešných poplachů. Měkčí: více záchytů, ale také více falešných poplachů. Hodně nebo málo falešných poplachů ? Není univerzální recept … záleží na aplikaci, uživateli a množství dat. 1 falešný poplach za hodinu – dobré pro hledání v 1000 hodinovém archívu (1000 detekcí se dá poslechnout). 10 falešných poplachů za hodinu – pomoc při procházení dat, možnost dostat se rychle k tomu, co potřebuji, tam, kde nám nesmí nic uniknout (taktické nasazení s konkrétním jménem…)

22 Hodnocení úspěšnosti KWS FOM (Figure of Merit) - průměr procenta správných záchytů pro 1 až 10 falešných poplachů za hodinu. Práh se nastavuje nezávisle pro každé slovo (příliš optimistické) Pooled FOM – jeden práh pro všechna slova.