Jemný úvod do detekce klíčových slov Honza Černocký Fakulta informačních technologií VUT v Brně ZRE poslední přednes,
2 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS
3 Národní bezpečnost a zpracování řeči Řeč je nejdůležitější modalitou lidské komunikace (~80% informace). Přenos řeči pomocí elektronických médií (pozemní a radiové sítě, IP telefonie) Při bezpečnostní analýze není nejtěžší získat řeč, ale orientovat se v ní. Kapacita lidských expertů je omezená (lidské zdroje, finance, mluvené jazyky, bezpečnostní prověrky). Technologie zpracování řeči mohou pomoci automatizovat některé etapy a „omezit vyhledávací prostor“.
4 Kategorie AZŘ Co se dá analyzovat ? „Co bylo řečeno“ – rozpoznávání řeči (speech recognition) –Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR) –Detekce klíčových slov nebo frází – keyword/keyphrase spotting „Jakou řečí“ – rozpoznávání jazyka (language identification LID) „Kdo to řekl“ –Výběr jednoho mluvčího z množiny – rozpoznávání mluvčího – speaker recognition –Ověření předpokládané identity – verifikace mluvčího – speaker verification. –Detekce pohlaví a věku. Speciální aplikace – stres, detektor lži, alkohol v krvi, patologické změny hlasu.
5 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS Patetický závěr
6 Rozpoznávání řeči s velkým slovníkem Úkol LVCSR: Celkový přepis – rozpoznávání plynulé řeči s velkým slovníkem (large vocabulary continuous speech recognition LVCSR)
7 Výpočet parametrů (feature extraction) Úkol: popsat řeč omezeným počtem čísel, která zachovají informaci o obsahu (slova) a omezí rušivé informace (pohlaví, šum,, …) Jak se dělá: Mel-frekvenční cepstrální koeficienty (MFCC) – každých 10 ms, zahrnují poznatky o lidském slyšení. Úprava parametrů tak, aby byly co nejméně závislé na řečníkovi a na kanálu: –Cepstral Mean Normalization / Cepstral Variance Normalization (CMN/CVN) – z promluvy je odhadnuta střední hodnota a směrodatná odchylka a parametry jsou normalizovány na sřední hodnotu 0 a směrodatnou odcylku 1. –Vocal Tract Length Normalization (VTLN) – frekvenční charakteristika se upravuje tak, aby se srovnaly rozdíly mezi muži a ženy a malými a velkými lidmi. –Heteroscedastic Linear Discriminant Transform (HLDA) – transformace, která omezuje velikost parametrů a zachovává informaci pro rozpoznávání. –Maximum Likelihood Linear Transform (MLLT) – HLDA, ale bez redukce velikosti vektoru. Trénuje se feature extraction? Obvykle ne.
8 Akustické modely (AM) – I. Úkol: určují pravděpodobnost, že vstupní signál náleží k akustickým jednotkám (fonémům). Co se modeluje: –Fonémy: ahoj honzo -> a h o j h o n z o –Kontextově závislé fonémy - trifóny: sil-a+h a-h+o h-o+j o-j+sil sil- h+o h-o+n … –Kontextově závislé fonémy s přechodem přes slovo (cross-word triphones): sil-a+h a-h+o h-o+j o-j+h j-h+o h-o+n … Jak se modeluje: Vždy skrytými Markovovými modely – HMM
9 Akustické modely (AM) – II. Pravděpodobnost v jednotlivých stavech může být počítána: směsí Gaussových rozdělení – Gaussian Mixture Models (HMM/GMM) Neuronovou sítí (HMM/NN) Trénují se akustické modely ? ANO ! –Na velkých množstvích přepsaných akustických dat. Diskriminativní trénování je většinou lepší, ale potřebuje více dat: MPE (minimum phone error) Na určitou databázi / řečníka / nahrávku se používá adaptace: –Maximum A Posteriori (MAP) –Maximum Likelihood Linear Regression (MLLR) –Constrained MLLR (CMLLR)
10 Jazykový model (LM) Na co je: určuje pravděpodobnost sekvencí slov „prezident Václav Klaus“ vs. „prezident Václav aplaus“ Jak se realizuje: –Tabulka s pravděpodobnostmi sekvencí 3 slov (trigramy), 2 slov (bigramy) a 1 slov (unigramy). –Snaží se vždy modelovat pravděpodobnosti 3 slov, pokud nenajde, „ustoupí“ (back-off) na 2 slova, atd. Trénují se jazykové modely ? –ANO ! –Standardně na velkých textových korpusech. –Jenže cílová doména je zcela jiná (spontánní mluva, vulgární slova, přeřeky, …) –Nejvíce pomáhají přepisy cílových dat … jenže těch je málo
11 Výslovnostní slovník Na co je: mapuje slova na sekvence jednotek (fonémů) dcera spěje k nirváně -> c e r a s p j e j e g n y r v á n ě Jak se realizuje: –Výslovnostní slovníky na základě dostupných zdrojů a vlastní ruční práce. –Automatický G2P (grapheme to phoneme): Ručně vytvořená pravidla pro převod (ČVUT transc) Automaticky naučená pravidla pro převod výslovnosti. Trénují se výslovnostní slovníky ? –Standardně ne, automatické G2P systémy ano. Noční můra – OOV out of vocabulary words.
12 Dekodér neboli rozpoznávač Na co je: na základě rozpoznávací sítě, která zahrnuje AM, LM a výslovnostní slovník, vyhledává optimální sekvenci slov. Síť může být v paměti staticky nebo být tvořená dynamicky. Procházení celé sítě není možné, probíhá pruning (zahazování nekvalitních hypotéz za běhu rozpoznávače).
13 Co produkuje dekodér Posloupnost slov - one best dopředný acyklický graf hypotéz - Lattice
14 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS
15 Detekce klíčových slov Co vlastně chceme vědět: KDE je klíčové slovo. A jak moc můžeme věřit tomu, že tam je – confidence. Základní schéma: Zpracování signálu, výpočet parametrů. Model, který říká že tady JE klíčové slovo. Model, který říká, že tady NENÍ klíčové slovo. Rozdíl jejich výstupů je confidence Normalizace, prahování.
16 Možné přístupy ke KWS Založené na akustických modelech. Zpracování výstupu LVCSR –Pouze slova –Doplněné rozpoznávání pod-slov. Mód fungování On-line – klíčové slovo nadetekováno ihned jak zazní. Pseudo on-line – klíčové slovo je nadetekováno ihned jak skončí promluva (telefonní hovor nebo jeden řečový segment, např. ohraničený tichem). 2 etapy: –Rozpoznávání + tvorba indexu – off-line –Vyhledávání
17 Akustický KWS nemá problém OOV Nemožná indexace – nutnost projít vše až 0.01xRT Nemá sílu LM – problém s krátkými slovy a pod-slovy Model slova proti background modelu. On-line Bez jazykového modelu
18 Prohledávání výstupu LVCSR rychlost vyhledávání přesnější na častých slovech omezení slovníkem - OOV LVCSR je složitější a pomalejší Rozpoznání s velkým slovníkem, pak prohledávání 1-best nebo lattice Pseudo on-line nebo off-line s indexováním.
19 Prohledávání výstupu LVCSR + pod-slova zachovává rychlost vyhledávání zachovává přesnost na častých slovech Umožňuje hledat OOV bez nového zpracování všech dat. LVCSR a indexování je složitější Rozpoznání s velkým slovníkem + menšími jednotkami pro zachycení OOV. Off-line s indexováním.
20 Plán Úvod Rozpoznávání s velkým slovníkem - LVCSR Detekce klíčových slov KWS Použitelnost a vyhodnocení KWS
21 Použití KWS Nastavení prahu: Tvrdší: méně záchytů, ale také méně falešných poplachů. Měkčí: více záchytů, ale také více falešných poplachů. Hodně nebo málo falešných poplachů ? Není univerzální recept … záleží na aplikaci, uživateli a množství dat. 1 falešný poplach za hodinu – dobré pro hledání v 1000 hodinovém archívu (1000 detekcí se dá poslechnout). 10 falešných poplachů za hodinu – pomoc při procházení dat, možnost dostat se rychle k tomu, co potřebuji, tam, kde nám nesmí nic uniknout (taktické nasazení s konkrétním jménem…)
22 Hodnocení úspěšnosti KWS FOM (Figure of Merit) - průměr procenta správných záchytů pro 1 až 10 falešných poplachů za hodinu. Práh se nastavuje nezávisle pro každé slovo (příliš optimistické) Pooled FOM – jeden práh pro všechna slova.