Řečové technologie – výzkum a využití

Slides:



Advertisements
Podobné prezentace
Řečové technologie – výzkum a využití Honza Černocký BUT Fakulta informačních technologií VUT v Brně ZRE #1,
Advertisements

Řečové technologie – výzkum a využití
Speech – a micro-intro Honza Černocký BUT
Organizační legitimita: aplikace institucionální teorie a teorie závislosti na zdrojích v rámci výzkumu NNO Magdaléna Šťovíčková SOS FHS UK, 2013/2014.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Raichová. Materiál je publikován pod licencí Creative Commons. ze sady:3tematický.
Vypracováno kolektivem autorů České společnosti pro technickou normalizaci Úřad pro technickou normalizaci, metrologii a státní zkušebnictví
Projekt Informační a vzdělávací portál Libereckého kraje I CZ.1.07/1.1.00/ I Školení pro uživatele portálu.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Uvedení autoři, není-li uvedeno jinak, jsou autory tohoto výukového materiálu a všech jeho částí. Tento projekt je spolufinancován ESF a státním rozpočtem.
Využití informačních technologií při řízení obchodního řetězce Interspar © Ing. Jan Weiser.
Připraveno s podporou programu Erasmus+ Evropské unie. Provázanost výsledků učení, vyučovacích a hodnoticích metod Zkušenosti ZČU Brno Praha.
Praxe Portsmouth Výběrové řízení  Přihlášky- průměry známek z předchozích ročníků, známky z angličtiny, absence, motivace k přihlášení se na stáž.
Insolvenční řízení v ČR Zmar nebo nová šance?. Uspokojení věřitelů: World Bank65 % (údaj z dotazníkové akce) Reálná data ,4 % Co víme o insolvenčních.
1 Obhajoba diplomové práce Sluneční záření a atmosféra Autor: Tomáš Miléř Vedoucí: Doc. RNDr. Petr Sládek, CSc. Oponent: RNDr. Jan Hollan BRNO 2007Katedra.
STUDIE A ANALÝZA ŽIVOTNÍHO STYLU A ZDRAVÍ MLÁDEŽE V KRAJI VYSOČINA MUDr. Stanislav Wasserbauer Zdravá vysočina, o.s. a Státní zdravotní ústav ve spolupráci.
Principy Základních registrů Ing. Ondřej Felix, CSc.
Postup modelování Kateřina Růžičková. Postup modelování Rozhodnutí modelovat Definice problému Existence modelu, pro daný problém Identifikace modelu.
Induktivní statistika
41 Číslo materiálu: VY 32 INOVACE 4/06 Název materiálu: Hudební forma
Seminář o stavebním spoření
Senzory pro EZS.
Ústřední knihovna FSS MU
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Jak se UČIT K MATURITĚ? Motivace, koncentrace, paměť.
Základy automatického řízení 1
Internet.
Demoverze QI Informace pro partnery DCC
ČAS.
Bojíte se francouzštiny?
Výukový materiál zpracován v rámci projektu
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
EIZ - bilance Profesionální informační zdroje
Základní škola Děčín VI, Na Stráni 879/2 – příspěvková organizace
Kvalitativní výzkum Vybrané otázky: Proč kvalitativní výzkum?
Aplikace Monitorovací systém
Číslo materiálu: VY 32 INOVACE 11/04 Název materiálu: Duchovní a světská hudba Zpracoval: Mgr. Bc. BcA. Michal Jančík.
Přístupový systém aneb kontrola vstupů
METODICKÉ LISTY výstup projektu Vzdělávací středisko pro další vzdělávání pedagogických pracovníků v Sokolově reg. č. projektu: CZ.1.07/1.3.11/
PB071 – Programování v jazyce C
Ústřední knihovna FSS MU
Veřejná správa, Regionální rozvoj Litoměřice Jan Jůna 2012
Six sigma – zkrácená verze
Kód materiálu: VY_32_INOVACE_16_FUNKCNI_STYLY Název materiálu:
Týmové dovednosti 2 Marie Blahutková.
Novinky v Záznamníku učitele
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Využití softwaru při tréninku a hodnocení sportovních aktivit
Zlata Houšková, Vít Richter
BIBS Informatika pro ekonomy přednáška 2
České školství v mezinárodním srovnání Stručné seznámení s vybranými ukazateli publikace OECD Education at a Glance 2010 Tisková konference 7.
Aplikace vyhledávače Google na zdroje odborných informací
Děti odsouzených rodičů
Digitální gramotnost Informatické myšlení
Remote login.
Název projektu | Název společnosti | Jméno prezentujícího
Máte zájem o více informací?
Teorie chyb a vyrovnávací počet 1
Přednášky z Distribuovaných systémů
Prodeji produktu nebo služby
Analýza variance (ANOVA).
Metoda VTI Intenzivní forma pomoci v domácím prostředí rodiny, přímo tam, kde problém vzniká (80.léta 20. stol. v Holandsku) Rodiny, které mají obtíže.
Cílové skupiny Studenti Farníci Rodiče Řeholníci Katolíci
Obecné nařízení o ochraně osobních údajů
Klíčové aktivity projektu
ProQuest Central Centrum informačních a knihovnických služeb VŠE
Více náhodných veličin
Seminář o stavebním spoření
Teorie chyb a vyrovnávací počet 2
Obsah a úvod do předmětu: Počítačová podpora řízení
Pravděpodobnost a matematická statistika I.
Transkript prezentace:

Řečové technologie – výzkum a využití Honza Černocký BUT Speech@FIT Fakulta informačních technologií VUT v Brně ZRE #1, 8.2.2017

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Kdo jsme - Speech@FIT Skupina založena v 1997 (1 člověk) Teď ~20 lidí Docentský projev Honzy Černockého 11/2003 „budeme-li dobří, podaří se nám přilákat šikovné lidi z Evropy a z celého světa a pro doktoranda na VUT přestane platit ta trochu nudná charakteristika: „běloch, muž, Čech“ – OK, MISSION ACOMPLISHED … alespoň ve speechi  “ ZRE#1, Honza Černocký 11.2.2015

Co děláme ? Automatická extrakce informací ze spontánní řeči Rozpoznávání mluvčího Identita Jan Novák Rozpoznávání pohlaví Pohlaví Muž nebo žena Řeč Rozpoznávání jazyka Jazyk Angličtina ? Němčina ? Rozpoznávání řeči Přepis Sejdeme se u Pavouka. Detekce klíčových slov Detekce “Pavouk” ZRE#1, Honza Černocký 11.2.2015

Evaluace “Úspěšnost 100% ? Jasně!” … pokud si sami definujeme data, podmínky a evaluační metriky. <<< tak takto ne. NIST – agentura vlády USA http://www.nist.gov/speech Pravidelné „benchmark campaigns“ – evaluace – řečových technologií Všichni účastníci mají ta samá data a stejný časový rámec na jejich zpracování a zaslání výsledků => objektivní hodnocení Výsledky a detaily systémů jsou diskutovány na NIST workshopech BUT Speech@FIT se účastní evaluací o Přepisu – Rich Transcription. Language ID Speaker Verification Spoken term detection Evaluace důležitých projektů - DARPA RATS a Lorelei, IARPA BABEL Proč to děláme? Někdy musíme Porovnání s ostatními, zajištění (občas i definice ) „state of the art“ Nechceme dělat hovadiny, které lidé vyzkoušeli a nefungovaly.

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Trochu detailněji – jak se dělá rozpoznávač ? Podle obecného receptu z jakékoliv knihy o detekci nebo rozpoznávání … Nasbírat data Zvolit parametry Apriorní znalost problému Zvolit model Natrénovat model Evaluaovat klasifikátor nasazení ZRE#1, Honza Černocký 11.2.2015

Klasifikace a rozpoznávání IKR Úterý 16:00 do 18:50, A113 Lukáš Burget ZRE#1, Honza Černocký 11.2.2015

Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) A co je výsledkem ? Už jste asi viděli … Modely Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) “Dekódování” vstup rozhodnutí ZRE#1, Honza Černocký 11.2.2015

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Nejjednodušší případ – rozpoznávání pohlaví (GID) Nejjednuší aplikace pro implementaci, trénování a nasazení. … a také nejpřesnější (>96% na reálných kanálech) Omezení vyhledávacího prostoru na 50% Sem dat obrazek spkID a zaramovat sloupec s pohlavim !!!

Gaussian Mixture models – kluci, holky Jak se dělá ? Gaussian Mixture models – kluci, holky Vyhodnocení GMM skóre MFCC vstup Rozhodnutí kluk, holka ZRE#1, Honza Černocký 11.2.2015

Parametry – Mel frekvenční cepstrální koeficienty Signál není stacionární => rámce A slyšení není lineární – banka filtrů a log. ZRE#1, Honza Černocký 11.2.2015

Matice parametrů O – sada čísel každých 10ms ZRE#1, Honza Černocký 11.2.2015

Vyhodenocení skóre kluků a holek Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O: ZRE#1, Honza Černocký 11.2.2015

Rozhodnutí - „dekódování“ ZRE#1, Honza Černocký 11.2.2015

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Rozpoznávání mluvčího Verifikace Je pan Vopička v nahrávce opravdu pan Vopička ? Enrollment Test Identifikace Mám nahrávku, kdo to je ? Search Najít pana Vopičku v tisících hovorů Identifikace i search se dají převést na N krát verifikaci. ZRE#1, Honza Černocký 11.2.2015

Základní schéma 2 hypotézy Log likelihood ratio H0: mluvčí v testovací nahrávce není ten, kterého jsme viděli v enrollmentu. H1: mluvčí v testovací nahrávce je ten, kterého jsme viděli v enrollmentu. Log likelihood ratio ZRE#1, Honza Černocký 11.2.2015

Parametry ZRE#1, Honza Černocký 11.2.2015

Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami GMM Směs Gaussovek se středními hodnotami, kovariančními maticemi a váhami Vyhodnocení modelu nad maticí parametrů O: ZRE#1, Honza Černocký 11.2.2015

UBM – background model Na co je ? Jak se trénuje ? Produkuje likelihood hypotézy H0 „toto není cílový mluvčí“ – nutné pro normalizaci. Adaptuje se z něj model cílového mluvčího, protože pro plné trénování není dost cílových dat. Jak se trénuje ? Ideálně na nahrávkách všech >8.000.000.000 lidí, každý z několika různých kanálů. Reálně na stovkách mluvčích z dostupných databází (LDC, dotrénování na cílová data). ZRE#1, Honza Černocký 11.2.2015

Inter-session variability Popsaný systém dokáže postavit průměrně zdatný student s Matlabem za půl dne (IKR). Bude uspokojivě fungovat, pokud bude koherence mezi enrollmentem a testováním. ALE ONA NENÍ    - Inter-session variabilita Variabilita mluvčího Jazyk Emoce, stres, Lombard effect Zdravotní stav Obsah promluvy, atd Variabilita mimo mluvčího Šum Přenosový kanál – mikrofon, kodek, záznamové zařízení… Toto vše snižuje přesnost systému. Vyhrává ten, kdo Dokáže lépe popsat DOBROU VARIABILITU (rozdíly mezi mluvčími) Dokáže lépe zničit ŠPATNOU (inter-session) VARIABILITU ZRE#1, Honza Černocký 11.2.2015

Boj s inter-session variabilitou Feature domain Model domain Score domain Target model Adapt Front-end processing LR score normalization S L Background model Speaker Model Synthesis Eigenchannel compensation Joint Factor Analysis Nuisance Attribute Projection Noise removal Tone removal Cepstral mean subtraction RASTA filtering Mean & variance normalization Feature warping Feature Mapping Eigenchannel adaptation in feature domain Z-norm T-norm ZT-norm ZRE#1, Honza Černocký 11.2.2015

Princip kompensace ŠPATNÉ variability 1. Příklad: jedna Gaussovka s 2D parametry Model cílového mluvčího UBM Vysoká variabilita mezi mluvčími Rici, ze realny prostor není 2D, ale ze mame podpostory o nekolika stovkach dimensi – dobry a spatny. Vysoká inter-session variabilita 25 ZRE#1, Honza Černocký 11.2.2015 25

Princip kompensace ŠPATNÉ variability 2. Rozpoznávání: nech oba modely pohybovat ve směru vysoké inter-session variability a nastav je tak, aby dávaly co nejvíce pro testovací data Target speaker model Test data UBM Vysoká variabilita mezi mluvčími Vysoká inter-session variabilita 26 ZRE#1, Honza Černocký 11.2.2015 26

Current state-of-the-art Low-dimensional representation of whole recordings i-Vectors (for R&D), Voiceprints (for business) Allows for very fast scoring. Security Session Honza Cernocky 11/4/2015

NIST SRE 2006 - STBU BUT STBU consortium Spescom datavoice TNO ZRE#1, Honza Černocký 11.2.2015

NIST SRE 2008 ZRE#1, Honza Černocký 11.2.2015

NIST SRE 2010 ABC systém: Agnitio (Jižní Afrika) BUT CRIM (Kanada) 2012 (také ABC) Také moc dobré! ZRE#1, Honza Černocký 11.2.2015

NIST SRE 2012 ABC system ZRE#1, Honza Černocký 11.2.2015

Umíme teorii klasifikace a rozpoznávání vzorů. Jak to ? Umíme teorii klasifikace a rozpoznávání vzorů. Jsme v kontaktu s lidmi, kteří jsou světovými špičkami – Patrick Kenny, Niko Brümmer, další. dokážeme rychle implementovat nové nápady, a testovat Analyzujeme výsledky a přemýšlíme o nich Dokážeme se dívat mimo obor (uvnitř zpracování řeči – rozpoznávání jazyka, přepis, detekce klíčových slov) i jinde (grafika - Prince) a rychle aplikovat nápady. A máme hodně POČÍTAČŮ, takže kolegy občas pobijeme HRUBOU SILOU. ZRE#1, Honza Černocký 11.2.2015

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Identifikace jazyka - LID Jakým jazykem se mluvilo LID ZRE#1, Honza Černocký 11.2.2015

Dva hlavní přístupy Akustika – zase Gaussovky … Fonotaktika – fonémový rozpoznávač + fonotaktický model. ZRE#1, Honza Černocký 11.2.2015

Nahrávky (mnoho) daného jazyka. Možnost automatického získávání Na čem trénovat LID ? Nahrávky (mnoho) daného jazyka. Možnost automatického získávání detekce telefonních hovorů v internetových archívech vysílání Pomoc LDC pro NIST LRE 2008 Projekt US Air Force EOARD. Dá se i u klienta na ostrých datech. Současná práce JFA, i-vectors a spol. – i v LID je nutné bojovat s inter-session (a tentokrát i s inter-speaker) variabilitou. ZRE#1, Honza Černocký 11.2.2015

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) Přepis řeči na text Voice2text V2T Speech2text S2T Large vocabulary continuous speech recognition LVCSR Akustické modely Jazykový model Výslovnostní slovník Rozponávací SÍŤ Výpočet příznaků Vyhodnocení pravděpodobností nebo věrohodností (skóre hypotéz) “Dekódování” vstup rozhodnutí ZRE#1, Honza Černocký 11.2.2015

TIN není jen mučicí nástroj, opravdu ji využíváme ! Rozpoznávací síť TIN není jen mučicí nástroj, opravdu ji využíváme ! ZRE#1, Honza Černocký 11.2.2015

Závislé na jazyce a na doméně Na čem se trénuje V2T ? Korpus mluvené řeči + textové popisy Fonetická sada, výslovnostní slovník Textový korpus Systém pro rozpoznávání řeči Závislé na jazyce a na doméně Problémem je fonetická sada a slovník Snaha o přístupy, které budou pracovat automaticky ZRE#1, Honza Černocký 11.2.2015

Většině jazyků vůbec nerozumíme, ani skoro nevíme, kde se jimi mluví. IARPA BABEL Většině jazyků vůbec nerozumíme, ani skoro nevíme, kde se jimi mluví. Přesto pro ně máme vyvinout rozpoznávače ! ZRE#1, Honza Černocký 11.2.2015

klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví Agenda skupina Speech@FIT klasifikace a rozpoznávání vzorů jak to funguje - detekce pohlaví rozpoznávání mluvčího identifikace jazyka přepis řeči na text organisace a projekty ZRE#1, Honza Černocký 11.2.2015

Projekty TAČ MINT – zpracování meetingů DARPA RATS – Dolování řeči z hnusných kanálů DARPA Lorelei – získání informací o katrastrofách a totálně neznámých jazyků EU H2020 BISON – Dolování řeči pro kontaktní centra IARPA Material (snad bude) – zpracování textu a řeči, strojový překlad a sumarizace. MV DRAPÁK – využití vzdálených mikrofonů ZRE#1, Honza Černocký 11.2.2015

Industrial cooperation BUT Speech@FIT Honza Cernocky 12/2015

Spin-offs BUT Speech@FIT Honza Cernocky 12/2015

Research Products Integrator or How does it work Technologies Scientific papers, reports, experimental code ( Matlab, C++, lots of shell-script “glue”), data files The goal is the accuracy Openess ! Reproducibility, stability, speed and documentation  Technologies The goal is the stability (error handling, code verification, testing cycles at various levels) Regular development cycles and planning Well defined application programming interfaces (API) Documentation, licensing Products Integration with client’s technologies and systems The goal is functionality of the integrated solution User interfaces Integrator or BUT Speech@FIT Honza Cernocky 12/2015

Použít v jiných aplikacích Chci si hrát Jen tak vyzkoušet http://www.superlectures.com/ Další aplikace od http://www.replaywell.com/ Rýpat se vevnitř: HTK http://htk.eng.cam.ac.uk/ KALDI http://kaldi.sourceforge.net/ Speaker ID: http://voicebiometry.org/ Použít v jiných aplikacích Phonexia BS-CORE a tools http://phonexia.com/download/ Projekt #2 (resp. i #1) v čemkoliv … ZRE#1, Honza Černocký 11.2.2015

Udělejte si všechny labiny, i ty staré. Choďte do IKR Zkuste i KRD Chci se stát expertem Choďte na přednášky Udělejte si všechny labiny, i ty staré. Choďte do IKR Zkuste i KRD Půjčte si v knihovně Bishopa a přečtěte si ho Přijďte se domluvit na speech diplomku nebo speech Erasmo-Sokratí výjezd NOW. Spousta věcí, které tu děláme, vlastně není o řeči, ale obecně o analýze dat a o machine learningu, takže to může být zajímavé, i pokud chcete dělat finance, bioinformatiku, computer vision, atd. ZRE#1, Honza Černocký 11.2.2015

https://www.facebook.com/ BUT-Speech/ The end http://speech.fit.vutbr.cz/ https://www.facebook.com/ BUT-Speech/ Seminář „Řečové technologie“ Honza Černocký 24.8.2016