IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
IBM - CVUT Student Research Projects 2 Cíle Zdokonalit jazykový model pro rozpoznávání řeči Navrhnout a implementovat metody pro dynamický update jazykového modelu. Využít vyhledávač Google.com pro získání textových informací, potřebných pro update modelu
IBM - CVUT Student Research Projects 3 Obecný princip Uživatel vysloví hledaný výraz = „heslo“ Pomocí CIMA rozpoznáme vyslovené heslo, na základě současného jazykového modelu Zformulujeme vyhledávací dotaz na Google Získání textových dat z výsledků Googlu pro dané „heslo“ Update jazykového modelu
IBM - CVUT Student Research Projects 4 Využité technologie IBM CIMA – systém pro rozpoznávání řeči Implementace –Vývoj v jazyce C++ –Síťová podpora (www) free knihovna cURL
IBM - CVUT Student Research Projects 5 Získání textových dat Filtrace výsledků Googlu, ponechání jen vhodných odkazů (html, htm, php atd) Stažení a očištění výsledků – složitější heuristiky čištění od html tagů – složitější filtrace relevantního obsahu Výsledek rozdělen do vět Uložení do souboru