Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Počítačová lingvistika Interdisciplinární obor –Matematická informatika –Lingvistika –Statistika, strojové učení –Umělá inteligence Dlouhodobý cíl –plně automatická komunikace s počítačem prostřednictvím jazyka
Tematické okruhy výzkumu Matematické a lingvistické základy komputační lingvistiky Implementace softwarových nástrojů pro zpracování jazyka Vytváření datových zdrojů, především gramaticky a sémanticky značkovaného textového zdroje pro češtinu (Pražský závislostní korpus), vytváření slovníků Zpracování mluvené řeči
Zkoumání jazyka – vrstvy jazykového popisu Posloupnost rovin: –Fonetická –Morfologická –Syntaktická –Sémantická –Logicko-obsahová
Dílčí úlohy na jednotlivých rovinách Určování slovotvorných kategorií slov (pád,číslo,rod,osoba….) Syntaktická analýza vět Určování významu slova na základě kontextu K čemu odkazují zájmena
Analýza věty (1)
Analýza věty (2)
Praktické aplikace Strojový překlad Komunikace člověk-počítač Kontrola pravopisu Vyhledávání v textech
Systém rovin a strojový překlad Vstupní jazyk Rovina tvarosloví Výstupní jazyk Rovina větné stavby Interlingua (?) Analýza Syntéza Rovina větného významu
Informaticky zajímavé problémy - paralelizace výpočtu DATA dotaz odpověď
Vyučované předměty Namátkou… –Seminář z formální lingvistiky –Statistické metody zpracování přirozených jazyků –Nástroje pro automatický překlad –Vybrané kapitoly ze syntaxe češtiny –Automatické rozpoznávání mluvené řeči –Úvod do strojového učení v počítačové lingvistice –Korpusová lingvistika –Zdroje jazykových dat
Uplatnění studentů ÚFAL IBM MIT Ohio State University University of Saarbrücken