Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací2 … zpracování přirozeného jazyka Natural Language Processing (NLP) oblast témat a úloh, spojení mnoha vědních oborů moderní, nutné, mimořádně složité rozšíření a aplikace dnešní IT, její původní motivace Computer/Computational Linguistics (CL) počítačová/komputační lingvistika teoretická/formální lingvistika, korpusová lingvistika … Artificial Intelligence (AI) umělá inteligence, automatické učení, strojové vnímání
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací3 Proč je jazyk složitý? Systém a jeho projevy (langue vs. parole) přístupy pravidlové, korpusové, rozumové, statistické Nekonečnost, produktivita, Zipfův zákon omezený počet hodně častých/očekávaných jevů nekonečně výčtem nepopsatelných řídkých jevů Homonymie, synonymie, elipsa, aktuální kontext May I watch TV? – It’s bath time, honey. Znalost světa, neverbální komunikace, humor čas, společenské zvyklosti, vlastní jména …
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací4 Hlavní oblasti výzkumu Speech recognition and synthesis rozpoznávání/generování mluvené řeči Information retrieval (IR) vyhledávání informací, nikoli jen textu Sémantika, konstrukce ontologií, logika modelování významu, reprezentace znalostí Machine translation (MT) automatický překlad, analýza a syntéza jazyků
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací5 Jazyková data a jejich anotace Model jazyka podle zvoleného kritéria psané x mluvené, obecné x oborové, paralelní, historické popis struktury jazyka x popis informací, binární x fuzzy Reprezentace jazyka závislá na teorii popisu (ne)úplnost, různý detail, sledovaný cíl závislostní syntax vs. složková syntax, morfologie, TFA Jazykové zdroje jsou přesto široce využitelné pro všechny zmiňované výzkumné oblasti Linguistic Data Consortium, University of Pennsylvania ÚFAL & CKL, ÚJČ, ÚSJ, projekty EU, MALACH
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací6 Prague … Dependency Treebank Morfologická rovina (r. slovních druhů) analýza slovních forem v textu, určení základního slovního tvaru a způsobu jeho odvození z/do formy Analytická rovina (r. povrchové syntaxe) popis struktury věty a nalezení funkcí větných členů, vyjádření vlastní gramatiky jazyka Tektogramatická rovina (r. jazykového významu) zachycení významu promluvy (vět v celém kontextu) a jeho reprezentace tak, že je do jisté míry popisem myšlenky a lze jej využít k porozumění textu, tj. i k překladu mezi jazyky
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací7 Když mám treebank, co umím? Morfologická analýza (a vymezení jednotek řeči) slovník aktuálního jazyka, algoritmus odvozování forem, jejich verifikace a rekonstrukce, lemmatizace slov textu Tagging, disambiguace (nejen morpho) automatický výběr správných anotací v daném kontextu, strojové učení, rozhodovací modely Syntaktická analýza (i tecto) rozbor textu a jejího členů, redukce vět, interpretace Jazykový model (různé úrovně) identifikace jazyků, třídy slov/struktur, rozpoznávání
25. června 2003Natural Language Processing: Motivační přehled problémů, řešení a aplikací8 Pro skutečný svět … … existuje zřejmé využití ;) vysoce organizované slovníky a lexikální sítě, studijní pomůcky automatické kontroly pravopisu a gramatiky, odhad srozumitelnosti doplňování textu v průběhu psaní, víceznačné klávesnice (mini- přístroje, usnadnění komunikace pro handicapované) komprese dat (rychlost, kapacita), užitečný signál interpretace textu, IR, zjišťování informací z internetu i jiných DB dialogové systémy, obchod, služby, interview (i v lékařství) hlasová komunikace s počítačem (rozuměj obecně, např. navigace) úplný automatický překlad, machine-assisted translation, orientační překlad, interaktivní překlad Mnoho vedlejších efektů (od modelování živých organizmů ke čtení DNA, rozpoznávání obrazu,...)