Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Výběr ze závěrečných prací studentů Fakulty informatiky se vztahem k umělé inteligenci Miloš Husák PB 016 2006.

Podobné prezentace


Prezentace na téma: "Výběr ze závěrečných prací studentů Fakulty informatiky se vztahem k umělé inteligenci Miloš Husák PB 016 2006."— Transkript prezentace:

1 Výběr ze závěrečných prací studentů Fakulty informatiky se vztahem k umělé inteligenci Miloš Husák PB 016 2006

2 Obsah 1) Morfologie 2) Syntaxe 3) Sémantika 4) Korpusy 5) Dialog 6) Webové nástroje 7) Syntéza řeči

3 1. Morfologie Morfologický analyzátor češtiny Radek Sedláček 1999

4 Morfologický analyzátor češtiny – teorie Navazuje na: „Algoritmický popis české formální morfologie a strojový slovník češtiny“ (Klára Osolsobě, 1996 ) textové slovo- posloupnost znaků oddělených mezerou kořen- nesamostatný morfém nesoucí elementární lexikální význam kmen- kořen + intersegment (přípona). prefix- morfém stojící před kořenem sufix- morfém připojovaný za kořen postfix- slovotvorný morfém připojovaný za sufix trie- n-ární stromová struktura list- koncový uzel stromu

5 Webové rozhraní programu AJKA http://nlp.fi.muni.cz/projekty/wwwajka

6 Morfologický analyzátor češtiny–implementace.stm slovník kmenových základů.mrf koncovkové množiny a vzory.par definiční soubor KaM. v bin. podobě Analyzovan ý vstup.dic trie kmenových základů AJKA ABIN Výstup

7 Příbuzné práce Portace morfologického analyzátoru Petr Kroutil, 2001

8 2. Syntaxe Syntaktická analýza přirozeného jazyka Vladimír Kadlec 2000

9 Syntaktická analýza přirozeného jazyka Navazuje na: Tomita Masaru : “Efficient parsing for natural language“, 1986 Autor implementuje a porovnává tyto algoritmy na gramatice se zhruba 3000 pravidel a větách dlouhých až 40 slov. Chart parser - top down (Earlyho) - bottom up - head driven (bidirectional) Tomitův zobecněný LR parser

10 Chart parser Chart Je to věta ve zkoumané gramatice? Vstupní věta Agenda

11 Tomitův zobecněný LR parser Analyzovaná věta Rozkladová tabulka Zásobník Anal yzov aná Je to věta ve zkoumané gramatice?

12 Příbuzné práce Automatizovaná konstrukce gramatiky přirozeného jazyka Miloslav Nepil, 2000 Aproximace CFG pomocí regulárních gramatik Michal Martínek, 2003 Efektivní metody pro syntaktickou analýzu přirozeného jazyka – GLR Ondřej Macek, 2003 Porovnání efektivity metod syntaktické analýzy přirozeného jazyka Radek Ježowicz, 2004

13 3. Sémantika Sémantická analýza přirozeného jazyka Aleš Horák 1997

14 Syntaktická analýza přirozeného jazyka – teorie Požadavky na počítačový jazyk reprezentující sémantiku výrazů v přirozeném jazyce: jednoznačnost obsáhlost zpracování počítačem, inference rekonstrukce do přirozeného jazyka Navazuje na: Pavel Tichý – autor systému Transparentní Intenzionální Logiky (TIL) Winogradův robot Séman - sémové ekvivalenty slov, sémy, sémové operátory muž = {bytost, osoba} pán = {bytost, osoba} = muž chlapec = {bytost, osoba, mladý} = mladý muž Transparentní intenzionální logika

15 Transparentní intenzionální logika - TIL Epistemická báze E= {o, ι, τ, ω} opravdivostní hodnoty ιuniversum individuí τreálná čísla, taktéž reprezentující čas ωmnožina možných světů Intenzionální báze množina výchozích rysů a objektů Konstrukce trivializace exekuce kompozice abstrakce

16 Typová analýza výrazů v přirozeném jazyce Sémantický analyzátor Klára Syntaktický analyzátor Sémantická pravidla Sémantický slovník Vstupní text Sémantický strom Implementováno v Prologu s využitím Kláry S. France a DCG pravidel Navázat lze sestavením dokonalejšího syntaktického analyzátoru, podrobnějších sémantických pravidel a slovníku, vybudování intenzionální báze či tvorbou inferenčního mechanismu

17 Sémantický strom v TILu

18 Příbuzné práce Desambiguace korpusu pomocí statistických metod Pavel Starý, 2000

19 4. Korpusy Systém pro správu a kontrolu korpusových dat Pavel Filipenský 2000

20 Existující korpusy British National Corpus: http://www.natcorp.ox.ac.uk/http://www.natcorp.ox.ac.uk/ Český národní korpus: http://ucnk.ff.cuni.cz/http://ucnk.ff.cuni.cz/ Základní kritéria stanovená pro návrh korpusů dle CES (Corpus Encoding Standard): úplnost konzistence obnovitelnost původního textu možnost validace rozšířitelnost IB047: Úvod do korpusové lingvistiky a počítačové lexikografie převod Českého národního korpusu do vertikálu Automatické plnění korpusů periodiky

21 Vertikální text mf/1999/05/17/1.vert <!DOCTYPE vertical SYSTEM "htt Sněmovna zasedala V~pátek ráno zasedala sněmovna. mf/1999/05/17/1.meta Source: http://www.trafika.cz/mf/1 Medium: net Lang : cs D_Publ: 1999-05-17 M_Auth: html;cstocs 1250 il2;apk_ M_Date: 1999-05-18 M_Desc: odstranění &-sekvencí;z Doc : mf/1999/05/17/1 Title : Sněmovna zasedala T_Orig: Titulní strana T_Main: ALT T_Sub : ALT Auth_N: Karol Wolf Doc : mf/1999/05/17/2

22 Nástroje pro správu korpusů traverse_dirnástroj pro provádění operací nad celými adresáři korpusu corpus_splitrozděluje text do pozic attrib_insert_ xxxvkládání atributů do metainformací v2m_fileskontrola korespondence.vert a.meta souborů v2m_docskorespondence značek doc ve vertikálu a metainformaci xml_checkrxp - validuje vertikál meta_checkvaliduje metainformace il2_checkkontroluje kódování Latin-2 pozice_checkzjišťuje nedělitelnost pozic ve vertikálu heuristic_checkhledá html tagy a příkazy LaTeXu make_doc_listvýpis se signaturami pro identifikaci duplicit incoming2verticalzapracuje nové texty v adresáři incoming do korpusu

23 Příbuzné práce Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků Luboš Karásek, 2000 Uživatelské rozhraní pro korpusové manažery Martin Novák, 2002

24 5. Dialog Znalec encyklopedie Zdeněk Svoboda 2001

25 Znalec encyklopedie - přehled Navazuje na: Začlenění jazykových nástrojů do systému pro indexování dokumentů (Martin Povolný, 2001) Information Retrieval - nad nestrukturovaným textem - typ dotazu - dotaz IR indexu - vrátí entity nejblíž slovům v otázce - TREX (Text REtrieval Conference) - Textract, Lasso, AT&T a Falcon. Znalostní báze - nad daty reprezentovanými např. pomocí relací - Start, AskJeeves

26 Reprezentace dat Úplnost = Přesnost = vrácené relevantní dokumenty všechny relevantní dokumenty vrácené relevantní dokumenty všechny vrácené dokumenty Ukládání textu - sekvenční soubory - relační databáze - invertované soubory Vyhledávací struktury - pole - strom - trie, konečný automat - hash

27 - texty pocházejí z encyklopedie Diderot 2000. - úprava pomocí XML filtrů, MAXXL=> znalostní databáze - CZIndex Martina Povolného=> IR Index - architektura klient - server Hodnocení systémů QA: Třída 1slovo, slovní spojení z textuKdo je prezident Francie? Třída 2věta, úryvek textuCo se dělo po potopení Titaniku? Třída 3výtah z několika textůJaké názory se vyskytují k legalizaci drog? Třída 4analýza informací více článkůUveď argument, který by lidi odradil od imigrace Třída 5vlastní uvažování o světěJaká měla být obhajovací strategie v soudním případu O. J. Simpsona? Možnost navázat: zapracování WordNetu http://nlp.fi.muni.cz/projekty/znalec_encyklopedi e Vlastnosti

28 Index XML Index IR Otázka Typ odpovědi Algoritmus odpovědi Taxonomi e Indexy XML entit Nalezení entity v XML odpovídající objektu otázky Získání XML dokumentu obsahujícího danou entitu Aplikace algoritmu na získaný dokument Lexikální a morfologická analýza otázky Nalezení zaměření otázky Tvorba IR dotazu odpověď systému CZIndex Segmentace dokumentů Ohodnocení segmentů Analýza segmentů Získání odpovědi Odpověď XML data IR Index CZInde x Schéma systému

29 Příbuzné práce Syst. pro komunikaci s uživ. v přir. jaz. se silně omezenou doménou David Láska, 2000 Implementace systému pro "Information Retrieval" Martin Povolný, 2001 UIO Ing. Ondřej Šustáček a Lukáš Svoboda, 2002 QAS pro manuálové stránky Linuxu Pavel Možný

30 6. WebChecker Co se na HTML stránkách změnilo Leoš Neudert 2000

31 Vlastnosti Serverová část - řada skriptů v Perlu - využívá MySQL databázi - periodicky kontroluje změny stránek - schopná ignorovat změny bannerů a formátování (filtry) Klientská část - webové rozhraní z php stránek - snadná konfigurace i obsluha - informování o změnách pomocí e-mailu, nebo on-line Navazuje na:AIDE (AT&T Internet Difference Engine) Douglis F., Ball T., Chen Y., Koutsofios E. (1998)

32 Princip

33 Příbuzné práce ResearchIndex Josef Mariánek

34 7. WebChecker Syntéza řeči Mikuláš Piňos 2000

35 7. WebChecker tvorba TTS systému pro češtinu MBROLA - hlasový syntetizér - Faculté Polytechnique de Mons v Belgii Festival - open source Navržený TTS systém: Natural Language Processing - NLP - Jan Dvořák ve své práci „Fonetická transkripce českého jazyka“ - podrobná fonetická transkripce (fonémy, prozodie) - text2phone Digital Signal Processing -DSP - difonová báze

36 Příbuzné práce Ovládání počítače mluvenou řečí Petr Křivánek, 2000 Talking Faces Dominik Pospíšil, 2001 Syntéza českých vět s proměnným prozodickým ztvárněním Aleš Ramša, 2001 Vývoj vzorů pro zpracování přirozeného jazyka David Macháček, 2003


Stáhnout ppt "Výběr ze závěrečných prací studentů Fakulty informatiky se vztahem k umělé inteligenci Miloš Husák PB 016 2006."

Podobné prezentace


Reklamy Google