PA164 Strojové učení a přirozený jazyk

Slides:



Advertisements
Podobné prezentace
Analýza staročeské morfologie v Excelu
Advertisements

Úvod do studia jazyka – 4. Gramatika Morfologie.
Tvorba WWW stránek ÚVOD
CJBB75 1 ZPK CJBB CJBB75 2 Je to, co je skryto ve značce „stupeň“, jediné, co je možné se z korpusu dozvědět o stupňování v češtině ? Pozice.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Korpusová lingvistika (2)
ROD JMENNÝ.
Sémantická analýza založená na lingvistických a ontologických zdrojích Adéla Kereková
Počítače a porozumění textu
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
Strojové učení a přirozený jazyk Luboš Popelínský Fakulta informatiky Masarykova universita v Brně, Botanická 68a, Brno
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
Slovníky cizích slov Teď pustila mě pasivita a ty jsi moje priorita jsem hnedle vedle z cizích slov no jak ta jedle nebo the Fir. Až naučím se cizí řeči.
VOKABULÁŘ WEBOVÝ aneb HISTORICKÉ SLOVNÍKY NA INTERNETU
/ /2003 – 10/2005 Dalším krokem je …. MetaLib verze 3 SFX verze 3 aplikace >>
Úvod do korpusové lingvistiky 8
N OVINKY V O FFICE 2010 Miroslav Drška. Historie Office pro Windows Word 1.0 pro MS- DOS – první textový editor, který používal myš Uveden.
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Jak funguje vyhledávání podobností Šimon Suchomel.
Anotace : ICT ČJ přídavná jména II. - 5.ročník
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona III/2VY_32_INOVACE_462.
KORPUSOVÁ LINGVISTIKA. ÚKOL Prozkoumejte gradační vlastnosti adjektiv v konstrukci "nicht nur ADJ (...) sondern", např. nicht nur hübsch, sondern auch.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
TNPW1 Technologie pro publikování na webu Cvičení č. 2 Překlad URL na fyzickou adresu stránky Editor Macromedia Homesite „Hello world“ v XHTML (úvod do.
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Slovníky a morfologická analýza
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
CKL --- Centrum komputační lingvistiky Projekt MŠMT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň, KKY FAV Masarykova.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
INFORMATIKA 8 WordArt - aplikace III2 – I ANOTACE Materiál obsahuje prezentaci ve formátu Microsoft PowerPoint (.ppt) pro učivo v předmětu Informatika,
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
MorČe morfologické značkování češtiny
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Text mining – definice inteligentní analýza textu textový data mining
CHYBOVÁ ANOTACE ŽÁKOVSKÉHO KORPUSU CZESL
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Umělá inteligence Robin Horniak. Definice Umělá inteligence (Artificial Intelligence), zkráceně UI (AI) věda, která se zabývá tím, jak přinutit stroje.
CJBB105 Úvod do korpusové lingvistiky
Úvod do korpusové lingvistiky seminář pro magisterské studium
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
Internet – pojmy, služby
Klára Osolsobě, Hana Žižková
Slovníky a morfologická analýza
Strojové učení a přirozený jazyk
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
Základy práce s korpusem seminář pro bakalářské studium
Tvorba WEBOVÝCH stránek – úvod do HTML
CJBB CJBB84.
ÚKL CJBB CJBB84.
Automatická indexace Základní metody a postupy
pracoviště, časopisy, software
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
HTML Vojtěch novotný 9.a.
Úvod do korpusové lingvistiky 3
Informatika pro ekonomy I LS 2009/2010
Transkript prezentace:

PA164 Strojové učení a přirozený jazyk Luboš Popelínský http://www.fi.muni.cz/~popel/lectures/ll popel@fi.muni.cz

Sylabus Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. Přehled metod strojového učení Desambiguace. Morfologická desambiguace a desambiguace významu slov Mělká a úplná syntaktická analýza a strojové učení Hledání lexikálních jednotek a kolokací Kategorizace dokumentů Extrakce informace z textu Dolování v textu Dolování v hypertextu a WWW Sémantický web

Zdroje informací Association of Computational Linguistics http://www.cs.columbia.edu/~acl/ SIG on Natural Language Learning http://ilk.kub.nl/~signll/ corpora mailling list http://www.hit.uib.no/corpora/ Konference CoNLL; ACL,EACL,NAACL, COLING; TSD Text Mining Ws KDD Conf. D.Mladenič http://www-ai.ijs.si/DunjaMladenic/home.html J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering, http://ecmlpkdd.cs.helsinki.fi/tutorials.html

Zpracování přirozeného jazyka I součást počítačové lingvistiky porozumění přirozenému jazyku s pomocí počítače zde zpracování textu strojové učení nikoliv zpracování řeči (Jelinek97) generování textu, strojový překlad pridat citace

Zpracování přirozeného jazyka II - morfologické značkování (Brill, Cussens, FIMU) - opravy chyb v textu (DanRoth, http://l2r.cs.uiuc.edu/~danr/) automatická syntaktická analýza, shallow parsing shlukování termů a dokumentů kategorizace dokumentů extrakce informací z textu sumarizace textu ... - dolování na Internetu (Hidalgo, Mladenič) počítačová lingvistika, navíc např. tvorba modelu jazyka

Korpusy http://www.uni-giessen.de/~ga1007/ComputerLab/corpora.htm British National Corpus http://www.natcorp.ox.ac.uk/ Penn Tree Bank http://www.cis.upenn.edu/~treebank/home.html Brown Corpus http://www.scs.leeds.ac.uk/amalgam/tagsets/brown.html jednoznačně/víceznačně označkovaný text The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of current British English, both spoken and written. The Penn Treebank Project annotates naturally-occuring text for linguistic structure. Most notably, we produce skeletal parses showing rough syntactic and semantic information -- a bank of linguistic trees. We also annotate text with part-of-speech tags, and for the Switchboard corpus of telephone conversations, dysfluency annotation. We are located in the LINC Laboratory of the Computer and Information Science Department at the University of Pennsylvania. All data produced by the Treebank is released through the Linguistic Data Consortium.

České korpusy Prague Dependency Tree Bank ČNK http://ucnk.ff.cuni.cz/ DESAM (Pala et al.97) jednoznačně/víceznačně označkovaný text The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of current British English, both spoken and written. The Penn Treebank Project annotates naturally-occuring text for linguistic structure. Most notably, we produce skeletal parses showing rough syntactic and semantic information -- a bank of linguistic trees. We also annotate text with part-of-speech tags, and for the Switchboard corpus of telephone conversations, dysfluency annotation. We are located in the LINC Laboratory of the Computer and Information Science Department at the University of Pennsylvania. All data produced by the Treebank is released through the Linguistic Data Consortium.

Korpus DESAM (Pala et al.97) Pozic 1 247 594 Různých slovních tvarů 132 447 Slovní tvary vyskytující se jen 1x 67 059 Různá lemmata 34 606 Lemmata vyskytující se 1x 11 759 čeština: Různé tagy 1 665 slovních kořenů 164 000

Gramatické kategorie http://www.fi.muni.cz/~pary/korp/ tamtéž/gramkat.html Rod Mužský životný/ neživotný gM/gI Libovolný gX Muž.než.+střední gY Mužský +střední gU Modus Infinitiv/ Indikativ / Imperativ mF / mI /mR Vid Perfectum / Imperfectum aP / aI Stupňování Nominativ / Komparativ / Superlativ d1 / d2 / d3

Příklad Od <l> od <t> k7c2 rána <l> ráno <t> k1gNnSc2,k1gNnPc145 <l> rána <t> k1gFnSc1 je <l> být <t> k5eAp3nStPmIaI <l> on <t> k3xPgNnSc4p3,k3xPgXnPc4p3 Ivana <l> Ivan <t> k1gMnSc24 <l> Ivana <t> k1gFnSc1 se <l> s <t> k7c7 <l> sebe <t> k3xXnSc4 ženou <l> žena <t> k1gFnSc7 <l> hnát <t> k5eAp3nPtPmIaI h

Korpusové manažery CQP (Corpus Query Processor) Univ.Stuttgart http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ Pavel Rychlý http://www.fi.muni.cz/~pary/korp tamtéž/cqp.html > cqp [no corpus]> DESAM; DESAM> show +tag; DESAM> "se" "se"; Sc6 roku/k1gInSc2 1993/ <se/k3xXnSc4 se/k7c7> zájemci/k1gMnPc7 o/k7c4 jednávalo/k5eApNnStMmPaI <se/k3xXnSc4 se/k7c7> zaťatými/k2eAgXnPc7 eAgMnPc1d1 lidé/k1gMnPc1 <se/k3xXnSc4 se/k7c7> slovy/k1gNnPc7 “/ Češi

CQP: Příklad 2 první slovo začíná na "sestr" nebo "Sestr", PUBL> "[Ss]estr.*" ("a"|"i") []{0,4} "[uk].*"; 199746: nost , že Irák již bombu <sestrojil a poté ji ukryl >. Podle zjištění CBS získ 3309273: se uskuteční v italském <Sestriere a v klasici >budou bojovat v norském T 4033789: ětší nároky na zdravotní <sestry i na přístrojové vybavení , které> mělo k dispozici málokter první slovo začíná na "sestr" nebo "Sestr", druhé je "a" nebo "i", dále následuje 0 až 4 libovolné pozice poslední je slovo začínající písmenem "k" nebo "u".

Morfologický analyzátor ajka (Sedláček01) <s> =kol=== (755-kolo) <l> kolo <c>k1gNnPc2 <s> =kol=== (1180-pila) <l>kola <c>k1gFnPc2 <s> =kol=== (750-kolem) <l>kol <c>k7c2

Další nástroje Parciální syntaktický analyzátor (Žáčková02) WordNet http://www.cogsci.princeton.edu/~wn/ Slovníky NLP Toolbox Brillův tagger Weka