PA164 Strojové učení a přirozený jazyk

PA164 Strojové učení a přirozený jazyk
Luboš Popelínský

Sylabus Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. Přehled metod strojového učení Desambiguace. Morfologická desambiguace a desambiguace významu slov Mělká a úplná syntaktická analýza a strojové učení Hledání lexikálních jednotek a kolokací Kategorizace dokumentů Extrakce informace z textu Dolování v textu Dolování v hypertextu a WWW Sémantický web

Zdroje informací Association of Computational Linguistics
SIG on Natural Language Learning corpora mailling list Konference CoNLL; ACL,EACL,NAACL, COLING; TSD Text Mining Ws KDD Conf. D.Mladenič J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering,

Zpracování přirozeného jazyka I
součást počítačové lingvistiky porozumění přirozenému jazyku s pomocí počítače zde zpracování textu strojové učení nikoliv zpracování řeči (Jelinek97) generování textu, strojový překlad pridat citace

Zpracování přirozeného jazyka II
- morfologické značkování (Brill, Cussens, FIMU) - opravy chyb v textu (DanRoth, automatická syntaktická analýza, shallow parsing shlukování termů a dokumentů kategorizace dokumentů extrakce informací z textu sumarizace textu ... - dolování na Internetu (Hidalgo, Mladenič) počítačová lingvistika, navíc např. tvorba modelu jazyka

Korpusy http://www.uni-giessen.de/~ga1007/ComputerLab/corpora.htm
British National Corpus Penn Tree Bank Brown Corpus jednoznačně/víceznačně označkovaný text The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of current British English, both spoken and written. The Penn Treebank Project annotates naturally-occuring text for linguistic structure. Most notably, we produce skeletal parses showing rough syntactic and semantic information -- a bank of linguistic trees. We also annotate text with part-of-speech tags, and for the Switchboard corpus of telephone conversations, dysfluency annotation. We are located in the LINC Laboratory of the Computer and Information Science Department at the University of Pennsylvania. All data produced by the Treebank is released through the Linguistic Data Consortium.

České korpusy Prague Dependency Tree Bank ČNK http://ucnk.ff.cuni.cz/
DESAM (Pala et al.97) jednoznačně/víceznačně označkovaný text The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of current British English, both spoken and written. The Penn Treebank Project annotates naturally-occuring text for linguistic structure. Most notably, we produce skeletal parses showing rough syntactic and semantic information -- a bank of linguistic trees. We also annotate text with part-of-speech tags, and for the Switchboard corpus of telephone conversations, dysfluency annotation. We are located in the LINC Laboratory of the Computer and Information Science Department at the University of Pennsylvania. All data produced by the Treebank is released through the Linguistic Data Consortium.

Korpus DESAM (Pala et al.97) Pozic 1 247 594
Různých slovních tvarů Slovní tvary vyskytující se jen 1x Různá lemmata Lemmata vyskytující se 1x čeština: Různé tagy slovních kořenů

Gramatické kategorie tamtéž/gramkat.html Rod Mužský životný/ neživotný gM/gI Libovolný gX Muž.než.+střední gY Mužský +střední gU Modus Infinitiv/ Indikativ / Imperativ mF / mI /mR Vid Perfectum / Imperfectum aP / aI Stupňování Nominativ / Komparativ / Superlativ d1 / d2 / d3

Příklad Od <l> od <t> k7c2
rána <l> ráno <t> k1gNnSc2,k1gNnPc145 <l> rána <t> k1gFnSc1 je <l> být <t> k5eAp3nStPmIaI <l> on <t> k3xPgNnSc4p3,k3xPgXnPc4p3 Ivana <l> Ivan <t> k1gMnSc24 <l> Ivana <t> k1gFnSc1 se <l> s <t> k7c7 <l> sebe <t> k3xXnSc4 ženou <l> žena <t> k1gFnSc7 <l> hnát <t> k5eAp3nPtPmIaI h

Korpusové manažery CQP (Corpus Query Processor) Univ.Stuttgart
Pavel Rychlý tamtéž/cqp.html > cqp [no corpus]> DESAM; DESAM> show +tag; DESAM> "se" "se"; Sc6 roku/k1gInSc2 1993/ <se/k3xXnSc4 se/k7c7> zájemci/k1gMnPc7 o/k7c4 jednávalo/k5eApNnStMmPaI <se/k3xXnSc4 se/k7c7> zaťatými/k2eAgXnPc7 eAgMnPc1d1 lidé/k1gMnPc1 <se/k3xXnSc4 se/k7c7> slovy/k1gNnPc7 “/ Češi

CQP: Příklad 2 první slovo začíná na "sestr" nebo "Sestr",
PUBL> "[Ss]estr.*" ("a"|"i") []{0,4} "[uk].*"; 199746: nost , že Irák již bombu <sestrojil a poté ji ukryl >. Podle zjištění CBS získ : se uskuteční v italském <Sestriere a v klasici >budou bojovat v norském T : ětší nároky na zdravotní <sestry i na přístrojové vybavení , které> mělo k dispozici málokter první slovo začíná na "sestr" nebo "Sestr", druhé je "a" nebo "i", dále následuje 0 až 4 libovolné pozice poslední je slovo začínající písmenem "k" nebo "u".

Morfologický analyzátor ajka
(Sedláček01) <s> =kol=== (755-kolo) <l> kolo <c>k1gNnPc2 <s> =kol=== (1180-pila) <l>kola <c>k1gFnPc2 <s> =kol=== (750-kolem) <l>kol <c>k7c2

Další nástroje Parciální syntaktický analyzátor (Žáčková02) WordNet
Slovníky NLP Toolbox Brillův tagger Weka

PA164 Strojové učení a přirozený jazyk

Podobné prezentace

Prezentace na téma: "PA164 Strojové učení a přirozený jazyk"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

PA164 Strojové učení a přirozený jazyk

Podobné prezentace

Prezentace na téma: "PA164 Strojové učení a přirozený jazyk"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář