Slovníky a morfologická analýza

Slides:



Advertisements
Podobné prezentace
Slovníky a morfologická analýza
Advertisements

Projekt MŠMTEU peníze středním školám Název projektu školyICT do života školy Registrační číslo projektuCZ.1.07/1.5.00/ ŠablonaII/2 Sada07 AnotaceUžívání.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Mgr. Marie Havránková TVAROSLOVÍ 4 – přídavná jména Mluvnice pro 2. ročník 2. ročník Srpen 2012.
K OMUNIKACE VERBÁLNÍ A NEVERBÁLNÍ Zpracovala: Mgr. Kateřina Holá Speciální základní škola, Česká Kamenice, Jakubské nám. 113, příspěvková organizace.
Komunikace Že si nerozumíme, je normální. Že si porozumíme, je zázrak. neznámý autor Dostupné z Metodického portálu ISSN: , financovaného.
Černý Petr − druhy slov Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Dušan Goš. Dostupné z Metodického portálu ISSN: ,
Název školy: ZÁKLADNÍ ŠKOLA SADSKÁ Autor: Mgr. Jiřina Homolová Název DUM: VY_32_Inovace_ Vypravování 3 Název sady: Český jazyk 6. ročník Číslo projektu:
Anotace: Materiál je určen pro žáky 6. ročníku, slouží k opakování probraného učiva Datum: Ročník: 6. Vzdělávací oblast: Jazyk a jazyková komunikace.
NÁZEV ŠKOLY: Základní škola a Mateřská škola Nedvědice, okr. Brno- venkov, příspěvková organizace AUTOR: Tomanová Jana NÁZEV: VY_32_INOVACE_02_05- Přídavná.
Slovesné tvary určité a neurčité sloveso vyjadřuje nějaký děj nebo stav ve větě stojí jako přísudek (jdeme, hoří) slovesné tvary dělíme na: určité - vyjadřují.
VY_32_INOVACE_C VIKLOVA. CEJTEXTO1 Komplexní jazykový rozbor 1.
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů Tvarosloví 9. ročník Název materiálu VY_32_INOVACE_01_Ohebné slovní druhy Autor Chňoupková Martina.
PRESENT SIMPLE NEGATIVE_09
Věcné autority v roce 2016
Název školy: Základní škola Pomezí, okres Svitavy
Základy automatického řízení 1
NÁZEV ŠKOLY: Základní škola a Mateřská škola Nedvědice, okr
Slovníky a morfologická analýza
Život jako leporelo, registrační číslo CZ.1.07/1.4.00/
Internet.
SLOVNÍ DRUHY Název školy: Základní škola Karla Klíče Hostinné
ZÁKLADNÍ ŠKOLA SADSKÁ Mgr. Jiřina Homolová VY_32_Inovace_12.1.3
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
LATINSKÁ TERMINOLOGIE
ZÁKLADNÍ ŠKOLA SADSKÁ Mgr. Jiřina Homolová VY_32_Inovace_12.1.3
ZÁJMENA KDO TATO JÁ NIC SE MŮJ NAŠE KTERÝ ŽÁDNÝ
JAZYKOVĚDNÁ TERMINOLOGIE
11 všestranný jazykový rozbor
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO:
Základní škola Unhošť CZ.1.07/1.4.00/ Projekt MŠMT ČR
Slovesa.
Příslovce Mgr. Michal Oblouk.
NÁZEV ŠKOLY: ZŠ Dolní Benešov
8.1 Aritmetické vektory.
Financováno z ESF a státního rozpočtu ČR.
AUTOR: Mgr. Marcela Lazáková NÁZEV ŠKOLY:
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Present Simple Přítomný čas prostý. Present Simple Přítomný čas prostý.
VYPRAVOVÁNÍ Mgr. Michal Oblouk.
Český jazyk 6. ročník ZÁKLADNÍ ŠKOLA SADSKÁ Mgr. Jiřina Homolová
zpracovaný v rámci projektu
Český jazyk 2 . ročník PŘEHLEDY
III/2 Inovace a zkvalitnění výuky prostřednictvím ICT
Budoucí čas WILL Future tense Zpracovala: Ing. Alice Javoříková
VY_32_INOVACE_47_TK projekt v rámci vzdělávacího programu
Přídavná jména přivlastňovací
AUTOR: Mgr. Linda Tůmová NÁZEV: VY_32_INOVACE_03_ČJ_19
ZÁKLADNÍ ŠKOLA ÚSTÍ NAD LABEM, HLAVNÍ 193,
Elektrický náboj Ing. Jan Havel.
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
AUTOR: Kateřina Křížová
NÁZEV ŠKOLY: Základní škola a Mateřská škola Nedvědice, okr
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace Autor: Mgr
Název projektu: ZŠ Háj ve Slezsku – Modernizujeme školu
Digitální učební materiál
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/
Rovnice s absolutními hodnotami
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Klasifikace větných členů, rozbor věty jednoduché
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.4.00/ AUTOR: Mgr. Jiří.
Slovesný způsob podmiňovací
PŘÍVLASTEK Název školy: Základní škola Karla Klíče Hostinné
Úvod do korpusové lingvistiky 3
Křováci odmítají válku
Název školy: Základní škola a mateřská škola Domažlice , Msgre B
Grafy kvadratických funkcí
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
TVAROSLOVÍ SLOVNÍ DRUHY – SLOVA OHEBNÁ A NEOHEBNÁ
Transkript prezentace:

Slovníky a morfologická analýza Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Slovník Zásobárna informací o slovech Morfologie Syntaxe Sémantika vzory ohýbání, pravidelné odvozování (zdrobněliny, přídavná jména slovesná…) Syntaxe slovní druh vztah k ostatním slovům: subkategorizace (neboli „povrchové valenční rámce“) Sémantika významové rysy valenční rámce se sémantickými rolemi … a cokoli dalšího, například překlad 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy (parts of speech) Čeština N podstatná jména A přídavná jména P zájmena C číslovky V slovesa D příslovce R předložky J spojky T částice I citoslovce Jiné Z zvláštní (např. interpunkce) X neznámé slovo Člen (např. angličtina) Wh-slovo (tázací / vztažné zájmeno či příslovce – např. angličtina: who, what, which, how, … Počítací slovo (čínština) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy Seznam slovních druhů (anglicky part of speech) je ve většině jazyků celkem podobný. Jde o sémanticko-syntaktickou, ne morfologickou kategorii, ale určuje, které morf. kat. jsou relevantní. Syntakticky vymezené druhy (podle vztahů ve větě) Slovesa, podstatná jména, přídavná jména, příslovce, předložky, spojky, členy, wh-slova. Případně i citoslovce. Druhy vymezené jinak Zájmena (syntakticky N, A, někdy se zvláštní funkcí – Wh) Číslovky (syntakticky A, N, Adv) Částice (to, co se nevešlo jinam) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy Otevřené kategorie (přijímají nová slova) slovesa, podstatná jména, přídavná jména, příslovce, (citoslovce) odvozování slov napříč kategoriemi Uzavřené kategorie (slova lze vyjmenovat) zájmena, (předložky), spojky, částice, číslovky (matematicky neomezené, ale lingvisticky ano) nejsou podkladem pro odvozování slov 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sady značek Obecná definice: Angličtina značka … (k1,k2,…,kn) na sadu značek se často pohlíží jako na prostý seznam T = {ti}i=1..n přičemž se předpokládá vzájemně jednoznačné zobrazení T « (K1,K2,…,Kn) Angličtina Penn TreeBank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) Brown Corpus (87), Claws c5 (62), London-Lund (197) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sady značek Rozdíly v různých korpusech a jazycích: Čeština velikost (10 až 10000) pokryté kategorie (slovní druh, číslo, negace, …) míra podrobnosti rozpracování podoba (krátké identifikátory × dlouhé „poziční značky“) Čeština poziční značky PDT kompaktní (starší) značky PDT MULTEXT-EAST (Orwell 1984, paralelní korpus) Majka (FI MU Brno) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Co všechno by měla kódovat morfologická značka pro češtinu? Informace z morfologické značky by měla umožňovat vytvořit z lemmatu příslušný tvar slova. Pokud je to nutné, může kromě morfologických informací obsahovat i lexikální, sémantické (slovní druh?) Extrém 1: každý slovní tvar je „lemma“. Morfologie je nulová, lemma je samo svojí značkou. Extrém 2: značka obsahuje detailní sémantické zařazení slova, takže lemma už není potřeba. 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Poziční značky PDT (Pražského závislostního korpusu) G F S 3 - 1 slovní druh poddruh rod číslo pád vnitřní rod vnitřní číslo osoba čas stupeň zápor slovesný rod odstín 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Rod M mužský životný Y M nebo I I mužský neživotný T I nebo F F ženský W I nebo N N střední H, Q F nebo N X neznámý Z M, I nebo N 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Číslo S jednotné (singulár) D dvojné (duál) P množné (plurál) X neznámé 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pád 1 nominativ 2 genitiv 3 dativ 4 akuzativ 5 vokativ 6 lokál 7 instrumentál X neznámý 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Stupeň, zápor, osoba Stupeň přídavných jmen a příslovcí: 1, 2 (komparativ), 3 (superlativ) Zápor (u V, A, D a taky N): A (afirmativ), N (negativ) Osoba sloves a zájmen: 1, 2, 3 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovesný čas, rod a způsob Mění relevanci ostatních kategorií (jako je osoba a číslo)  zacházet s nimi jako se slovním (pod-) druhem. Čas: přítomný (P), minulý (M), budoucí (F) Rod: činný (aktivum A), trpný (pasivum P) Způsob: oznamovací (N), rozkazovací (R), podmiňovací (C – např. bych) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Stylová či jiná odchylka 1 jiná varianta, méně častá 2 jiná varianta, velmi řídká, zastaralá nebo knižní 3 velmi zastaralá, popř. hovorová varianta 5 hovorová, tolerovaná v mluv. i psaném projevu 6 hovorová, nevhodná v psaném projevu 7 hovorová jako 6, ale méně preferovaná mluvčími 9 zvláštní použití (např. po jistých předložkách) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sada značek Penn TreeBanku 1. CC coord. conj. 2. CD cardinal number 3. DT determiner 4. EX existential there 5. FW foreign word 6. IN preposition or subord. conjunction 7. JJ adjective 8. JJR adj, comparative 9. JJS adj, superlative 10. LS list item marker 11. MD modal 12. NN noun, singular/mass 13. NNS noun, plural 14. NNP proper noun, sing. 15. NNPS proper noun, pl. 16. PDT predeterminer 17. POS possessive ending 18. PRP personal pronoun 19. PRP$ poss. pronoun 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sada značek Penn TreeBanku 20. RB adverb 21. RBR adv, comparative 22. RBS adv, superlative 23. RP particle 24. SYM symbol 25. TO to 26. UH interjection 27. VB verb, base (do) 28. VBD verb, past (did) 29. VBG verb, gerund or pres. participle (doing) 30. VBN verb, past participle (done) 31. VBP verb, non-3rd pers. sing. present (do) 32. VBZ verb, 3rd pers. sing. present (does) 33. WDT wh-det. (which?) 34. WP wh-pronoun (who) 35. WP$ possessive wh-pronoun (whose) 36. WRB wh-adv. (where) 37. . period… 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Universal POS Tags http://universaldependencies.org/u/pos/index.html NOUN PROPN (proper noun) VERB ADJ (adjective) ADV (adverb) INTJ (interjection) PRON (pronoun) DET (determiner) AUX (auxiliary) NUM (numeral) ADP (adposition) SCONJ (subordinating conj.) CCONJ (coordinating conj.) PART (particle) PUNCT (punctuation) SYM (symbol) X (unknown) 22.10.2010 http://ufal.mff.cuni.cz/course/npfl094

Universal Features http://universaldependencies.org/u/feat/index.html PronType (druh zájmena) NumType (druh číslovky) Poss (přivlastňovací) Reflex (zvratné) Foreign (cizí slovo) Abbr (zkratka) Gender (rod) Animacy (životnost) Number (číslo) Case (pád) Definite(ness) (určitost) Degree (stupeň) VerbForm (slovesný tvar) Mood (způsob) Tense (čas) Aspect (vid) Voice (slovesný rod) Evident(iality) (zjevnost) Person (osoba) Polite(ness) (zdvořilost) Polarity (zápor) 22.10.2010 http://ufal.mff.cuni.cz/course/npfl094

Morfologická analýza a syntéza Formálně: Zobrazení, které každému slovu (slovnímu tvaru) přiřadí dvojici lemma – značka, nebo množinu takových dvojic. Veškerá informace o slovním tvaru je ve značce. Z dvojice lemma – značka lze jednoznačně dostat slovní tvar (= morfologická syntéza). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfologie A … abeceda grafémů, A+ je např. slovo L  2A+ … slovník lemmat (lemma = základní, heslový tvar) lemma l  L Ki … i-tá morfologická kategorie kategorie je množina hodnot. např. Krod = {M, I, F, N} T  K1×…×Kn = sada morfologických značek v angličtině part-of-speech tag set, obvykle n=1; u nás např. n=15 značka t = (k1, …, kn)  T, ki je hodnota i-té kategorie 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfologická analýza a značkování Analýza: A+  2(L, T) Syntéza: (L, T)  A+ Značkování: A+  (L, T) resp. 2(L, T), Kontexty  (L, T) Značkování (tagging) je zjednoznačnění morfologické analýzy. Může být ruční nebo automatické ((pos)taggerem). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Příklady značkování Slovní tvar A+ ® 2(L,K1,…,Kn) ® T Vysušený kámen se pokryl bílou solí. morfologická analýza: solí ® {(sůl, podstatné-jméno, pád-7, číslo-jednotné), (solit, sloveso, číslo-jednotné, čas-přítomný, osoba-3)} značkování (zjednoznačnění): … ® (sůl, podstatné-jméno, …) He always books the tickets early. morfologická analýza: books ® {(book-1, podstatné-jméno, číslo-množné), (book-2, sloveso, číslo-jednotné, čas-přítomný)} značkování: … ® (book-2, sloveso, číslo-jednotné, čas-přítomný) [napodzim] [dozraje] [slatkí] [plot] m.a.: [plot] ® {(plot, pád-1), (plod, pád-1), (plot, pád-4), …} značkování: … ® (plod, pád-1) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Lemmatizace Opakování: lemma lÎL je lexikální jednotka (slovníkové heslo). Bývá reprezentováno základním tvarem slova, ale zrovna tak by to mohl být číselný odkaz. Úplná morfologická analýza MA: A+ ® 2(L,K1,K2,…,Kn) Lemmatizace je částečná morfologická analýza LA: A+ ® 2L (w ® {l; (l,t1,t2,...,tn)ÎMA(w)}) chceme však A+ ® L, takže opět musíme zjednoznačňovat (speciální případ rozlišování významu slov, WSD) „klasické“ značkování se lemmatizací nezabývá (předpokládá, že se nějak provede později) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1