Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Slovníky a morfologická analýza Daniel Zeman Počítačové zpracování přirozeného jazyka.

Podobné prezentace


Prezentace na téma: "Slovníky a morfologická analýza Daniel Zeman Počítačové zpracování přirozeného jazyka."— Transkript prezentace:

1 Slovníky a morfologická analýza Daniel Zeman Počítačové zpracování přirozeného jazyka

2 http://ufal.mff.cuni.cz/course/popj12 Slovník Zásobárna informací o slovech –Morfologie vzory ohýbání, pravidelné odvozování (zdrobněliny, přídavná jména slovesná…) –Syntaxe slovní druh vztah k ostatním slovům: subkategorizace (neboli „povrchové valenční rámce“) –Sémantika významové rysy valenční rámce se sémantickými rolemi –… a cokoli dalšího, například překlad

3 http://ufal.mff.cuni.cz/course/popj13 Slovní druhy (parts of speech) Čeština –Npodstatná jména –Apřídavná jména –Pzájmena –Cčíslovky –Vslovesa –Dpříslovce –Rpředložky –Jspojky –Tčástice –Icitoslovce Jiné –Z zvláštní (např. interpunkce) –X neznámé slovo –Člen (např. angličtina) –Wh-slovo (tázací / vztažné zájmeno či příslovce – např. angličtina: who, what, which, how, … –Počítací slovo (čínština)

4 http://ufal.mff.cuni.cz/course/popj14 Slovní druhy Seznam slovních druhů (anglicky part of speech) je ve většině jazyků celkem podobný. Jde o sémanticko-syntaktickou, ne morfologickou kategorii, ale určuje, které morf. kat. jsou relevantní. Syntakticky vymezené druhy (podle vztahů ve větě) –Slovesa, podstatná jména, přídavná jména, příslovce, předložky, spojky, členy, wh-slova. Případně i citoslovce. Druhy vymezené jinak –Zájmena (syntakticky N, A, někdy se zvláštní funkcí – Wh) –Číslovky (syntakticky A, N, Adv) –Částice (to, co se nevešlo jinam)

5 http://ufal.mff.cuni.cz/course/popj15 Slovní druhy Otevřené kategorie (přijímají nová slova) –slovesa, podstatná jména, přídavná jména, příslovce, (citoslovce) –odvozování slov napříč kategoriemi Uzavřené kategorie (slova lze vyjmenovat) –zájmena, (předložky), spojky, částice, číslovky (matematicky neomezené, ale lingvisticky ano) –nejsou podkladem pro odvozování slov

6 http://ufal.mff.cuni.cz/course/popj16 Sady značek Obecná definice: –značka … (k 1,k 2,…,k n ) –na sadu značek se často pohlíží jako na prostý seznam T = {t i } i=1..n přičemž se předpokládá vzájemně jednoznačné zobrazení T  (K 1,K 2,…,K n ) Angličtina –Penn TreeBank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) –Brown Corpus (87), Claws c5 (62), London-Lund (197)

7 http://ufal.mff.cuni.cz/course/popj17 Sady značek Rozdíly v různých korpusech a jazycích: –velikost (10 až 10000) –pokryté kategorie (slovní druh, číslo, negace, …) –míra podrobnosti rozpracování –podoba (krátké identifikátory × dlouhé „poziční značky“) Čeština –poziční značky PDT –kompaktní (starší) značky PDT –MULTEXT-EAST (Orwell 1984, paralelní korpus) –Majka (FI MU Brno)

8 http://ufal.mff.cuni.cz/course/popj18 Co všechno by měla kódovat morfologická značka pro češtinu? Informace z morfologické značky by měla umožňovat vytvořit z lemmatu příslušný tvar slova. Pokud je to nutné, může kromě morfologických informací obsahovat i lexikální, sémantické (slovní druh?) Extrém 1: každý slovní tvar je „lemma“. Morfologie je nulová, lemma je samo svojí značkou. Extrém 2: značka obsahuje detailní sémantické zařazení slova, takže lemma už není potřeba.

9 http://ufal.mff.cuni.cz/course/popj19 Poziční značky PDT (Pražského závislostního korpusu) AGFS slovní druhpoddruh rodčíslopád vnitřní rod vnitřní číslo osoba čas stupeň zápor slovesný rod -A odstín

10 http://ufal.mff.cuni.cz/course/popj110 Rod Mmužský životnýYM nebo I Imužský neživotnýTI nebo F FženskýWI nebo N NstředníH, QF nebo N XneznámýZM, I nebo N

11 http://ufal.mff.cuni.cz/course/popj111 Číslo Sjednotné (singulár) Ddvojné (duál) Pmnožné (plurál) Xneznámé

12 http://ufal.mff.cuni.cz/course/popj112 Pád 1nominativ 2genitiv 3dativ 4akuzativ 5vokativ 6lokál 7instrumentál Xneznámý

13 http://ufal.mff.cuni.cz/course/popj113 Stupeň, zápor, osoba Stupeň přídavných jmen a příslovcí: –1, 2 (komparativ), 3 (superlativ) Zápor (u V, A, D a taky N): –A (afirmativ), N (negativ) Osoba sloves a zájmen: –1, 2, 3

14 http://ufal.mff.cuni.cz/course/popj114 Slovesný čas, rod a způsob Mění relevanci ostatních kategorií (jako je osoba a číslo)  zacházet s nimi jako se slovním (pod-) druhem. Čas: přítomný (P), minulý (M), budoucí (F) Rod: činný (aktivum A), trpný (pasivum P) Způsob: oznamovací (N), rozkazovací (R), podmiňovací (C – např. bych)

15 http://ufal.mff.cuni.cz/course/popj115 Stylová či jiná odchylka 1jiná varianta, méně častá 2jiná varianta, velmi řídká, zastaralá nebo knižní 3velmi zastaralá, popř. hovorová varianta 5hovorová, tolerovaná v mluv. i psaném projevu 6hovorová, nevhodná v psaném projevu 7hovorová jako 6, ale méně preferovaná mluvčími 9zvláštní použití (např. po jistých předložkách)

16 http://ufal.mff.cuni.cz/course/popj116 Sada značek Penn TreeBanku 1. CC coord. conj. 2. CD cardinal number 3. DT determiner 4. EX existential there 5. FW foreign word 6. IN preposition or subord. conjunction 7. JJ adjective 8. JJR adj, comparative 9. JJS adj, superlative 10. LS list item marker 11. MD modal 12. NN noun, singular/mass 13. NNS noun, plural 14. NNP proper noun, sing. 15. NNPS proper noun, pl. 16. PDT predeterminer 17. POS possessive ending 18. PRP personal pronoun 19. PRP$ poss. pronoun

17 http://ufal.mff.cuni.cz/course/popj117 Sada značek Penn TreeBanku 20. RB adverb 21. RBR adv, comparative 22. RBS adv, superlative 23. RP particle 24. SYM symbol 25. TO to 26. UH interjection 27. VB verb, base (do) 28. VBD verb, past (did) 29. VBG verb, gerund or pres. participle (doing) 30. VBN verb, past participle (done) 31. VBP verb, non-3 rd pers. sing. present (do) 32. VBZ verb, 3 rd pers. sing. present (does) 33. WDT wh-det. (which?) 34. WP wh-pronoun (who) 35. WP$ possessive wh- pronoun (whose) 36. WRB wh-adv. (where) 37.. period…

18 http://ufal.mff.cuni.cz/course/popj118 Morfologická analýza a syntéza Formálně: Zobrazení, které každému slovu (slovnímu tvaru) přiřadí dvojici lemma – značka, nebo množinu takových dvojic. Veškerá informace o slovním tvaru je ve značce. Z dvojice lemma – značka lze jednoznačně dostat slovní tvar (= morfologická syntéza).

19 http://ufal.mff.cuni.cz/course/popj119 Morfologie A … abeceda grafémů, A + je např. slovo L  2 A+ … slovník lemmat (lemma = základní, heslový tvar) –lemma l  L K i … i-tá morfologická kategorie –kategorie je množina hodnot. –např. K rod = {M, I, F, N} T  K 1 ×…×K n = sada morfologických značek –v angličtině part-of-speech tag set, obvykle n=1; u nás např. n=15 –značka t = (k 1, …, k n )  T, k i je hodnota i-té kategorie

20 http://ufal.mff.cuni.cz/course/popj120 Morfologická analýza a značkování Analýza: A +  2 (L, T) Syntéza:(L, T)  A + Značkování: A +  (L, T) resp.2 (L, T), Kontexty  (L, T) Značkování (tagging) je zjednoznačnění morfologické analýzy. Může být ruční nebo automatické ((pos)taggerem).

21 http://ufal.mff.cuni.cz/course/popj121 Příklady značkování Slovní tvar A +  2 (L,K 1,…,Kn)  T –Vysušený kámen se pokryl bílou solí. morfologická analýza: solí  {(sůl, podstatné-jméno, pád-7, číslo- jednotné), (solit, sloveso, číslo-jednotné, čas-přítomný, osoba-3)} značkování (zjednoznačnění): …  (sůl, podstatné-jméno, …) –He always books the tickets early. morfologická analýza: books  {(book-1, podstatné-jméno, číslo- množné), (book-2, sloveso, číslo-jednotné, čas-přítomný)} značkování: …  (book-2, sloveso, číslo-jednotné, čas-přítomný) –[napodzim] [dozraje] [slatkí] [plot] m.a.: [plot]  {(plot, pád-1), (plod, pád-1), (plot, pád-4), …} značkování: …  (plod, pád-1)

22 http://ufal.mff.cuni.cz/course/popj122 Lemmatizace Opakování: lemma l  L je lexikální jednotka (slovníkové heslo). Bývá reprezentováno základním tvarem slova, ale zrovna tak by to mohl být číselný odkaz. Úplná morfologická analýza MA: A +  2 (L,K1,K2,…,Kn) Lemmatizace je částečná morfologická analýza –LA: A +  2 L (w  {l; (l,t 1,t 2,...,t n )  MA(w)}) –chceme však A +  L, takže opět musíme zjednoznačňovat (speciální případ rozlišování významu slov, WSD) –„klasické“ značkování se lemmatizací nezabývá (předpokládá, že se nějak provede později)


Stáhnout ppt "Slovníky a morfologická analýza Daniel Zeman Počítačové zpracování přirozeného jazyka."

Podobné prezentace


Reklamy Google