Slovníky a morfologická analýza

Slides:



Advertisements
Podobné prezentace
VZTAŽNÁ A UKAZOVACÍ ZÁJMENA
Advertisements

SKLOŇOVÁNÍ PODSTATNÝCH JMEN
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
SKLOŇOVÁNÍ PŘÍDAVNÝCH JMEN 3 - BEZ ČLENU
Úvod do studia jazyka – 4. Gramatika Morfologie.
DIGITÁLNÍ UČEBNÍ MATERIÁL
SKLOŇOVÁNÍ PŘÍDAVNÝCH JMEN 2 - SE ČLENEM NEURČITÝM
SKLOŇOVÁNÍ PŘÍDAVNÝCH JMEN 1 - SE ČLENEM URČITÝM
Trpný rod Matěj Suchánek.
PRESENT PERFECT SIMPLE
Škola: Chomutovské soukromé gymnázium Číslo projektu: CZ.1.07/1.5.00/
Jazyk a jazyková komunikace Cizí jazyk Komunikace Wh question words ve větách VY_22_INOVACE_13 Sada 2 Základní škola T. G. Masaryka, Český Krumlov, T.
Slovesa (verba).
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Jméno autora:Mgr. Jitka Charvátová Třída/ročník:
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Katka Nosková. Materiál zpracován v rámci projektu Implementace ICT techniky do výuky dle.
Věta.
Střední odborné učiliště Liběchov Boží Voda Liběchov Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona: I/2 Inovace a zkvalitnění výuky.
PŘÍVLASTEK Mgr. Michal Oblouk.
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona:III/2č. materiálu:VY_32_INOVACE_56.
Jazyk a jazyková komunikace Cizí jazyk Slovní zásoba Wh question words VY_22_INOVACE_13 Sada 3 Základní škola T. G. Masaryka, Český Krumlov, T. G. Masaryka.
Present simple Questions. Form of the question How do we form the present simple question? How do we form the present simple question in case of the 3rd.
Autorem materiálu a všech jeho částí, není- li uvedeno jinak, je Mgr. Smékalová Jitka ANOTACE Žáci si s pomocí učitele zopakují podle učebnice, zápisů.
Základní škola a Mateřská škola Slapy, okres Praha-západ
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Za předpokladu použití psacích potřeb
69.1 Stavba věty jednoduché, základní skladební dvojice
Co nejrychleji a nejpřesněji odpovídej na dané otázky.
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
ČESKÝ JAZYK.
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
Zjednoznačnění analýzy Daniel Zeman Počítačové zpracování češtiny.
MorČe morfologické značkování češtiny
PRESENT SIMPLE QUESTION_13 Mgr. Filip Soviš ANJ_Tenses
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
PRESENT CONTINUOUS NEGATIVE_10 Mgr. Filip Soviš ANJ_Tenses
Základní gramatika latiny
CJL mluvnice Tvarosloví Mgr. Zina Omelková
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Elektronické učební materiály - I. stupeň Český jazyk 4 Autor: Mgr. Helena Záděrová 1. Křížovka 1. Název pro tura, vepře, tele …… 2. Kostka - geometricky.
Elektronické učební materiály – I. stupeň Český jazyk Autor: Mgr. Martina Durinová SLOVNÍ DRUHY.
NÁZEV ŠKOLY: SOŠ Net Office Orlová, spol. s r. o. AUTOR: Mgr. Naděžda Tománková NÁZEV PROJEKTU: Podpora výuky v technických oborech NÁZEV ŠABLONY: III/2.
Slovníky a morfologická analýza
Základní škola Unhošť Jazyk a jazyková komunikace Projekt MŠMT ČR
VY_32_Inovace_6.3.7 AZ kvíz tvarosloví Český jazyk 7. ročník
Mgr. Marie Havránková TVAROSLOVÍ 7 - slovesa Mluvnice pro 2. ročník
3.Prezentace 9.tř..
JAZYKOVĚDNÁ TERMINOLOGIE
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Jakub Hlávko Název materiálu:
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Autor: Mgr. Vladimíra Dvořáková
Automatická indexace Základní metody a postupy
5 Název školy: Základní škola Pardubice - Spořilov Autor: Mgr. Nataša Bartoníčková Název: VY_12_INOVACE_ČESKÝ JAZYK A LITERATURA_2_15.TVAROSLOVÍ Téma:
Daniel Zeman ÚFAL MFF, Univerzita Karlova, Praha
Digitální učební materiál
NÁZEV ŠKOLY: Základní škola Hnátnice, okres Ústí nad Orlicí
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_38_ČJ4
Mgr. Marie Havránková TVAROSLOVÍ 12 – slovesa – slovesný rod
PRESENT PERFECT NEGATIVE_11
Základní škola Bedřicha Hrozného, Lysá nad Labem, okres Nymburk
Slovníky a morfologická analýza
WH-QUESTIONS.
VY_32_INOVACE_42_Slovni_druhy_jinak
Transkript prezentace:

Slovníky a morfologická analýza Počítačové zpracování přirozeného jazyka Slovníky a morfologická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Slovník Zásobárna informací o slovech Morfologie Syntaxe Sémantika vzory ohýbání, pravidelné odvozování (zdrobněliny, přídavná jména slovesná…) Syntaxe slovní druh vztah k ostatním slovům: subkategorizace (neboli „povrchové valenční rámce“) Sémantika významové rysy valenční rámce se sémantickými rolemi … a cokoli dalšího, například překlad 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy (parts of speech) Čeština N podstatná jména A přídavná jména P zájmena C číslovky V slovesa D příslovce R předložky J spojky T částice I citoslovce Jiné Z zvláštní (např. interpunkce) X neznámé slovo Člen (např. angličtina) Wh-slovo (tázací / vztažné zájmeno či příslovce – např. angličtina: who, what, which, how, … Počítací slovo (čínština) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy Seznam slovních druhů (anglicky part of speech) je ve většině jazyků celkem podobný. Jde o sémanticko-syntaktickou, ne morfologickou kategorii, ale určuje, které morf. kat. jsou relevantní. Syntakticky vymezené druhy (podle vztahů ve větě) Slovesa, podstatná jména, přídavná jména, příslovce, předložky, spojky, členy, wh-slova. Případně i citoslovce. Druhy vymezené jinak Zájmena (syntakticky N, A, někdy se zvláštní funkcí – Wh) Číslovky (syntakticky A, N, Adv) Částice (to, co se nevešlo jinam) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovní druhy Otevřené kategorie (přijímají nová slova) slovesa, podstatná jména, přídavná jména, příslovce, (citoslovce) odvozování slov napříč kategoriemi Uzavřené kategorie (slova lze vyjmenovat) zájmena, (předložky), spojky, částice, číslovky (matematicky neomezené, ale lingvisticky ano) nejsou podkladem pro odvozování slov 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sady značek Obecná definice: Angličtina značka … (k1,k2,…,kn) na sadu značek se často pohlíží jako na prostý seznam T = {ti}i=1..n přičemž se předpokládá vzájemně jednoznačné zobrazení T « (K1,K2,…,Kn) Angličtina Penn TreeBank (45) (VBZ: Verb,Pres,3,sg, JJR: Adj. Comp.) Brown Corpus (87), Claws c5 (62), London-Lund (197) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sady značek Rozdíly v různých korpusech a jazycích: Čeština velikost (10 až 10000) pokryté kategorie (slovní druh, číslo, negace, …) míra podrobnosti rozpracování podoba (krátké identifikátory × dlouhé „poziční značky“) Čeština poziční značky PDT kompaktní (starší) značky PDT MULTEXT-EAST (Orwell 1984, paralelní korpus) Majka (FI MU Brno) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Co všechno by měla kódovat morfologická značka pro češtinu? Informace z morfologické značky by měla umožňovat vytvořit z lemmatu příslušný tvar slova. Pokud je to nutné, může kromě morfologických informací obsahovat i lexikální, sémantické (slovní druh?) Extrém 1: každý slovní tvar je „lemma“. Morfologie je nulová, lemma je samo svojí značkou. Extrém 2: značka obsahuje detailní sémantické zařazení slova, takže lemma už není potřeba. 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Poziční značky PDT (Pražského závislostního korpusu) G F S 3 - 1 slovní druh poddruh rod číslo pád vnitřní rod vnitřní číslo osoba čas stupeň zápor slovesný rod odstín 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Rod M mužský životný Y M nebo I I mužský neživotný T I nebo F F ženský W I nebo N N střední H, Q F nebo N X neznámý Z M, I nebo N 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Číslo S jednotné (singulár) D dvojné (duál) P množné (plurál) X neznámé 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Pád 1 nominativ 2 genitiv 3 dativ 4 akuzativ 5 vokativ 6 lokál 7 instrumentál X neznámý 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Stupeň, zápor, osoba Stupeň přídavných jmen a příslovcí: 1, 2 (komparativ), 3 (superlativ) Zápor (u V, A, D a taky N): A (afirmativ), N (negativ) Osoba sloves a zájmen: 1, 2, 3 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Slovesný čas, rod a způsob Mění relevanci ostatních kategorií (jako je osoba a číslo)  zacházet s nimi jako se slovním (pod-) druhem. Čas: přítomný (P), minulý (M), budoucí (F) Rod: činný (aktivum A), trpný (pasivum P) Způsob: oznamovací (N), rozkazovací (R), podmiňovací (C – např. bych) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Stylová či jiná odchylka 1 jiná varianta, méně častá 2 jiná varianta, velmi řídká, zastaralá nebo knižní 3 velmi zastaralá, popř. hovorová varianta 5 hovorová, tolerovaná v mluv. i psaném projevu 6 hovorová, nevhodná v psaném projevu 7 hovorová jako 6, ale méně preferovaná mluvčími 9 zvláštní použití (např. po jistých předložkách) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sada značek Penn TreeBanku 1. CC coord. conj. 2. CD cardinal number 3. DT determiner 4. EX existential there 5. FW foreign word 6. IN preposition or subord. conjunction 7. JJ adjective 8. JJR adj, comparative 9. JJS adj, superlative 10. LS list item marker 11. MD modal 12. NN noun, singular/mass 13. NNS noun, plural 14. NNP proper noun, sing. 15. NNPS proper noun, pl. 16. PDT predeterminer 17. POS possessive ending 18. PRP personal pronoun 19. PRP$ poss. pronoun 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Sada značek Penn TreeBanku 20. RB adverb 21. RBR adv, comparative 22. RBS adv, superlative 23. RP particle 24. SYM symbol 25. TO to 26. UH interjection 27. VB verb, base (do) 28. VBD verb, past (did) 29. VBG verb, gerund or pres. participle (doing) 30. VBN verb, past participle (done) 31. VBP verb, non-3rd pers. sing. present (do) 32. VBZ verb, 3rd pers. sing. present (does) 33. WDT wh-det. (which?) 34. WP wh-pronoun (who) 35. WP$ possessive wh-pronoun (whose) 36. WRB wh-adv. (where) 37. . period… 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfologická analýza a syntéza Formálně: Zobrazení, které každému slovu (slovnímu tvaru) přiřadí dvojici lemma – značka, nebo množinu takových dvojic. Veškerá informace o slovním tvaru je ve značce. Z dvojice lemma – značka lze jednoznačně dostat slovní tvar (= morfologická syntéza). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfologie A … abeceda grafémů, A+ je např. slovo L  2A+ … slovník lemmat (lemma = základní, heslový tvar) lemma l  L Ki … i-tá morfologická kategorie kategorie je množina hodnot. např. Krod = {M, I, F, N} T  K1×…×Kn = sada morfologických značek v angličtině part-of-speech tag set, obvykle n=1; u nás např. n=15 značka t = (k1, …, kn)  T, ki je hodnota i-té kategorie 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Morfologická analýza a značkování Analýza: A+  2(L, T) Syntéza: (L, T)  A+ Značkování: A+  (L, T) resp. 2(L, T), Kontexty  (L, T) Značkování (tagging) je zjednoznačnění morfologické analýzy. Může být ruční nebo automatické ((pos)taggerem). 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Příklady značkování Slovní tvar A+ ® 2(L,K1,…,Kn) ® T Vysušený kámen se pokryl bílou solí. morfologická analýza: solí ® {(sůl, podstatné-jméno, pád-7, číslo-jednotné), (solit, sloveso, číslo-jednotné, čas-přítomný, osoba-3)} značkování (zjednoznačnění): … ® (sůl, podstatné-jméno, …) He always books the tickets early. morfologická analýza: books ® {(book-1, podstatné-jméno, číslo-množné), (book-2, sloveso, číslo-jednotné, čas-přítomný)} značkování: … ® (book-2, sloveso, číslo-jednotné, čas-přítomný) [napodzim] [dozraje] [slatkí] [plot] m.a.: [plot] ® {(plot, pád-1), (plod, pád-1), (plot, pád-4), …} značkování: … ® (plod, pád-1) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1

Lemmatizace Opakování: lemma lÎL je lexikální jednotka (slovníkové heslo). Bývá reprezentováno základním tvarem slova, ale zrovna tak by to mohl být číselný odkaz. Úplná morfologická analýza MA: A+ ® 2(L,K1,K2,…,Kn) Lemmatizace je částečná morfologická analýza LA: A+ ® 2L (w ® {l; (l,t1,t2,...,tn)ÎMA(w)}) chceme však A+ ® L, takže opět musíme zjednoznačňovat (speciální případ rozlišování významu slov, WSD) „klasické“ značkování se lemmatizací nezabývá (předpokládá, že se nějak provede později) 18.11.1999 http://ufal.mff.cuni.cz/course/popj1