Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilVanessa Čechová
1
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005
2
2/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 PDT 2.0 – roviny anotace slovní rovina (W-rovina) –bez anotace morfologická rovina (tvarosloví; M-rovina) –morfologické lema a tag analytická rovina (A-rovina) –povrchová struktura věty, A-strom tektogramatická rovina (T-rovina) –hloubková struktura věty, T-strom; gramatémy
3
3/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen ) funktor – funkce slova v hloubkové struktuře věty + subfunktor tfa – zařazení uzlu do tematické / rematické části výpovědi sempos – sémantický slovní druh tektogramatického uzlu gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií Nejvážnějším problémem příjmů je nízký výnos daně z obratu. Atributy uzlu T- stromu
4
4/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Gramatémy a reprezentace významu věty T-stromem Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Nevážným problémem příjmů bude nižší výnos daně z obratu. ?... ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu.
5
5/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Gramatémy vs. morfologický tag +další informace (nemorfologické) gramatémy morfologický tag –16 gramatémů –přidělování hodnot z hlediska významu „významové“ číslo... –náleží pouze T-uzlům reprezentujícím autosémantická slova –pouze významově relevantní kategorie –15 pozic –přidělování hodnot podle formální realizace dané kategorie –náleží každému tokenu –všechny morfologické kategorie
6
6/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Přiřazování gramatémů T-uzlům Atributy nodetype a sempos T-uzly complexatomqcomplexlistcoapdphrfphrroot sémantická adjektiva sémantická adverbia sémantická slovesa sempos : zařazení komplexních T-uzlů do sémantických slovních druhů nodetype : 8 typů T-uzlů
7
7/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 substantivaadjektivazájmenačíslovkyadverbiaslovesapředl.spojkyčásticecitosl. sémantická substantivasémantická adjektivasémantická adverbiasémantická slovesa „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy
8
8/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 na tektogramatické rovině 16 gramatémů: Gramatémy gender person number degcmp tense aspect verbmod indeftype numertype negation iterativeness sentmod deontmod dispmod resultative politeness
9
9/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 hodnoty: sg, pl (+ nr) hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla asymetrie mezi povrchovou a hloubkovou hodnotou: –pluralia tantum: př. jedny dveře.sg, dvoje dveře. pl –zdvořilé užití zájmen 2. osoby: vy. sg jste přišel Gramatém čísla number
10
10/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 hodnoty: pos, comp, acomp, sup (+ nr) hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání) : př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší Gramatém stupně degcmp
11
11/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 hodnoty –u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… –u ostatních slovesných T-uzlů (u imperativu, infinitivu): nil (+ nr) hodnota gramatému „zkombinována“ z časových charakteristik všech částí slovesného tvaru Gramatém času tense (i)
12
12/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Gramatém času tense (ii) M-rovina: budeme sledovat:být, VB-P---1 F -AA--- sledovat_:T,Vf--------A---- S napětím budeme sledovat, jak tento boj dopadne… A-rovina: T-rovina:
13
13/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Vyhledávání v PDT 2.0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. by měli mít: být,Vc------------- mít,VpMP---XR-AA--- mít,Vf--------A---- ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM
14
14/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Na závěr význam gramatémů pro strojový překlad – př.: –adekvátní strojový překlad pomnožných substantiv ( otevřel dveře he opened the door ; nikoli the doors ) –zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému –hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru ( měly by mít they should have)... další práce –rozpracování systému gramatémů především u sloves –revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit...
15
15/15razimova@ufal.mff.cuni.czCollegium Informaticum, 25.11.2005 Reference http://ufal.mff.cuni.cz/pdt2.0/ Hajič, J. et al., Prague Dependency Treebank 1.0 (Final Production Label), CDROM CAT: LDC2001T10, ISBN 1-58563-212-0, 2001. Panevová, J., Formy a funkce ve stavbě české věty, Praha, Academia, 1980. Sgall, P., Generativní popis jazyka a česká deklinace, Praha, Academia, 1967. Sgall, P., E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, 1986. Razímová, M., Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2.0, in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer-Verlag, pp. 148-155, 2005. Razímová, M., Meanings of Morphological Categories on the Tectogrammatical Level, in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences (ed. J. Šafránková), Prague, Matfyzpress, pp. 72-77, 2005.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.