Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005
Informaticum, PDT 2.0 – roviny anotace slovní rovina (W-rovina) –bez anotace morfologická rovina (tvarosloví; M-rovina) –morfologické lema a tag analytická rovina (A-rovina) –povrchová struktura věty, A-strom tektogramatická rovina (T-rovina) –hloubková struktura věty, T-strom; gramatémy
Informaticum, T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen ) funktor – funkce slova v hloubkové struktuře věty + subfunktor tfa – zařazení uzlu do tematické / rematické části výpovědi sempos – sémantický slovní druh tektogramatického uzlu gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií Nejvážnějším problémem příjmů je nízký výnos daně z obratu. Atributy uzlu T- stromu
Informaticum, Gramatémy a reprezentace významu věty T-stromem Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Nevážným problémem příjmů bude nižší výnos daně z obratu. ?... ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu.
Informaticum, Gramatémy vs. morfologický tag +další informace (nemorfologické) gramatémy morfologický tag –16 gramatémů –přidělování hodnot z hlediska významu „významové“ číslo... –náleží pouze T-uzlům reprezentujícím autosémantická slova –pouze významově relevantní kategorie –15 pozic –přidělování hodnot podle formální realizace dané kategorie –náleží každému tokenu –všechny morfologické kategorie
Informaticum, Přiřazování gramatémů T-uzlům Atributy nodetype a sempos T-uzly complexatomqcomplexlistcoapdphrfphrroot sémantická adjektiva sémantická adverbia sémantická slovesa sempos : zařazení komplexních T-uzlů do sémantických slovních druhů nodetype : 8 typů T-uzlů
Informaticum, substantivaadjektivazájmenačíslovkyadverbiaslovesapředl.spojkyčásticecitosl. sémantická substantivasémantická adjektivasémantická adverbiasémantická slovesa „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy
Informaticum, na tektogramatické rovině 16 gramatémů: Gramatémy gender person number degcmp tense aspect verbmod indeftype numertype negation iterativeness sentmod deontmod dispmod resultative politeness
Informaticum, hodnoty: sg, pl (+ nr) hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla asymetrie mezi povrchovou a hloubkovou hodnotou: –pluralia tantum: př. jedny dveře.sg, dvoje dveře. pl –zdvořilé užití zájmen 2. osoby: vy. sg jste přišel Gramatém čísla number
Informaticum, hodnoty: pos, comp, acomp, sup (+ nr) hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání) : př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší Gramatém stupně degcmp
Informaticum, hodnoty –u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… –u ostatních slovesných T-uzlů (u imperativu, infinitivu): nil (+ nr) hodnota gramatému „zkombinována“ z časových charakteristik všech částí slovesného tvaru Gramatém času tense (i)
Informaticum, Gramatém času tense (ii) M-rovina: budeme sledovat:být, VB-P---1 F -AA--- sledovat_:T,Vf A---- S napětím budeme sledovat, jak tento boj dopadne… A-rovina: T-rovina:
Informaticum, Vyhledávání v PDT 2.0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. by měli mít: být,Vc mít,VpMP---XR-AA--- mít,Vf A---- ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM
Informaticum, Na závěr význam gramatémů pro strojový překlad – př.: –adekvátní strojový překlad pomnožných substantiv ( otevřel dveře he opened the door ; nikoli the doors ) –zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému –hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru ( měly by mít they should have)... další práce –rozpracování systému gramatémů především u sloves –revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit...
Informaticum, Reference Hajič, J. et al., Prague Dependency Treebank 1.0 (Final Production Label), CDROM CAT: LDC2001T10, ISBN , Panevová, J., Formy a funkce ve stavbě české věty, Praha, Academia, Sgall, P., Generativní popis jazyka a česká deklinace, Praha, Academia, Sgall, P., E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, Razímová, M., Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2.0, in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer-Verlag, pp , Razímová, M., Meanings of Morphological Categories on the Tectogrammatical Level, in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences (ed. J. Šafránková), Prague, Matfyzpress, pp , 2005.