Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.

Slides:



Advertisements
Podobné prezentace
Vymezení slovních druhů
Advertisements

Úvod do studia jazyka – 4. Gramatika Morfologie.
Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková
Co mají adjektiva společného s podstatnými jmény, co se slovesy?
CJBB75 1 ZPK CJBB CJBB75 2 Je to, co je skryto ve značce „stupeň“, jediné, co je možné se z korpusu dozvědět o stupňování v češtině ? Pozice.
Gramatémy ve FGP a v PDT II Část 2
Čeština jako nástroj komunikace zahraničních studentů Lékařské fakulty UP Magdalena Vintrová, Pavel Kurfürst Ústav cizích jazyků LF UP v Olomouci.
Redukce textů, obsahová analýza, anotace
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
ROZVÍJEJÍCÍ VĚTNÉ ČLENY
Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace.
Základní syntaktické pojmy
ROD JMENNÝ.
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
1 Ověřování lingvistické teorie nad počítačovým korpusem Eva Hajičová ÚFAL MFF UK v Praze
Vzorce se slovesy s obecným významem změny Jiří Řezáč VMS, 8. prosince 2009.
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
Valence a Pražský závislostní korpus (PDT)
Úvod do korpusové lingvistiky 8
Predikace a věta, sekundární predikace Přednáška PedF 4,
Věta, výpověď, promluva Název materiálu: VY_32_INOVACE_CJ3r0101
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
Slovníky a morfologická analýza
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
Valenční slovník českých sloves Zdeněk Žabokrtský ÚFAL,
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Markéta Lopatková Institute of Formal and Applied Linguistics, MFF UK PDT – Tectogrammatical Layer Grammatemes.
CJBB84 1 GAK – CJBB84 st
CJBB CJBB75.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Vyjádření možnosti/pravděpodobnosti pomocí may, might, could, will
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
Název školy Základní škola Domažlice, Komenského 17 Číslo projektu CZ.1.07/1.4.00/ Název projektu „EU Peníze školám ZŠ Domažlice“ Číslo a název.
Název školyIntegrovaná střední škola technická, Vysoké Mýto, Mládežnická 380 Číslo a název projektuCZ.1.07/1.5.00/ Inovace vzdělávacích metod EU.
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Vícerozměrný přístup pro indexování XML dat
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
Mohu říct na ZŠ, že „byl pronásledován“ je přísudek jmenný se sponou?
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona:III/2č. materiálu:VY_32_INOVACE_44.
MORFOLOGIE Božena Bednaříková
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Základní škola Jakuba Jana Ryby Rožmitál pod Třemšínem Efektivní výuka pro rozvoj potenciálu žáka projekt v rámci Operačního programu VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST.
Explicitní popis jazyka a anotovaná data se zřetelem na češtinu GA ČR P406/10/0875 Explicitní popis jazyka a anotovaná data se zřetelem na češtinu Workshop.
Základní gramatika latiny
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
CJBB105 Úvod do korpusové lingvistiky
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Jméno autora: Mgr. Veronika Macků Škola: ZŠ a MŠ Náklo Datum vytvoření (období): duben 2013 Ročník: 6.,7. Tematická oblast: Skladba a tvarosloví pro 2.
Dotkněte se inovací CZ.1.07/1.3.00/ Základní a rozvíjející větné členy Grafický rozbor věty jednoduché.
VY_32_INOVACE_Jir_ II_11 Věta a souvětí Název projektu: OP VK Registrační číslo: CZ.1.07/1.4.00/ OP Vzdělání pro konkurenceschopnost.
AUTOR: Mgr. Petr Punčochář
Klára Osolsobě, Hana Žižková
Slovníky a morfologická analýza
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_274_ČJ8
Mgr. Marie Havránková TVAROSLOVÍ 7 - slovesa Mluvnice pro 2. ročník
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Jakub Hlávko Název materiálu:
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Automatická indexace Základní metody a postupy
Digitální učební materiál
Základní škola a Mateřská škola Choustník, okres Tábor
Základní škola a Mateřská škola Choustník, okres Tábor
Srovnávací a historická gramatika, historicko-srovnávací metoda Franz Bopp, Jacob Grimm, Karl Brugmann.
Mgr. Lenka Vrzáňová Větná stavba října 2011
Základní větné členy – přísudek
Transkript prezentace:

Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005

Informaticum, PDT 2.0 – roviny anotace slovní rovina (W-rovina) –bez anotace morfologická rovina (tvarosloví; M-rovina) –morfologické lema a tag analytická rovina (A-rovina) –povrchová struktura věty, A-strom tektogramatická rovina (T-rovina) –hloubková struktura věty, T-strom; gramatémy

Informaticum, T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen ) funktor – funkce slova v hloubkové struktuře věty + subfunktor tfa – zařazení uzlu do tematické / rematické části výpovědi sempos – sémantický slovní druh tektogramatického uzlu gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií Nejvážnějším problémem příjmů je nízký výnos daně z obratu. Atributy uzlu T- stromu

Informaticum, Gramatémy a reprezentace významu věty T-stromem Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Nevážným problémem příjmů bude nižší výnos daně z obratu. ?... ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu.

Informaticum, Gramatémy vs. morfologický tag +další informace (nemorfologické) gramatémy morfologický tag –16 gramatémů –přidělování hodnot z hlediska významu „významové“ číslo... –náleží pouze T-uzlům reprezentujícím autosémantická slova –pouze významově relevantní kategorie –15 pozic –přidělování hodnot podle formální realizace dané kategorie –náleží každému tokenu –všechny morfologické kategorie

Informaticum, Přiřazování gramatémů T-uzlům Atributy nodetype a sempos T-uzly complexatomqcomplexlistcoapdphrfphrroot sémantická adjektiva sémantická adverbia sémantická slovesa sempos : zařazení komplexních T-uzlů do sémantických slovních druhů nodetype : 8 typů T-uzlů

Informaticum, substantivaadjektivazájmenačíslovkyadverbiaslovesapředl.spojkyčásticecitosl. sémantická substantivasémantická adjektivasémantická adverbiasémantická slovesa „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy

Informaticum, na tektogramatické rovině 16 gramatémů: Gramatémy gender person number degcmp tense aspect verbmod indeftype numertype negation iterativeness sentmod deontmod dispmod resultative politeness

Informaticum, hodnoty: sg, pl (+ nr) hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla asymetrie mezi povrchovou a hloubkovou hodnotou: –pluralia tantum: př. jedny dveře.sg, dvoje dveře. pl –zdvořilé užití zájmen 2. osoby: vy. sg jste přišel Gramatém čísla number

Informaticum, hodnoty: pos, comp, acomp, sup (+ nr) hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání) : př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší Gramatém stupně degcmp

Informaticum, hodnoty –u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… –u ostatních slovesných T-uzlů (u imperativu, infinitivu): nil (+ nr) hodnota gramatému „zkombinována“ z časových charakteristik všech částí slovesného tvaru Gramatém času tense (i)

Informaticum, Gramatém času tense (ii) M-rovina: budeme sledovat:být, VB-P---1 F -AA--- sledovat_:T,Vf A---- S napětím budeme sledovat, jak tento boj dopadne… A-rovina: T-rovina:

Informaticum, Vyhledávání v PDT 2.0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. by měli mít: být,Vc mít,VpMP---XR-AA--- mít,Vf A---- ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM

Informaticum, Na závěr význam gramatémů pro strojový překlad – př.: –adekvátní strojový překlad pomnožných substantiv ( otevřel dveře  he opened the door ; nikoli the doors ) –zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému –hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru ( měly by mít  they should have)... další práce –rozpracování systému gramatémů především u sloves –revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit...

Informaticum, Reference Hajič, J. et al., Prague Dependency Treebank 1.0 (Final Production Label), CDROM CAT: LDC2001T10, ISBN , Panevová, J., Formy a funkce ve stavbě české věty, Praha, Academia, Sgall, P., Generativní popis jazyka a česká deklinace, Praha, Academia, Sgall, P., E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, Razímová, M., Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2.0, in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer-Verlag, pp , Razímová, M., Meanings of Morphological Categories on the Tectogrammatical Level, in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences (ed. J. Šafránková), Prague, Matfyzpress, pp , 2005.