Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková

Slides:



Advertisements
Podobné prezentace
Výukový materiál zpracovaný v rámci projektu „EU peníze školám“
Advertisements

ON-LINE TESTY PRO DOKTORANDY NA UK FF PRAHA
Úvod do studia jazyka – 4. Gramatika Morfologie.
Digitální učební materiál
Gramatémy ve FGP a v PDT II Část 2
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
NÁZEV ŠKOLY: SPECIÁLNÍ ZÁKLADNÍ ŠKOLA A MATEŘSKÁ ŠKOLA VARNSDORF AUTOR: MGR. JINDRA BENEŠOVÁ, 2011 – 10 – 31 NÁZEV: VY_12_INOVACE_27_ LIDSKÉ TĚLO TÉMA:
DRUHY VĚT PODLE POSTOJE MLUVČÍHO, VĚTA JEDNOČLENNÁ, DVOJČLENNÁ, VĚTNÉ EKVIVALENTY Mgr. Michal Oblouk.
Zájmena uvozující obsahové věty
Větná polarita v češtině Kateřina Veselovská Žďárek – Hořovice,
Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace.
Druhy vět Věty podle funkce
DRUHY VĚT PODLE POSTOJE MLUVČÍHO
Korpusová lingvistika (2)
VY_32_INOVACE_Čj-Ml 6.,7.12 Anotace: Prezentace je zaměřena na obohacování slovní zásoby slovy jednoznačnými, mnohoznačnými a citově zabarvenými. V závěru.
Název materiálu:VY_32_INOVACE_CJ2r0103 Název sady:Morfologie pro 2. ročník Vzdělávací oblast:Jazyk a jazyková komunikace Vzdělávací obor:Český jazyk a.
Digitální publikace a e-knihy v Ústavu pro českou literaturu AV ČR Pavel Janáček, Michal Kosák, Praha,
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
Realizace rozvojových aktivit v obcích regionu České Švýcarsko 1. schůzka PS
SLOVESA Slovesný způsob a čas 6. ročník.
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Jméno autora:Mgr. Jitka Charvátová Třída/ročník:
Jazyk a jazyková komunikace Český jazyk a literatura Mluvnice jazyka českého na 1. stupni ZŠ Druhy vět VY_32_INOVACE_06 Sada 1 Základní škola T. G. Masaryka,
Věta.
Úvod do korpusové lingvistiky 8
Škola:Chomutovské soukromé gymnázium Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Moderní škola Název materiálu:VY_32_INOVACE_CESKYJA ZYK1_05 Tematická.
ČLOVĚK STAVBA TĚLA.
Sémantická analýza Jakub Yaghob
ČÍSLOVKY.
Jméno autora: Mgr. Hana Boháčová Datum vytvoření: Číslo DUMu: VY_12_INOVACE_30_CJL_M Ročník: III. Český jazyk a literatura Vzdělávací oblast:
Části lidského těla Vypracovala: Mgr. Miloslava Tremlová.
ROZDĚLOVACÍ ZNAMÉNKA Mgr. Michal oblouk.
Nové modulové výukové a inovativní programy - zvýšení kvality ve vzdělávání Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem.
Souběžný návrh hardware a software (Language for Instruction Set Simulator-Oriented Model) MPO ČR, FT-TA3/128, Jazyk a vývojové prostředí pro.
ČÁSTICE Mgr. Michal Oblouk.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Počítání, vývoj matematiky,... Asi milion let uplynulo od doby, kdy se na naší planetě objevil člověk. Během této doby se naučil poznávat tvary a směry,
ČÁSTICE Název a adresa školy
69.1 Stavba věty jednoduché, základní skladební dvojice
Singular to Plural Rewrite the following sentences and change all nouns, adjectives, and verbs from singular to plural. Vzor: Studentka opakovala novou.
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
PRESENT SIMPLE AFFIRMATIVE_05 Mgr. Filip Soviš ANJ_Tenses
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
Explicitní popis jazyka a anotovaná data se zřetelem na češtinu GA ČR P406/10/0875 Explicitní popis jazyka a anotovaná data se zřetelem na češtinu Workshop.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
ZÁKLADNÍ ŠKOLA SLOVAN, KROMĚŘÍŽ, PŘÍSPĚVKOVÁ ORGANIZACE ZEYEROVA 3354, KROMĚŘÍŽ projekt v rámci vzdělávacího programu VZDĚLÁNÍ PRO KONKURENCESCHOPNOST.
Název školy: Základní škola Okříšky Autor:Mgr. Jana Němcová Název:VY_32_INOVACE_08 Téma:Neohebné slovní druhy Číslo projektu: CZ 1.07/1.4.00/
NÁZEV ŠKOLY: Základní škola a mateřská škola Bohdalov ČÍSLO PROJEKTU: CZ.1.07/1.4.00/ ŠABLONA: III/2 VZDĚLÁVACÍ OBLAST: Jazyk a jazyková komunikace.Český.
EU peníze středním školám Název vzdělávacího materiálu: Countable and uncountable nouns Číslo vzdělávacího materiálu: AJ1 – 29 Šablona: II/2 Inovace a.
Klára Osolsobě, Hana Žižková
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
STAVBA TĚLA VY_32_Inovace_09OT- 3 autor: Mgr. Tereza Olejníková
Lidské tělo.
Druhy vět Věty podle funkce
Digitální učební materiál
VY_32_INOVACE_06_Český jazyk pro 8. ročník_Číslovky
SLOVESNÝ ZPŮSOB PODMIŇOVACÍ
Č. DUMu: VY_32_INOVACE_18_lidské tělo
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_276_ČJ8
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_38_ČJ4
Základní škola Bedřicha Hrozného, Lysá nad Labem, okres Nymburk
Singular to Plural Rewrite the following sentences and change all nouns, adjectives, and verbs from singular to plural. Vzor: Studentka opakovala novou.
AUTOR: Mgr. Jaromíra Stropková NÁZEV: VY_32_INOVACE_06_NAŠE TĚLO
LIDSKÉ TĚLO ANOTACE DATUM AUTOR JAZYK OČEKÁVANÝ VÝSTUP
LIDSKÉ TĚLO Prvouka, 1.třída.
NEPRAVIDELNOSTI VĚTNÉ STAVBY
NEPRAVIDELNOSTI VĚTNÉ STAVBY
Transkript prezentace:

Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková Workshop řešitelského týmu grantu GA ČR P406/10/0875

Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost v datech PDT a PDTSC Revize vybraných modálních významů v PDT  Slovesný způsob  Větná modalita

Workshop GA ČR P406/10/0875, 12. dubna 2012 Singulár a plurál v češtině: forma vs. funkce morfologická kategorie čísla v češtině  singulárové vs. plurálové formy  význam singularity (jedna entita) vs. plurality (více než jedna entita, větší množství entit): jedna hruška, dvě hrušky,..., pět hrušek jedny nůžky, dvoje nůžky,..., patery nůžky plurálová forma někdy neodkazuje k pouhému většímu množství entit, ale k jejich typickému souboru / souborům (souborový význam)  př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty  pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich plurálová forma prototypicky označuje právě soubor / soubory  jiná substantiva se pro vyjádření souborového významu spojují se souborovou číslovkou Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na výletě“. (SYN2005)

Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost jako význam substantiv souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný význam  pluralia tantum – asymetrie formy a funkce v singuláru  souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou číslovky  -> zachycovat na tektogramatické rovině (ve FGP, PDT) souborovost úzce spojena s kategorií čísla  opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam plurálu jednotlivin (single)  čtyři významy sg.single … singulárové formy sg.group, pl.single, pl.group … plurálové formy  na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group  homonymie plurálu – zjednoznačnění souborovou číslovkou – v PDT velmi řídké kontextem, znalostí světa -> ruční anotace

Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 cíl  ověřit, zda je souborový význam identifikovatelný  zjistit četnost souborového významu v autentických textech souborový význam potenciálně u všech plurálových forem všech substantiv ( z tokenů anotovaných na tektogramatické rovině)  vzhledem k předpokládané nízké četnosti souborového významu takový postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů) pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický

Workshop GA ČR P406/10/0875, 12. dubna 2012 Pracovní seznam substantiv k anotaci zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce celkem 141 substantiv: adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks,, kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub

Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 říjen 2010 až leden 2011 paralelní anotace, dvě anotátorky  krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí příprava a vyhodnocení anotace: Lenka Smejkalová 31 souborů  v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext mezianotátorská shoda:

Workshop GA ČR P406/10/0875, 12. dubna 2012 Zachycení souborovosti gramatémem typgroup význam souborovosti úzce souvisí s kategorií čísla  ? včlenění souborovosti do stávajícího gramatému number změna hodnot gramatému čísla  souborovost jako zvláštní gramatém typgroup provázaný s gramatémem number hodnoty gramatému typgroup  single, group, nr hodnoty gramatémů typgroup a number a anotační možnosti  prostý plurál → typgroup=single, number=pl  jeden soubor → typgroup=group, number=sg  více souborů → typgroup=group, number=pl  jeden nebo víc souborů → typgroup=group, number=nr  nerozhodnutelné → typgroup=nr, number=nr

Workshop GA ČR P406/10/0875, 12. dubna 2012 Včlenění ruční anotace, automatická anotace uzly se sempos=n.denot|n.denot.neg  u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému typgroup vyplněny na základě anotace změny v hodnotě gramatému number  uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky jedny → typgroup=group, number=sg s vyšší hodnotou → typgroup=group, number=pl  u ostatních uzlů vyplnit typgroup=single number beze změny --> PDT 2.5

Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 1. části dat PDTSC jaro 2011, paralelní anotace (tytéž anotátorky) 585 výskytů  Malach: 359  Companions: 226

Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 2. části dat PDTSC jaro 2012, paralelní anotace (výměna jedné anotátorky) 1957 výskytů (Malach, Companions)

Workshop GA ČR P406/10/0875, 12. dubna 2012 Publikace Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011 Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176. Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47. Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182. Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.

Workshop GA ČR P406/10/0875, 12. dubna 2012 Slovesný způsob v PDT 2.0 slovesný způsob v PDT 2.0 zachycen gramatémem verbmod  hodnoty ind, imp, cdn rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense (cdn+sim, cdn+ant) kondicionál po aby a kdyby anotován jako indikativ – víc než 1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant)  poloautomatická anotace (ZŽ, MŠ, 2005/6)

Workshop GA ČR P406/10/0875, 12. dubna 2012 Nový gramatém slovesného způsobu gramatém verbmod nahrazen gramatémem factmod  „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl neimperativní formy vs. imperativ použitím neimperativní formy prezentuje mluvčí daný děj jako reálný (indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.) imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi  pro factmod definovány 3 hodnoty asserted (indikativ), potential (kond. přít.), irreal (kond. min.) imperativ vyřazen  implementace: 4 hodnoty asserted, potential, irreal, appeal (imperativ) --> PDT 3.0

Workshop GA ČR P406/10/0875, 12. dubna 2012 Vyplňování gramatému factmod poloautomatická procedura ( Jirka Mírovský, MŠ, 2011/12)  factmod náleží stejným uzlům jako verbmod  využívány informace z morfologické roviny, konfrontovány s hodnotami verbmod gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako imperativ) opraveny jednotlivé chyby v tektogramatické anotaci  manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)

Workshop GA ČR P406/10/0875, 12. dubna 2012 Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x verbmodPDT 2.0 trainfactmodPDT 2.x train ind60 118asserted cdn (+sim)2 835potential4 108 cdn (+ant)8irreal8 imp286appeal293 nil5 396nil5 401

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita jako význam věty modální význam „celé věty“ (česká i zahraniční literatura o modalitě)  oznámení vs. otázka vs. rozkaz, popř. další větná modalita ve FGP a PDT  oznámení, otázka, rozkaz, přání, zvolání  kombinace formálních prostředků (slovesný způsob, koncová interpunkce, částice)  koordinované klauze mohou mít různou modalitu př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo?  gramatém sentmod hodnoty enunc, inter, imper, desid, excl

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 poloautomatická procedura (ZŽ, MŠ, 2005/6) sentmod vyplněn  u přímého potomka technického kořene PRED DENOM nodetype=coap  u kořene vsuvky (PAR) př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc.  u kořene přímé řeči (is_dsp_root=1) př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání Martinezová. „algoritmus“  pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper  pokud mezi dětmi analytického protějšku otazník -> sentmod=inter  pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace (desid/excl/imper; 92 uzlů v trénovacích datech)  zbytek uzlů: sentmod=enunc

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita nově pro PDT 3.0 gramatém i sada hodnot stejné jako v PDT 2.0 poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) rozšíření množiny uzlů, u kterých vyplňován sentmod  ze sady kandidátských uzlů přímý potomek technického kořene kořen vsuvky (PAR) kořen přímé řeči (is_dsp_root=1) kořene názvu (ID)  test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou  př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy.  vyjmuty uzly s nodetype=coap, anotovány zvlášť u uzlů, které nebyly kořenem koordinace, aplikován algoritmus  ruční anotace u 82 uzlů (v trénovacích datech)

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v koordinacích v trénovacích datech PDT 2.x 7598 coap uzlů řídících kořenů koordinovaných klauzí (efektivní děti s is_member=1)  pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper  manuální anotace: kořeny klauzí koordinovaných s imperativními klauzemi kořeny koordinovaných klauzí, které byly součástí vět zakončených otazníkem  otazník se vztahuje jen k poslední klauzi kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89)  ostatní věty obsahující koordinované klauze končily tečkou (popř. bez interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou ve 100 náhodně vybraných větách jen klauze se sentmod=enunc automatické přiřazení hodnoty enunc

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x

Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x