Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková

Podobné prezentace


Prezentace na téma: "Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková"— Transkript prezentace:

1 Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková sevcikova@ufal.mff.cuni.cz Workshop řešitelského týmu grantu GA ČR P406/10/0875

2 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost v datech PDT a PDTSC Revize vybraných modálních významů v PDT  Slovesný způsob  Větná modalita

3 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Singulár a plurál v češtině: forma vs. funkce morfologická kategorie čísla v češtině  singulárové vs. plurálové formy  význam singularity (jedna entita) vs. plurality (více než jedna entita, větší množství entit): jedna hruška, dvě hrušky,..., pět hrušek jedny nůžky, dvoje nůžky,..., patery nůžky plurálová forma někdy neodkazuje k pouhému většímu množství entit, ale k jejich typickému souboru / souborům (souborový význam)  př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty  pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich plurálová forma prototypicky označuje právě soubor / soubory  jiná substantiva se pro vyjádření souborového významu spojují se souborovou číslovkou Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na výletě“. (SYN2005)

4 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost jako význam substantiv souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný význam  pluralia tantum – asymetrie formy a funkce v singuláru  souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou číslovky  -> zachycovat na tektogramatické rovině (ve FGP, PDT) souborovost úzce spojena s kategorií čísla  opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam plurálu jednotlivin (single)  čtyři významy sg.single … singulárové formy sg.group, pl.single, pl.group … plurálové formy  na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group  homonymie plurálu – zjednoznačnění souborovou číslovkou – v PDT velmi řídké kontextem, znalostí světa -> ruční anotace

5 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 cíl  ověřit, zda je souborový význam identifikovatelný  zjistit četnost souborového významu v autentických textech souborový význam potenciálně u všech plurálových forem všech substantiv (60 017 z 833195 tokenů anotovaných na tektogramatické rovině)  vzhledem k předpokládané nízké četnosti souborového významu takový postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů) pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický

6 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Pracovní seznam substantiv k anotaci zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce celkem 141 substantiv: adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks,, kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub

7 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 říjen 2010 až leden 2011 paralelní anotace, dvě anotátorky  krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí příprava a vyhodnocení anotace: Lenka Smejkalová 31 souborů  v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext mezianotátorská shoda:

8 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Zachycení souborovosti gramatémem typgroup význam souborovosti úzce souvisí s kategorií čísla  ? včlenění souborovosti do stávajícího gramatému number změna hodnot gramatému čísla  souborovost jako zvláštní gramatém typgroup provázaný s gramatémem number hodnoty gramatému typgroup  single, group, nr hodnoty gramatémů typgroup a number a anotační možnosti  prostý plurál → typgroup=single, number=pl  jeden soubor → typgroup=group, number=sg  více souborů → typgroup=group, number=pl  jeden nebo víc souborů → typgroup=group, number=nr  nerozhodnutelné → typgroup=nr, number=nr

9 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Včlenění ruční anotace, automatická anotace uzly se sempos=n.denot|n.denot.neg  u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému typgroup vyplněny na základě anotace změny v hodnotě gramatému number  uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky jedny → typgroup=group, number=sg s vyšší hodnotou → typgroup=group, number=pl  u ostatních uzlů vyplnit typgroup=single number beze změny --> PDT 2.5

10 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 1. části dat PDTSC jaro 2011, paralelní anotace (tytéž anotátorky) 585 výskytů  Malach: 359  Companions: 226

11 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 2. části dat PDTSC jaro 2012, paralelní anotace (výměna jedné anotátorky) 1957 výskytů (Malach, Companions)

12 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Publikace Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011 Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176. Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47. Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182. Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.

13 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Slovesný způsob v PDT 2.0 slovesný způsob v PDT 2.0 zachycen gramatémem verbmod  hodnoty ind, imp, cdn rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense (cdn+sim, cdn+ant) kondicionál po aby a kdyby anotován jako indikativ – víc než 1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant)  poloautomatická anotace (ZŽ, MŠ, 2005/6)

14 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Nový gramatém slovesného způsobu gramatém verbmod nahrazen gramatémem factmod  „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl neimperativní formy vs. imperativ použitím neimperativní formy prezentuje mluvčí daný děj jako reálný (indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.) imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi  pro factmod definovány 3 hodnoty asserted (indikativ), potential (kond. přít.), irreal (kond. min.) imperativ vyřazen  implementace: 4 hodnoty asserted, potential, irreal, appeal (imperativ) --> PDT 3.0

15 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Vyplňování gramatému factmod poloautomatická procedura ( Jirka Mírovský, MŠ, 2011/12)  factmod náleží stejným uzlům jako verbmod  využívány informace z morfologické roviny, konfrontovány s hodnotami verbmod gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako imperativ) opraveny jednotlivé chyby v tektogramatické anotaci  manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)

16 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x verbmodPDT 2.0 trainfactmodPDT 2.x train ind60 118asserted58 834 cdn (+sim)2 835potential4 108 cdn (+ant)8irreal8 imp286appeal293 nil5 396nil5 401

17 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita jako význam věty modální význam „celé věty“ (česká i zahraniční literatura o modalitě)  oznámení vs. otázka vs. rozkaz, popř. další větná modalita ve FGP a PDT  oznámení, otázka, rozkaz, přání, zvolání  kombinace formálních prostředků (slovesný způsob, koncová interpunkce, částice)  koordinované klauze mohou mít různou modalitu př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo?  gramatém sentmod hodnoty enunc, inter, imper, desid, excl

18 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 poloautomatická procedura (ZŽ, MŠ, 2005/6) sentmod vyplněn  u přímého potomka technického kořene PRED DENOM nodetype=coap  u kořene vsuvky (PAR) př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc.  u kořene přímé řeči (is_dsp_root=1) př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání Martinezová. „algoritmus“  pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper  pokud mezi dětmi analytického protějšku otazník -> sentmod=inter  pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace (desid/excl/imper; 92 uzlů v trénovacích datech)  zbytek uzlů: sentmod=enunc

19 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita nově pro PDT 3.0 gramatém i sada hodnot stejné jako v PDT 2.0 poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) rozšíření množiny uzlů, u kterých vyplňován sentmod  ze sady kandidátských uzlů přímý potomek technického kořene kořen vsuvky (PAR) kořen přímé řeči (is_dsp_root=1) kořene názvu (ID)  test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou  př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy.  vyjmuty uzly s nodetype=coap, anotovány zvlášť u uzlů, které nebyly kořenem koordinace, aplikován algoritmus  ruční anotace u 82 uzlů (v trénovacích datech)

20 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v koordinacích v trénovacích datech PDT 2.x 7598 coap uzlů řídících 17320 kořenů koordinovaných klauzí (efektivní děti s is_member=1)  pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper  manuální anotace: kořeny klauzí koordinovaných s imperativními klauzemi kořeny koordinovaných klauzí, které byly součástí vět zakončených otazníkem  otazník se vztahuje jen k poslední klauzi kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89)  ostatní věty obsahující koordinované klauze končily tečkou (popř. bez interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou ve 100 náhodně vybraných větách jen klauze se sentmod=enunc automatické přiřazení hodnoty enunc

21 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x

22 sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x


Stáhnout ppt "Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková"

Podobné prezentace


Reklamy Google