Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilOndřej Beránek
1
Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková sevcikova@ufal.mff.cuni.cz Workshop řešitelského týmu grantu GA ČR P406/10/0875
2
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost v datech PDT a PDTSC Revize vybraných modálních významů v PDT Slovesný způsob Větná modalita
3
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Singulár a plurál v češtině: forma vs. funkce morfologická kategorie čísla v češtině singulárové vs. plurálové formy význam singularity (jedna entita) vs. plurality (více než jedna entita, větší množství entit): jedna hruška, dvě hrušky,..., pět hrušek jedny nůžky, dvoje nůžky,..., patery nůžky plurálová forma někdy neodkazuje k pouhému většímu množství entit, ale k jejich typickému souboru / souborům (souborový význam) př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich plurálová forma prototypicky označuje právě soubor / soubory jiná substantiva se pro vyjádření souborového významu spojují se souborovou číslovkou Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na výletě“. (SYN2005)
4
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Souborovost jako význam substantiv souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný význam pluralia tantum – asymetrie formy a funkce v singuláru souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou číslovky -> zachycovat na tektogramatické rovině (ve FGP, PDT) souborovost úzce spojena s kategorií čísla opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam plurálu jednotlivin (single) čtyři významy sg.single … singulárové formy sg.group, pl.single, pl.group … plurálové formy na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group homonymie plurálu – zjednoznačnění souborovou číslovkou – v PDT velmi řídké kontextem, znalostí světa -> ruční anotace
5
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 cíl ověřit, zda je souborový význam identifikovatelný zjistit četnost souborového významu v autentických textech souborový význam potenciálně u všech plurálových forem všech substantiv (60 017 z 833195 tokenů anotovaných na tektogramatické rovině) vzhledem k předpokládané nízké četnosti souborového významu takový postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů) pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický
6
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Pracovní seznam substantiv k anotaci zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce celkem 141 substantiv: adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks,, kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub
7
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace souborovosti v datech PDT 2.0 říjen 2010 až leden 2011 paralelní anotace, dvě anotátorky krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí příprava a vyhodnocení anotace: Lenka Smejkalová 31 souborů v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext mezianotátorská shoda:
8
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Zachycení souborovosti gramatémem typgroup význam souborovosti úzce souvisí s kategorií čísla ? včlenění souborovosti do stávajícího gramatému number změna hodnot gramatému čísla souborovost jako zvláštní gramatém typgroup provázaný s gramatémem number hodnoty gramatému typgroup single, group, nr hodnoty gramatémů typgroup a number a anotační možnosti prostý plurál → typgroup=single, number=pl jeden soubor → typgroup=group, number=sg více souborů → typgroup=group, number=pl jeden nebo víc souborů → typgroup=group, number=nr nerozhodnutelné → typgroup=nr, number=nr
9
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Včlenění ruční anotace, automatická anotace uzly se sempos=n.denot|n.denot.neg u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému typgroup vyplněny na základě anotace změny v hodnotě gramatému number uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky jedny → typgroup=group, number=sg s vyšší hodnotou → typgroup=group, number=pl u ostatních uzlů vyplnit typgroup=single number beze změny --> PDT 2.5
10
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 1. části dat PDTSC jaro 2011, paralelní anotace (tytéž anotátorky) 585 výskytů Malach: 359 Companions: 226
11
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Ruční anotace 2. části dat PDTSC jaro 2012, paralelní anotace (výměna jedné anotátorky) 1957 výskytů (Malach, Companions)
12
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Publikace Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011 Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176. Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47. Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182. Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.
13
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Slovesný způsob v PDT 2.0 slovesný způsob v PDT 2.0 zachycen gramatémem verbmod hodnoty ind, imp, cdn rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense (cdn+sim, cdn+ant) kondicionál po aby a kdyby anotován jako indikativ – víc než 1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant) poloautomatická anotace (ZŽ, MŠ, 2005/6)
14
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Nový gramatém slovesného způsobu gramatém verbmod nahrazen gramatémem factmod „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl neimperativní formy vs. imperativ použitím neimperativní formy prezentuje mluvčí daný děj jako reálný (indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.) imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi pro factmod definovány 3 hodnoty asserted (indikativ), potential (kond. přít.), irreal (kond. min.) imperativ vyřazen implementace: 4 hodnoty asserted, potential, irreal, appeal (imperativ) --> PDT 3.0
15
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Vyplňování gramatému factmod poloautomatická procedura ( Jirka Mírovský, MŠ, 2011/12) factmod náleží stejným uzlům jako verbmod využívány informace z morfologické roviny, konfrontovány s hodnotami verbmod gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako imperativ) opraveny jednotlivé chyby v tektogramatické anotaci manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)
16
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x verbmodPDT 2.0 trainfactmodPDT 2.x train ind60 118asserted58 834 cdn (+sim)2 835potential4 108 cdn (+ant)8irreal8 imp286appeal293 nil5 396nil5 401
17
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita jako význam věty modální význam „celé věty“ (česká i zahraniční literatura o modalitě) oznámení vs. otázka vs. rozkaz, popř. další větná modalita ve FGP a PDT oznámení, otázka, rozkaz, přání, zvolání kombinace formálních prostředků (slovesný způsob, koncová interpunkce, částice) koordinované klauze mohou mít různou modalitu př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo? gramatém sentmod hodnoty enunc, inter, imper, desid, excl
18
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 poloautomatická procedura (ZŽ, MŠ, 2005/6) sentmod vyplněn u přímého potomka technického kořene PRED DENOM nodetype=coap u kořene vsuvky (PAR) př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc. u kořene přímé řeči (is_dsp_root=1) př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání Martinezová. „algoritmus“ pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper pokud mezi dětmi analytického protějšku otazník -> sentmod=inter pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace (desid/excl/imper; 92 uzlů v trénovacích datech) zbytek uzlů: sentmod=enunc
19
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita nově pro PDT 3.0 gramatém i sada hodnot stejné jako v PDT 2.0 poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) rozšíření množiny uzlů, u kterých vyplňován sentmod ze sady kandidátských uzlů přímý potomek technického kořene kořen vsuvky (PAR) kořen přímé řeči (is_dsp_root=1) kořene názvu (ID) test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy. vyjmuty uzly s nodetype=coap, anotovány zvlášť u uzlů, které nebyly kořenem koordinace, aplikován algoritmus ruční anotace u 82 uzlů (v trénovacích datech)
20
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v koordinacích v trénovacích datech PDT 2.x 7598 coap uzlů řídících 17320 kořenů koordinovaných klauzí (efektivní děti s is_member=1) pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper manuální anotace: kořeny klauzí koordinovaných s imperativními klauzemi kořeny koordinovaných klauzí, které byly součástí vět zakončených otazníkem otazník se vztahuje jen k poslední klauzi kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89) ostatní věty obsahující koordinované klauze končily tečkou (popř. bez interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou ve 100 náhodně vybraných větách jen klauze se sentmod=enunc automatické přiřazení hodnoty enunc
21
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x
22
sevcikova@ufal.mff.cuni.cz Workshop GA ČR P406/10/0875, 12. dubna 2012 Větná modalita v PDT 2.0 a PDT 2.x
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.