Korpusový výzkum morfologických alternací v češtině Jan Henyš | Filozofická fakulta | Univerzita Karlova Studentský workshop Žďárek| Mělník | 13. 5. 2017
Osnova Krácení v dvojslabičných apelativech deklinačního typu žena Zachycení jevu v mluvnicích češtiny Design korpusového výzkumu Metodologické problémy Vytvořený seznam alternujících lemmat Srovnání s výklady v mluvnicích Možnosti výzkumu alternace
Krácení v dvojslabičných apelativech deklinačního typu žena Alternace kvantity zasahující kořenný vokál některých dvojslabičných apelativ deklinačního typu žena (a-kmeny) Následek vlivu praslovanského přízvuku na vokalickou kvantitu Při flexi vokalická kvantita kolísá kráva × krav, síla × sil V některých případech dochází i ke změně kvality vokálu víra × věr, míra × měr Týká se pouze vokálů á a í (+ diftong ou) á → a, í → i/ě, (ou → u) v minulosti i alternace ů → o (fůra × for)
Vizualizace metodologie s. mluvnice korpusu jsem
Krácení v dvojslabičných apelativech deklinačního typu žena Ke krácení dochází v genitivu plurálu, dále v dativu, lokálu a instrumentálu pl. a instrumentálu singuláru. (Cvrček a kol. 2010) sg. pl. N síla síly G sil D síle silám V sílo L silách I sílou/silou silami
Zachycení jevu v mluvnicích češtiny Jan Gebauer (1896): Historická mluvnice jazyka českého Rozsáhlý seznam alternujících slov s četnými doklady z literatury Mluvnice čerpající z korpusových dat: Václav Cvrček a kol. (2010): Mluvnice současné češtiny Seznam alternujících feminin a přibližné poměry variant František Štícha a kol. (2013): Akademická gramatika spisovné češtiny 11 deklinačních podtypů: á: zpráva, dáma, šťáva, vrána, rána, váha í: tíha, žíla, lípa díra, víra
Design korpusového výzkumu Data z korpusu SYN2015 Synchronní korpus psané češtiny cca 100 000 000 tokenů (120 mil. s interpunkcí) Vyvážený poměr beletrie, publicistiky a odborných textů Lemmatizace a morfologické značkování Dotazovací jazyk CQL (Corpus Query Language)
Design korpusového výzkumu Výběr dvojslabičných feminin deklinačního typu žena [tag="N.F.*"&lemma=".*á.*a"] [tag="N.F.*"&lemma=".*í.*a"] [tag="N.F.*"&lemma=".*é.*a"] [tag="N.F.*"&lemma=".*ó.*a"] [tag="N.F.*"&lemma=".*ú.*a"] [tag="N.F.*"&lemma=".*ů.*a"] [tag="N.F.*"&lemma=".*ý.*a"]
Design korpusového výzkumu Ruční výběr dvojslabičných lemmat Odstranění proprií (cca 18 %) vokál á í é ó ú ů ý celkem lemmata 141 108 34 23 13 38 24 381
Design korpusového výzkumu Výběr feminin s alternujícím kořenným vokálem [tag="N.F.*"&lemma="síla"&word!="(?i).*í.*"] ↓ sil, silou, silami, …
Design korpusového výzkumu Dávkové vkládání dotazů [tag="N.F.*"& ( lemma="bída"| lemma="bríza"| → běd lemma="bříza" ) &word!="(?i).*í.*"]
Design korpusového výzkumu Výzkum pluralií tantum Lemmatizována v plurálových tvarech vánoce, játra, spalničky Pluralia tantum deklinačního typu žena Zakončení na –y Zakončení na –i
Design korpusového výzkumu Výzkum diftongů V češtině diftong ou, případně au a eu [tag="N.F.*"&lemma=".*ou.*a"&word!="(?i).*ou.*"]
Metodologické problémy Specifika vyhledávání alternujících substantiv s kořenným vokálem á [tag="N.F.*"&lemma="kráva"&word!="(?i).*á.*"] sg. pl. N kráva krávy G krav D krávě krávám/kravám V krávo Krávy L kravách I krávách/kravách kravami
Metodologické problémy Řešení [tag="N.F.*"&lemma="kráva"&(word!="(?i).*á.*"| word="(?i).*a.*ám"|word="(?i).*a.*ách")] Tvary lemmatu kráva, které splňují jednu z těchto podmínek Tvar neobsahuje grafém á Tvar obsahuje grafém a a je zakončen –ám Tvar obsahuje grafém a a je zakončen –ách
Metodologické problémy Chyby lemmatizace a morfologického značkování máma (mami), píka (piko, pika), kóta (kot), pára (par), ... Různost grafického zaznamenání flóra/flora, tóga/toga, blůza/bluza Případnou alternaci nelze spolehlivě zaznamenat Možnost (nespolehlivého) řešení [lemma="flóra"]within <doc id="xyz" />
Vytvořený seznam alternujících lemmat á/a í/i í/ě ou/u bába hlína bída bouda blána lípa díra houba brána mísa míra hrouda čára síla víra kroupa dáma slíva louka dráha žíla moucha chvála smlouva jáma trouba kráva máry pára rána skála sláma šťáva tráva váha vrána žába žábra žláza 39 alternujících lemmat K alternaci dochází u á, í a ou Alternaci jiných vokálů nebylo možné dokázat
Srovnání s výklady v mluvnicích Podoba seznamu AGSČ i MSČ obsahují odlišené seznamy V AGSČ chybí bába, hlína, chvála, máry, míra, mísa, slíva, trouba, žábra a žláza V MSČ chybí bouda, dáma, díra, houba, kroupa, louka, máry, mísa, moucha, slíva, smlouva, trouba, žábra a žláza V MSČ jsou navíc slova spára, stoupa a strouha
Srovnání s výklady v mluvnicích Tvrzení o počtu slabik a hláskové podobě Ke krácení nedochází u tříslabičných slov a to ani v případě, jsou-li tato slova od alternujících odvozena Ke krácení nedochází u slov, která mají mezi kořenným vokálem a koncovkou více než jeden konsonant
Srovnání s výklady v mluvnicích Hledání kompozit a prefigovaných slov [( lemma"..*bába"| lemma="..*brána"| lemma="..*blána" )]
Srovnání s výklady v mluvnicích 32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.
Srovnání s výklady v mluvnicích 32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.
Srovnání s výklady v mluvnicích Tvary slova siločára v korpusu SYN2015 Pád Tvary Isg — (0) Gpl siločar (104)/siločár (2) Dpl siločarám (1)/siločárám (1) Lpl Ipl siločarami (9)/siločárami (4)
Srovnání s výklady v mluvnicích Hlásková podoba Počet CVCV 21 CCVCV 16 CCCVCV 1 CVCCV Celkem 39 lemma žábra přítomno i ve verzi SYN2005
Kam dál? Výzkum vlivu polysémie na distribuci variant Výzkum vlivu kolokací na distribuci variant Podrobný popis výskytů na všech pozicích deklinačního paradigmatu ověření implikační hierarchie Práce s mluvenými korpusy Práce s diachronními korpusy
Možné metodologické problémy Práce s diachronními korpusy nedostatek dat a nedůsledné značení kvantity ve starých textech Práce s mluvenými korpusy nedostatek dat a možné zkreslení při transkripci Podrobný popis výskytu na všech pozicích deklinačního paradigmatu U většiny slov nedostatek dat Výzkum vlivu polysémie na distribuce variant
Vliv kolokací na distribuci variant tvar vahou tvar váhou
Závěr Obě mluvnice vycházející z korpusových dat nejsou ve výkladech o alternaci vokalické kvantity (nebo kvality) u feminin deklinačního typu žena přesné Rozvíjení korpusového výzkumu této alternace metodologicky naráží na nedostatek dat v korpusech (především specializovaných) okrajovost jevu Možnost experimentálního výzkumu
Děkuji za pozornost.