Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusový výzkum morfologických alternací v češtině

Podobné prezentace


Prezentace na téma: "Korpusový výzkum morfologických alternací v češtině"— Transkript prezentace:

1 Korpusový výzkum morfologických alternací v češtině
Jan Henyš | Filozofická fakulta | Univerzita Karlova Studentský workshop Žďárek| Mělník |

2 Osnova Krácení v dvojslabičných apelativech deklinačního typu žena
Zachycení jevu v mluvnicích češtiny Design korpusového výzkumu Metodologické problémy Vytvořený seznam alternujících lemmat Srovnání s výklady v mluvnicích Možnosti výzkumu alternace

3 Krácení v dvojslabičných apelativech deklinačního typu žena
Alternace kvantity zasahující kořenný vokál některých dvojslabičných apelativ deklinačního typu žena (a-kmeny) Následek vlivu praslovanského přízvuku na vokalickou kvantitu Při flexi vokalická kvantita kolísá kráva × krav, síla × sil V některých případech dochází i ke změně kvality vokálu víra × věr, míra × měr Týká se pouze vokálů á a í (+ diftong ou) á → a, í → i/ě, (ou → u) v minulosti i alternace ů → o (fůra × for)

4 Vizualizace metodologie
s. mluvnice korpusu jsem

5 Krácení v dvojslabičných apelativech deklinačního typu žena
Ke krácení dochází v genitivu plurálu, dále v dativu, lokálu a instrumentálu pl. a instrumentálu singuláru. (Cvrček a kol. 2010) sg. pl. N síla síly G sil D síle silám V sílo L silách I sílou/silou silami

6 Zachycení jevu v mluvnicích češtiny
Jan Gebauer (1896): Historická mluvnice jazyka českého Rozsáhlý seznam alternujících slov s četnými doklady z literatury Mluvnice čerpající z korpusových dat: Václav Cvrček a kol. (2010): Mluvnice současné češtiny Seznam alternujících feminin a přibližné poměry variant František Štícha a kol. (2013): Akademická gramatika spisovné češtiny 11 deklinačních podtypů: á: zpráva, dáma, šťáva, vrána, rána, váha í: tíha, žíla, lípa díra, víra

7 Design korpusového výzkumu
Data z korpusu SYN2015 Synchronní korpus psané češtiny cca tokenů (120 mil. s interpunkcí) Vyvážený poměr beletrie, publicistiky a odborných textů Lemmatizace a morfologické značkování Dotazovací jazyk CQL (Corpus Query Language)

8 Design korpusového výzkumu
Výběr dvojslabičných feminin deklinačního typu žena [tag="N.F.*"&lemma=".*á.*a"] [tag="N.F.*"&lemma=".*í.*a"] [tag="N.F.*"&lemma=".*é.*a"] [tag="N.F.*"&lemma=".*ó.*a"] [tag="N.F.*"&lemma=".*ú.*a"] [tag="N.F.*"&lemma=".*ů.*a"] [tag="N.F.*"&lemma=".*ý.*a"]

9 Design korpusového výzkumu
Ruční výběr dvojslabičných lemmat Odstranění proprií (cca 18 %) vokál á í é ó ú ů ý celkem lemmata 141 108 34 23 13 38 24 381

10 Design korpusového výzkumu
Výběr feminin s alternujícím kořenným vokálem [tag="N.F.*"&lemma="síla"&word!="(?i).*í.*"] sil, silou, silami, …

11 Design korpusového výzkumu
Dávkové vkládání dotazů [tag="N.F.*"& ( lemma="bída"| lemma="bríza"| → běd lemma="bříza" ) &word!="(?i).*í.*"]

12 Design korpusového výzkumu
Výzkum pluralií tantum Lemmatizována v plurálových tvarech vánoce, játra, spalničky Pluralia tantum deklinačního typu žena Zakončení na –y Zakončení na –i

13 Design korpusového výzkumu
Výzkum diftongů V češtině diftong ou, případně au a eu [tag="N.F.*"&lemma=".*ou.*a"&word!="(?i).*ou.*"]

14 Metodologické problémy
Specifika vyhledávání alternujících substantiv s kořenným vokálem á [tag="N.F.*"&lemma="kráva"&word!="(?i).*á.*"] sg. pl. N kráva krávy G krav D krávě krávám/kravám V krávo Krávy L kravách I krávách/kravách kravami

15 Metodologické problémy
Řešení [tag="N.F.*"&lemma="kráva"&(word!="(?i).*á.*"| word="(?i).*a.*ám"|word="(?i).*a.*ách")] Tvary lemmatu kráva, které splňují jednu z těchto podmínek Tvar neobsahuje grafém á Tvar obsahuje grafém a a je zakončen –ám Tvar obsahuje grafém a a je zakončen –ách

16 Metodologické problémy
Chyby lemmatizace a morfologického značkování máma (mami), píka (piko, pika), kóta (kot), pára (par), ... Různost grafického zaznamenání flóra/flora, tóga/toga, blůza/bluza Případnou alternaci nelze spolehlivě zaznamenat Možnost (nespolehlivého) řešení [lemma="flóra"]within <doc id="xyz" />

17 Vytvořený seznam alternujících lemmat
á/a í/i í/ě ou/u bába hlína bída bouda blána lípa díra houba brána mísa míra hrouda čára síla víra kroupa dáma slíva louka dráha žíla moucha chvála smlouva jáma trouba kráva máry pára rána skála sláma šťáva tráva váha vrána žába žábra žláza 39 alternujících lemmat K alternaci dochází u á, í a ou Alternaci jiných vokálů nebylo možné dokázat

18 Srovnání s výklady v mluvnicích
Podoba seznamu AGSČ i MSČ obsahují odlišené seznamy V AGSČ chybí bába, hlína, chvála, máry, míra, mísa, slíva, trouba, žábra a žláza V MSČ chybí bouda, dáma, díra, houba, kroupa, louka, máry, mísa, moucha, slíva, smlouva, trouba, žábra a žláza V MSČ jsou navíc slova spára, stoupa a strouha

19 Srovnání s výklady v mluvnicích
Tvrzení o počtu slabik a hláskové podobě Ke krácení nedochází u tříslabičných slov a to ani v případě, jsou-li tato slova od alternujících odvozena Ke krácení nedochází u slov, která mají mezi kořenným vokálem a koncovkou více než jeden konsonant

20 Srovnání s výklady v mluvnicích
Hledání kompozit a prefigovaných slov [( lemma"..*bába"| lemma="..*brána"| lemma="..*blána" )]

21 Srovnání s výklady v mluvnicích
32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.

22 Srovnání s výklady v mluvnicích
32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.

23 Srovnání s výklady v mluvnicích
Tvary slova siločára v korpusu SYN2015 Pád Tvary Isg — (0) Gpl siločar (104)/siločár (2) Dpl siločarám (1)/siločárám (1) Lpl Ipl siločarami (9)/siločárami (4)

24 Srovnání s výklady v mluvnicích
Hlásková podoba Počet CVCV 21 CCVCV 16 CCCVCV 1 CVCCV Celkem 39 lemma žábra přítomno i ve verzi SYN2005

25 Kam dál? Výzkum vlivu polysémie na distribuci variant
Výzkum vlivu kolokací na distribuci variant Podrobný popis výskytů na všech pozicích deklinačního paradigmatu  ověření implikační hierarchie Práce s mluvenými korpusy Práce s diachronními korpusy

26 Možné metodologické problémy
Práce s diachronními korpusy nedostatek dat a nedůsledné značení kvantity ve starých textech Práce s mluvenými korpusy nedostatek dat a možné zkreslení při transkripci Podrobný popis výskytu na všech pozicích deklinačního paradigmatu U většiny slov nedostatek dat Výzkum vlivu polysémie na distribuce variant

27 Vliv kolokací na distribuci variant
tvar vahou tvar váhou

28 Závěr Obě mluvnice vycházející z korpusových dat nejsou ve výkladech o alternaci vokalické kvantity (nebo kvality) u feminin deklinačního typu žena přesné Rozvíjení korpusového výzkumu této alternace metodologicky naráží na nedostatek dat v korpusech (především specializovaných) okrajovost jevu Možnost experimentálního výzkumu

29 Děkuji za pozornost.


Stáhnout ppt "Korpusový výzkum morfologických alternací v češtině"

Podobné prezentace


Reklamy Google