Korpusový výzkum morfologických alternací v češtině

Slides:



Advertisements
Podobné prezentace
Analýza staročeské morfologie v Excelu
Advertisements

Co mají adjektiva společného s podstatnými jmény, co se slovesy?
CJBB75 1 ZPK CJBB CJBB75 2 Je to, co je skryto ve značce „stupeň“, jediné, co je možné se z korpusu dozvědět o stupňování v češtině ? Pozice.
CJBB75 1 ZPK CJBB75 čtvrtek G
Autor: Romana Nováková Gymnázium K. V. Raise, Hlinsko, Adámkova 55 Březen 2013.
Základní škola a Mateřská škola Slapy, okres Praha-západ
Přednáška P6 Božena Bednaříková
ROD JMENNÝ.
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
CJBB84 1 ZPK CJBB75 čtvrtek G
CJBB84 1 GAK CJBB CJBB84 2 Využití morfologických vlastností českého slovesa při formulaci dotazu při vyhledávání deverbativ od tvaru od.
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.
Korpus nejsou jenom dorty
Výzkum (pedagogického zhodnocení) volného času
STAVBA SLOVA SLOVA PŘÍBUZNÁ
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Vanda Malurová Datum: 1. dubna 2012 Název: VY_32_INOVACE_3.2.1.
Úvod do korpusové lingvistiky 8
LÉKAŘSKÁ TERMINOLOGIE A LATINA
Metodický list Pořadové číslo: VY_32_INOVACE_I.B.07 Název pro školu:
Hlásky Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Katka Nosková. Materiál zpracován v rámci projektu Implementace ICT techniky do.
CJBB75 1 ZPK CJBB75 čtvrtek G
Mgr. Michal Oblouk HLÁSKOSLOVÍ.
Zvuková stránka jazyka
Autor: Mgr. Vanda Malurová Datum: dubna 2012
Korpusová lingvistika (4) Základy korpusové statistiky
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Dagmar Strejčková Jazykový rozbor 1 Dagmar Strejčková
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Fonetika (fóné – hlas, zvuk lidské řeči)
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
C8 – hodnocení kvality výsledků VaV Osnova kurzu C8 – hodnocení kvality výsledků VaV Jana Hančlová Ekonomická fakulta VŠB-Technická univerzita Ostrava.
K sémantice základních číslovek Alena Poncarová 13-14/V 2011.
CJBB CJBB75.
CJBB75 1 ZPK CJBB75 středa G
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Přednáška P7 Božena Bednaříková
VÝUKA VÝSLOVNOSTI VE SKUPINÁCH RUSKY MLUVÍCÍCH STUDENTŮ
Postup při empirickém kvantitativním výzkumu
Interiéry knihoven a jejich vliv na psychiku čtenáře Jitka Dofková.
PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.
ZVUKOVÁ STRÁNKA JAZYKA 2
CJBB75 Základy využití korpusu pro praxi st G13.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
Název závěrečné práce Vedoucí DP : Jméno Příjmení Vypracoval: Jméno Příjmení Vedoucí práce: Jméno příjmení | Studentská 2 | Liberec 1 | tel.: +420.
Klára Osolsobě, Hana Žižková
ŽENA.
Samohlásky krátké a dlouhé, dvojhlásky
Kapitoly z fonetiky a fonologie českého jazyka
Úvod do latinské jmenné flexe 1. deklinace
CJBB CJBB84.
Kód materiálu: VY_32_INOVACE_08_DELENI_HLASEK Název materiálu:
ÚKL CJBB CJBB84.
Universitá degli Studi di Udine
ZPK CJBB CJBB75.
ZÁKLADNÍ ŠKOLA SLOVAN, KROMĚŘÍŽ, PŘÍSPĚVKOVÁ ORGANIZACE
NÁZEV ŠKOLY: Základní škola a Mateřská škola Nedvědice, okr
Digitální učební materiál
Baltoslovanská jazyková jednota Praslovanština
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Úvod do korpusové lingvistiky 3
Prameny pro poznání historické češtiny na internetu
Transkript prezentace:

Korpusový výzkum morfologických alternací v češtině Jan Henyš | Filozofická fakulta | Univerzita Karlova Studentský workshop Žďárek| Mělník | 13. 5. 2017

Osnova Krácení v dvojslabičných apelativech deklinačního typu žena Zachycení jevu v mluvnicích češtiny Design korpusového výzkumu Metodologické problémy Vytvořený seznam alternujících lemmat Srovnání s výklady v mluvnicích Možnosti výzkumu alternace

Krácení v dvojslabičných apelativech deklinačního typu žena Alternace kvantity zasahující kořenný vokál některých dvojslabičných apelativ deklinačního typu žena (a-kmeny) Následek vlivu praslovanského přízvuku na vokalickou kvantitu Při flexi vokalická kvantita kolísá kráva × krav, síla × sil V některých případech dochází i ke změně kvality vokálu víra × věr, míra × měr Týká se pouze vokálů á a í (+ diftong ou) á → a, í → i/ě, (ou → u) v minulosti i alternace ů → o (fůra × for)

Vizualizace metodologie s. mluvnice korpusu jsem

Krácení v dvojslabičných apelativech deklinačního typu žena Ke krácení dochází v genitivu plurálu, dále v dativu, lokálu a instrumentálu pl. a instrumentálu singuláru. (Cvrček a kol. 2010) sg. pl. N síla síly G sil D síle silám V sílo L silách I sílou/silou silami

Zachycení jevu v mluvnicích češtiny Jan Gebauer (1896): Historická mluvnice jazyka českého Rozsáhlý seznam alternujících slov s četnými doklady z literatury Mluvnice čerpající z korpusových dat: Václav Cvrček a kol. (2010): Mluvnice současné češtiny Seznam alternujících feminin a přibližné poměry variant František Štícha a kol. (2013): Akademická gramatika spisovné češtiny 11 deklinačních podtypů: á: zpráva, dáma, šťáva, vrána, rána, váha í: tíha, žíla, lípa díra, víra

Design korpusového výzkumu Data z korpusu SYN2015 Synchronní korpus psané češtiny cca 100 000 000 tokenů (120 mil. s interpunkcí) Vyvážený poměr beletrie, publicistiky a odborných textů Lemmatizace a morfologické značkování Dotazovací jazyk CQL (Corpus Query Language)

Design korpusového výzkumu Výběr dvojslabičných feminin deklinačního typu žena [tag="N.F.*"&lemma=".*á.*a"] [tag="N.F.*"&lemma=".*í.*a"] [tag="N.F.*"&lemma=".*é.*a"] [tag="N.F.*"&lemma=".*ó.*a"] [tag="N.F.*"&lemma=".*ú.*a"] [tag="N.F.*"&lemma=".*ů.*a"] [tag="N.F.*"&lemma=".*ý.*a"]

Design korpusového výzkumu Ruční výběr dvojslabičných lemmat Odstranění proprií (cca 18 %) vokál á í é ó ú ů ý celkem lemmata 141 108 34 23 13 38 24 381

Design korpusového výzkumu Výběr feminin s alternujícím kořenným vokálem [tag="N.F.*"&lemma="síla"&word!="(?i).*í.*"] ↓ sil, silou, silami, …

Design korpusového výzkumu Dávkové vkládání dotazů [tag="N.F.*"& ( lemma="bída"| lemma="bríza"| → běd lemma="bříza" ) &word!="(?i).*í.*"]

Design korpusového výzkumu Výzkum pluralií tantum Lemmatizována v plurálových tvarech vánoce, játra, spalničky Pluralia tantum deklinačního typu žena Zakončení na –y Zakončení na –i

Design korpusového výzkumu Výzkum diftongů V češtině diftong ou, případně au a eu [tag="N.F.*"&lemma=".*ou.*a"&word!="(?i).*ou.*"]

Metodologické problémy Specifika vyhledávání alternujících substantiv s kořenným vokálem á [tag="N.F.*"&lemma="kráva"&word!="(?i).*á.*"] sg. pl. N kráva krávy G krav D krávě krávám/kravám V krávo Krávy L kravách I krávách/kravách kravami

Metodologické problémy Řešení [tag="N.F.*"&lemma="kráva"&(word!="(?i).*á.*"| word="(?i).*a.*ám"|word="(?i).*a.*ách")] Tvary lemmatu kráva, které splňují jednu z těchto podmínek Tvar neobsahuje grafém á Tvar obsahuje grafém a a je zakončen –ám Tvar obsahuje grafém a a je zakončen –ách

Metodologické problémy Chyby lemmatizace a morfologického značkování máma (mami), píka (piko, pika), kóta (kot), pára (par), ... Různost grafického zaznamenání flóra/flora, tóga/toga, blůza/bluza Případnou alternaci nelze spolehlivě zaznamenat Možnost (nespolehlivého) řešení [lemma="flóra"]within <doc id="xyz" />

Vytvořený seznam alternujících lemmat á/a í/i í/ě ou/u bába hlína bída bouda blána lípa díra houba brána mísa míra hrouda čára síla víra kroupa dáma slíva louka dráha žíla moucha chvála smlouva jáma trouba kráva máry pára rána skála sláma šťáva tráva váha vrána žába žábra žláza 39 alternujících lemmat K alternaci dochází u á, í a ou Alternaci jiných vokálů nebylo možné dokázat

Srovnání s výklady v mluvnicích Podoba seznamu AGSČ i MSČ obsahují odlišené seznamy V AGSČ chybí bába, hlína, chvála, máry, míra, mísa, slíva, trouba, žábra a žláza V MSČ chybí bouda, dáma, díra, houba, kroupa, louka, máry, mísa, moucha, slíva, smlouva, trouba, žábra a žláza V MSČ jsou navíc slova spára, stoupa a strouha

Srovnání s výklady v mluvnicích Tvrzení o počtu slabik a hláskové podobě Ke krácení nedochází u tříslabičných slov a to ani v případě, jsou-li tato slova od alternujících odvozena Ke krácení nedochází u slov, která mají mezi kořenným vokálem a koncovkou více než jeden konsonant

Srovnání s výklady v mluvnicích Hledání kompozit a prefigovaných slov [( lemma"..*bába"| lemma="..*brána"| lemma="..*blána" )]

Srovnání s výklady v mluvnicích 32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.

Srovnání s výklady v mluvnicích 32 lemmat (mimo HL): autodráha, biošťáva, časomíra, dvojbrána, gardedáma, hajzlbába, jednobrána, jetelotráva, kuličkodráha, nadváha, nerovnováha, nevíra, nitroblána, oposmlouva, podváha, prabába, praprabába, prasíla, protisíla, protiváha, přemíra, rovnováha, rychlodráha, samochvála, sebechvála, siločára, slavobrána, supersíla, světočára, turbodíra, tvrdohouba, veledíra, vodováha.

Srovnání s výklady v mluvnicích Tvary slova siločára v korpusu SYN2015 Pád Tvary Isg — (0) Gpl siločar (104)/siločár (2) Dpl siločarám (1)/siločárám (1) Lpl Ipl siločarami (9)/siločárami (4)

Srovnání s výklady v mluvnicích Hlásková podoba Počet CVCV 21 CCVCV 16 CCCVCV 1 CVCCV Celkem 39 lemma žábra přítomno i ve verzi SYN2005

Kam dál? Výzkum vlivu polysémie na distribuci variant Výzkum vlivu kolokací na distribuci variant Podrobný popis výskytů na všech pozicích deklinačního paradigmatu  ověření implikační hierarchie Práce s mluvenými korpusy Práce s diachronními korpusy

Možné metodologické problémy Práce s diachronními korpusy nedostatek dat a nedůsledné značení kvantity ve starých textech Práce s mluvenými korpusy nedostatek dat a možné zkreslení při transkripci Podrobný popis výskytu na všech pozicích deklinačního paradigmatu U většiny slov nedostatek dat Výzkum vlivu polysémie na distribuce variant

Vliv kolokací na distribuci variant tvar vahou tvar váhou

Závěr Obě mluvnice vycházející z korpusových dat nejsou ve výkladech o alternaci vokalické kvantity (nebo kvality) u feminin deklinačního typu žena přesné Rozvíjení korpusového výzkumu této alternace metodologicky naráží na nedostatek dat v korpusech (především specializovaných) okrajovost jevu Možnost experimentálního výzkumu

Děkuji za pozornost.