Český národní korpus
Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav pro jazyk český Akademie věd ČR Ústav pro českou literaturu AV ČR
Co je to korpus? Soubor dat (textů) rozsáhlý počítačově uložený i zpracovávaný reprezentativní vzhledem k vytčenému cíli slouží jako bohatý zdroj jazykového materiálu především lingvistům
Typy korpusů synchronní – diachronní – historický psaný – mluvený (případně nářeční)
Český národní korpus
Velikosti a složení korpusů
Struktura textů v SYN milionů textových slov reprezentativní z hlediska recepce synchronní (současný) jazyk psané texty Publicistika33 % Odborné texty27 % Beletrie 40 %
Časové vymezení textů v korpusu SYN2005 Publicistika – z let Odborná literatura – po roce 1990 Beletrie – po roce 1990 (významná poválečná díla a překlady od autorů narozených po roce 1880 )
Odborná a specializovaná literatura (milióny slov)
Imaginativní literatura
Zpracování textů získávání textů: z redakcí, z Internetu, skenováním, přepisem konverze do jednotného formátu bibliografická anotace převod do SGML lemmatizace a morfologické značkování desambiguace (zjednoznačnění)
Ukázka hlavičky dokumentu # identifikace dokumantu # začátek hlavičky dokumentu S# druh korpusu (synchronní) NOV# typ textu (román) BIO# žánr (biografie) B# médium (kniha) F# pohlaví autora (žena) 1991# rok vydání 1991# rok prvního vydání Kriseová Eda# jméno autora havel # jednoznačná identifikace souboru 001# pořadové číslo dokumentu v rámci souboru # konec hlavičky dokumentu
Zpracování textů získávání textů: z redakcí, z Internetu, skenováním, přepisem konverze do jednotného formátu bibliografická anotace převod do SGML lemmatizace a morfologické značkování desambiguace (zjednoznačnění)
Ukázka textu v SGML formátu se strukturními a morfologickými značkami # začátek textu # první odstavec # začátek věty s její jednoznačnou # identifikací v celém korpusu Eda Eda NNMS1-----A---- Kriseová Kriseová NNFS1-----A---- # začátek další věty i# typografická značka - italika Vaškovi Vašek NNMS3-----A---- /i # typografická značka – konec italiky # druhý odstavec # začátek další věty Motto motto NNNS1-----A---- # následující znak nebyl oddělen mezerou : : Z: # interpunkce # třetí odstavec # začátek další věty Jednou jeden`1 ClFS navštívil navštívit_:W VpYS---XR-AA---
Ukázka morfologické značky: NNIS3-----A----- substantivum obecné maskulinum singulár dativ afirmativ inanimatum veškerý pozemský a sublunární korpus/NNIS1-----A----- vyhladovělých a žíznivých na podlahu. Hodil jsem do korpusu/NNIS2-----A----- závaží čistítka a elegantně slunce se třpytilo v jejím korpusu/NNIS6-----A-----, nad vlasatýma hlavama se přitáhl orchestr. Zlaté korpusy/NNIP1-----A----- saxofonové baterie malovaly individuální podmínky přístupu ke korpusu/NNIS3-----A----- v mnohem sofistikovanější
Mluvené korpusy ORAL2006 – slov (celé Čechy) PMK – slov, BMK – slov čtyři sociolingvistické proměnné: pohlaví mluvčího - muž x žena věk - mladší (20-35 let) x starší (od 35 let) vzdělání - základní a střední x vysokoškolské typ promluvy - formální x neformální
čaje potom, co von tam votevře v těch, jak se to menuje zatěžuje a většinou tak votravuje ---, že si myslim, tak si myslim, že ta votázka emancipace ženy, tak.. to je hrozně těžká votázka, na to se hrozně těžko je to trochu divná votázka, protože už sem dlouho budoucna, co když vona votěhotní? a taky je strašně ponižující spolu byli. vo tyhlety votázce sem si vždycky myslel dotyčnýho, protože votevře cizí kufr, zjistí prostě.. no, to je zatím votřesný, no v Polsku už to čem, no, to je ta votázka, v čem. těžko říct pomocí nebo výpomocí. votázka je hlavně bych no, to je potom taky votázka sexu anebo tý lásky lépe než muži. to je votázka teda taková zajímavá podmínky. no vlasně to je votázka na tebe, cha cha, Ukázka mluveného korpusu Sociolingvistické kategorie: pohlaví muž (M) žena (Z) věk mladší (I) starší (V) vzdělání základní a střední (B) vysokoškolské (A) charakter rozhovoru formální (F) neformální (N)
Korpusový manažer Bonito výběr korpusu dotazový řádek vyhledaný výraz (KWIC) bibliografická informace rozšíření kontextu
Grafická tvorba dotazu zadání lemmatu nastavení intervalu – mezi 1. a 2. slovem mohou být až 4 jiná slova zadání morfologické značky vyjadřující infinitiv ([lemma="vidět"] []{0,4} [tag="Vf.*"])
[lemma="olomoucký"] Frekvenční distribuce radnice139 ulice121 trenér94 univerzita72 biskup69 primátor69 kauza64 arcibiskup59 nakladatelství46 firma44 policie42 okres40 pobočka40 radní38 arcibiskupství36 Sigma35 divadlo33 výstaviště32 fotbalista29 městský27 okresní27 ?
Možnosti přístupu k ČNK
Co na našich stránkách najdete: veřejný přístup ke korpusu SYN2000 podmínky získání přístupu ke korpusům ČNK korpusový manažer Bonito návod na práci s korpusovým manažerem
Využití korpusů ve škole zdroj jazykového materiálu pro tvorbu cvičení ověřování jazykových jevů – samostatná práce žáků nový způsob získávání informací netradiční pohled na jazykovou realitu
Děkuji za pozornost!