Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice
Český národní korpus Správce a tvůrce: Ústav ČNK, FF UK Praha Ne jeden korpus, ale celý soubor korpusů! Rozmanité korpusy z hlediska velikosti, datace textů, témat, stylů (zdrojů)...
ČNK – rozsah korpusů Vývoj velikosti korpusů (cf. Leech: The State of Art in Corpus Linguistics, 1991): 1. generace (70. léta): 1 M slov (Brown corpus) 2. generace (80. léta) řádově 10 M (Birmingham collection of English – 18M) 3. generace (od 90. let): 100 M (Syn2000) Dnešní korpusy běžně až M slov (Itwac) Leech: více neznamená lépe reprezentativita korpusu (co reprezentuje?) vyváženost korpusu (v jakém poměru jsou složky?)
ČNK – složení korpusů a jeho vývoj Lze sledovat v mnoha ohledech velikost mluvené – psané styl: publicistika – odborná – beletrie (vyvíjejí se poměry, u publicistiky poměr titulů) témata rok vzniku textu Podrobněji viz Studie z korpusové lingvistiky
Práce s korpusem Informace obsažené v korpusu Surový text Metadata (informace o textu) Značkování: lematizace, tagování, parsing Problémy značkování Značkování závisí na lingvistické teorii V ČNK relativně neutrální, v řadě korpusů nikoli Pokročilou anotaci (vč. parsingu) má tzv. Prague dependency treebank – viz zdeviz zde Závažný problém: homonymie, homografie, polysémie (např. čes. se) – chyby ! Víceslovná pojmenování (cestovní kancelář, pomme de terre, ferro da stiro) Rozhraní pro práci s korpusem: korpusový manažer Data (korpus) oddělená od prohlížeče Online/offline přístup
Práce s korpusem Korpusový manažer Bonito Zobrazení KWIC Vyhledávání tvaru, lemmatu, tagu Popis morfologických značek „tužka“ (jako lemma, tvar) substantivum (v akuzativu sg.) Velká a malá písmena (case sensitive): Hrad/hrad Pravopisné a stylové dublety (brýle/brejle, optimiz/smus, filoz/sofie, -uální/-uelní). Další krok: souvýskyt dvou grafických slov
Souvýskyt dvou slov Souvýskyt: těžký úkol bezprostřední blízkost, instrumentál instrumentál s předložkou / bez předložky bezprostřední blízkost, jakýkoli pád ne-bezprostřední blízkost Vzdálenější souvýskyt (V+N) Kombinace lemma/tag A+úkol, V+past... v jaké vzdálenosti a v jakém tvaru se dají očekávat?
Kombinace kritérií Konkrétní N v zadaném pádě Testy lemmatizace kolem, během, náhodou, se