Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice."— Transkript prezentace:

1 Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice

2 Český národní korpus  Správce a tvůrce: Ústav ČNK, FF UK Praha  Ne jeden korpus, ale celý soubor korpusů! http://www.korpus.cz/struktura.php  Rozmanité korpusy z hlediska velikosti, datace textů, témat, stylů (zdrojů)...

3 ČNK – rozsah korpusů  Vývoj velikosti korpusů (cf. Leech: The State of Art in Corpus Linguistics, 1991): 1. generace (70. léta): 1 M slov (Brown corpus) 2. generace (80. léta) řádově 10 M (Birmingham collection of English – 18M) 3. generace (od 90. let): 100 M (Syn2000) Dnešní korpusy běžně až 2.000 M slov (Itwac)  Leech: více neznamená lépe reprezentativita korpusu (co reprezentuje?) vyváženost korpusu (v jakém poměru jsou složky?)

4 ČNK – složení korpusů a jeho vývoj  Lze sledovat v mnoha ohledech velikost mluvené – psané styl: publicistika – odborná – beletrie (vyvíjejí se poměry, u publicistiky poměr titulů) témata rok vzniku textu  Podrobněji viz Studie z korpusové lingvistiky

5 Práce s korpusem  Informace obsažené v korpusu Surový text Metadata (informace o textu) Značkování: lematizace, tagování, parsing  Problémy značkování Značkování závisí na lingvistické teorii V ČNK relativně neutrální, v řadě korpusů nikoli Pokročilou anotaci (vč. parsingu) má tzv. Prague dependency treebank – viz zdeviz zde Závažný problém: homonymie, homografie, polysémie (např. čes. se) – chyby ! Víceslovná pojmenování (cestovní kancelář, pomme de terre, ferro da stiro)  Rozhraní pro práci s korpusem: korpusový manažer Data (korpus) oddělená od prohlížeče Online/offline přístup

6 Práce s korpusem  Korpusový manažer Bonito  Zobrazení KWIC  Vyhledávání tvaru, lemmatu, tagu Popis morfologických značek „tužka“ (jako lemma, tvar) substantivum (v akuzativu sg.)  Velká a malá písmena (case sensitive): Hrad/hrad  Pravopisné a stylové dublety (brýle/brejle, optimiz/smus, filoz/sofie, -uální/-uelní).  Další krok: souvýskyt dvou grafických slov

7 Souvýskyt dvou slov  Souvýskyt: těžký úkol bezprostřední blízkost, instrumentál  instrumentál s předložkou / bez předložky bezprostřední blízkost, jakýkoli pád ne-bezprostřední blízkost  Vzdálenější souvýskyt (V+N)  Kombinace lemma/tag A+úkol, V+past... v jaké vzdálenosti a v jakém tvaru se dají očekávat?

8 Kombinace kritérií  Konkrétní N v zadaném pádě  Testy lemmatizace kolem, během, náhodou, se


Stáhnout ppt "Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice."

Podobné prezentace


Reklamy Google