Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika ( 4 ) Základy korpusové statistiky Jan Radimský FF JU České Budějovice.

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika ( 4 ) Základy korpusové statistiky Jan Radimský FF JU České Budějovice."— Transkript prezentace:

1 Korpusová lingvistika ( 4 ) Základy korpusové statistiky Jan Radimský FF JU České Budějovice

2 Základy korpusové statistiky: četnost slov  Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů  Výchozí bod: frekvence (četnost výskytu) jednotlivých slov frekvence = počet výskytů (absolutní fq.) slovo = tvar n. lemma... př.: jakou fq. má tvar / lemma „tužka“ v SYN2005?  Frekvence slovních druhů Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) token / type Bonito: Konkordance – Statistiky – Frekvenční distribuce  Frekvenční seznam rank (pozice ve fq. seznamu)

3 Zipfovy zákony  George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar vztah: frekvence – rank vztah: počet lemmat – frekvence Několik málo slov (funkční slova) má velmi vysokou frekvenci Velmi mnoho slov má minimální frekvenci „Hapax legomenon“ (pl. hapax legomena) Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)

4 Samostatn ý úkol... Zipfovy zákony  Analýza frekvenčního seznamu sloves z korpusu „Orwell“ Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) Kolik z toho připadá na 5 nejfrekventovanějších sloves?

5 Hapaxy  Proč mají některá slova extrémně vysokou / nízkou frekvenci?  Hapaxy (tag=N) Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... Orwell: finesa, nepohodlí, předvolání, brach, kuropění...  Nejfrekventovanější N Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka...  Co vyčteme ze seznamu hapaxů a frekventovaných slov? Pokud porovnáváme dva korpusy...

6 Srovnávání frekvencí: relativní četnost (frekvence)  Hypotéza: Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r se o Internetu psalo v novinách více...  Ověření této hypotézy Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) Relativní fq. v obou korpusech  vyjádřená v procentech: f R (x)=f(x) / N, kde N je velikost korpusu  vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)

7 Srovnání fq. lemmatu „internet“  Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000?  Mohu tento závěr aplikovat na výchozí hypotézu? Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky- rozložení) Navrhněte, jak toto ve výpočtu zohlednit  pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení)  pokud se vyskytuje pouze v publicistice Syn2000Syn2009PUB f(x) N f R (x)0, , f R (x) na 1M slov95,06148,

8 ... Výsledky pro normální rozložení v korpusu  Ne-publicistika tvoří 40% korpusu SYN2000  Těchto 40% odečtu od f R i od velikosti korpusu  Výsledek.... Syn2009PUBSyn2000Syn2000 "PUB" f(x) ,6 N f R (x)0, , f R (x) na 1M slov148, ,06

9 Výsledky pro případ, že „internet“ je pouze v publicistice  Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! Počet výskytů zůstává Velikost korpusu snížíme o 40%  Výsledek... výchozí hypotéza je jednoznačně vyvrácena Syn2009PUBSyn2000Syn2000 upravený f(x) N f R (x)0, , , f R (x) na 1M slov148, ,06158,

10 Souvýskyt dvou jednotek  Druhá oblast aplikace statistiky: souvýskyt dvou jednotek  Jedná se vždy o jednotky v kontextu. Ale: Jak velký má být kontext? (vzdálenost slov) V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...)  Cvičení: srovnejte kolokáty sloves na pozici 1R mhouřit, číst, cvičit, vylézt... co nám to říká?  Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves Jak to udělat, když není korpus syntakticky anotován?

11 Statistická významnost souvýskytu  Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) MI score, T-score, abs./rel. frekvence  Rozdíl MI score a T-Score (porovnejte): Damoklův meč, Ariadnina nit, muří noha veřejné mínění, vzdušný prostor volské oko

12 Kolokační paradigma - analýza  Kolokační paradigma (pozice -1) řídké slovo: useň středně běžné slovo: proutek běžné slovo: nemoc  porovnání synonym: nemoc vs. choroba porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)

13 Komplexní analýza kolokací  průkaz – legitimace – průkazka adjektivní doplnění: občanský průkaz substantivní doplnění: průkaz pojištěnce valence: průkaz + PREP. polysémie


Stáhnout ppt "Korpusová lingvistika ( 4 ) Základy korpusové statistiky Jan Radimský FF JU České Budějovice."

Podobné prezentace


Reklamy Google