Korpusová lingvistika (4) Základy korpusové statistiky Jan Radimský FF JU České Budějovice
Základy korpusové statistiky: četnost slov Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů Výchozí bod: frekvence (četnost výskytu) jednotlivých slov frekvence = počet výskytů (absolutní fq.) slovo = tvar n. lemma... př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? Frekvence slovních druhů Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) token / type Bonito: Konkordance – Statistiky – Frekvenční distribuce Frekvenční seznam rank (pozice ve fq. seznamu)
Zipfovy zákony George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar vztah: frekvence – rank vztah: počet lemmat – frekvence Několik málo slov (funkční slova) má velmi vysokou frekvenci Velmi mnoho slov má minimální frekvenci „Hapax legomenon“ (pl. hapax legomena) Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)
Samostatný úkol... Zipfovy zákony Analýza frekvenčního seznamu sloves z korpusu „Orwell“ Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) Kolik z toho připadá na 5 nejfrekventovanějších sloves?
Hapaxy Proč mají některá slova extrémně vysokou / nízkou frekvenci? Hapaxy (tag=N) Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... Orwell: finesa, nepohodlí, předvolání, brach, kuropění... Nejfrekventovanější N Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... Co vyčteme ze seznamu hapaxů a frekventovaných slov? Pokud porovnáváme dva korpusy...
Srovnávání frekvencí: relativní četnost (frekvence) Hypotéza: Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r. 2000 se o Internetu psalo v novinách více... Ověření této hypotézy Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) Relativní fq. v obou korpusech vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)
Srovnání fq. lemmatu „internet“ Syn2000 Syn2009PUB f(x) 9506 104000 N 100000000 700000000 fR(x) 0,00009506 0,000148571 fR(x) na 1M slov 95,06 148,5714286 Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? Mohu tento závěr aplikovat na výchozí hypotézu? Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) Navrhněte, jak toto ve výpočtu zohlednit pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) pokud se vyskytuje pouze v publicistice
... Výsledky pro normální rozložení v korpusu Ne-publicistika tvoří 40% korpusu SYN2000 Těchto 40% odečtu od fR i od velikosti korpusu Výsledek.... Syn2009PUB Syn2000 Syn2000 "PUB" f(x) 104000 9506 5703,6 N 700000000 100000000 60000000 fR(x) 0,000148571 0,00009506 fR(x) na 1M slov 148,5714286 95,06
Výsledky pro případ, že „internet“ je pouze v publicistice Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! Počet výskytů zůstává Velikost korpusu snížíme o 40% Výsledek... výchozí hypotéza je jednoznačně vyvrácena Syn2009PUB Syn2000 Syn2000 upravený f(x) 104000 9506 N 700000000 100000000 60000000 fR(x) 0,000148571 0,00009506 0,000158433 fR(x) na 1M slov 148,5714286 95,06 158,4333333
Souvýskyt dvou jednotek Druhá oblast aplikace statistiky: souvýskyt dvou jednotek Jedná se vždy o jednotky v kontextu. Ale: Jak velký má být kontext? (vzdálenost slov) V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) Cvičení: srovnejte kolokáty sloves na pozici 1R mhouřit, číst, cvičit, vylézt... co nám to říká? Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves Jak to udělat, když není korpus syntakticky anotován?
Statistická významnost souvýskytu Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) MI score, T-score, abs./rel. frekvence Rozdíl MI score a T-Score (porovnejte): Damoklův meč, Ariadnina nit, muří noha veřejné mínění, vzdušný prostor volské oko
Kolokační paradigma - analýza Kolokační paradigma (pozice -1) řídké slovo: useň středně běžné slovo: proutek běžné slovo: nemoc porovnání synonym: nemoc vs. choroba porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)
Komplexní analýza kolokací průkaz – legitimace – průkazka adjektivní doplnění: občanský průkaz substantivní doplnění: průkaz pojištěnce valence: průkaz + PREP. polysémie