Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika (4) Základy korpusové statistiky

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika (4) Základy korpusové statistiky"— Transkript prezentace:

1 Korpusová lingvistika (4) Základy korpusové statistiky
Jan Radimský FF JU České Budějovice

2 Základy korpusové statistiky: četnost slov
Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů Výchozí bod: frekvence (četnost výskytu) jednotlivých slov frekvence = počet výskytů (absolutní fq.) slovo = tvar n. lemma... př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? Frekvence slovních druhů Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) token / type Bonito: Konkordance – Statistiky – Frekvenční distribuce Frekvenční seznam rank (pozice ve fq. seznamu)

3 Zipfovy zákony George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar vztah: frekvence – rank vztah: počet lemmat – frekvence Několik málo slov (funkční slova) má velmi vysokou frekvenci Velmi mnoho slov má minimální frekvenci „Hapax legomenon“ (pl. hapax legomena) Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)

4 Samostatný úkol... Zipfovy zákony
Analýza frekvenčního seznamu sloves z korpusu „Orwell“ Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) Kolik z toho připadá na 5 nejfrekventovanějších sloves?

5 Hapaxy Proč mají některá slova extrémně vysokou / nízkou frekvenci?
Hapaxy (tag=N) Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... Orwell: finesa, nepohodlí, předvolání, brach, kuropění... Nejfrekventovanější N Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... Co vyčteme ze seznamu hapaxů a frekventovaných slov? Pokud porovnáváme dva korpusy...

6 Srovnávání frekvencí: relativní četnost (frekvence)
Hypotéza: Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r se o Internetu psalo v novinách více... Ověření této hypotézy Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) Relativní fq. v obou korpusech vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)

7 Srovnání fq. lemmatu „internet“
Syn2000 Syn2009PUB f(x) 9506 104000 N fR(x) 0, 0, fR(x) na 1M slov 95,06 148, Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? Mohu tento závěr aplikovat na výchozí hypotézu? Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) Navrhněte, jak toto ve výpočtu zohlednit pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) pokud se vyskytuje pouze v publicistice

8 ... Výsledky pro normální rozložení v korpusu
Ne-publicistika tvoří 40% korpusu SYN2000 Těchto 40% odečtu od fR i od velikosti korpusu Výsledek.... Syn2009PUB Syn2000 Syn2000 "PUB" f(x) 104000 9506 5703,6 N fR(x) 0, 0, fR(x) na 1M slov 148, 95,06

9 Výsledky pro případ, že „internet“ je pouze v publicistice
Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! Počet výskytů zůstává Velikost korpusu snížíme o 40% Výsledek... výchozí hypotéza je jednoznačně vyvrácena Syn2009PUB Syn2000 Syn2000 upravený f(x) 104000 9506 N fR(x) 0, 0, 0, fR(x) na 1M slov 148, 95,06 158,

10 Souvýskyt dvou jednotek
Druhá oblast aplikace statistiky: souvýskyt dvou jednotek Jedná se vždy o jednotky v kontextu. Ale: Jak velký má být kontext? (vzdálenost slov) V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) Cvičení: srovnejte kolokáty sloves na pozici 1R mhouřit, číst, cvičit, vylézt... co nám to říká? Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves Jak to udělat, když není korpus syntakticky anotován?

11 Statistická významnost souvýskytu
Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) MI score, T-score, abs./rel. frekvence Rozdíl MI score a T-Score (porovnejte): Damoklův meč, Ariadnina nit, muří noha veřejné mínění, vzdušný prostor volské oko

12 Kolokační paradigma - analýza
Kolokační paradigma (pozice -1) řídké slovo: useň středně běžné slovo: proutek běžné slovo: nemoc porovnání synonym: nemoc vs. choroba porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)

13 Komplexní analýza kolokací
průkaz – legitimace – průkazka adjektivní doplnění: občanský průkaz substantivní doplnění: průkaz pojištěnce valence: průkaz + PREP. polysémie


Stáhnout ppt "Korpusová lingvistika (4) Základy korpusové statistiky"

Podobné prezentace


Reklamy Google