Korpusová lingvistika (4) Základy korpusové statistiky

Slides:



Advertisements
Podobné prezentace
Statistické funkce v tabulkovém kalkulátoru Excel MS
Advertisements

Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Testování neparametrických hypotéz
Využití korpusů v překladatelské praxi II
Testování statistických hypotéz
Korpusová lingvistika (2)
CJBB84 1 ZPK CJBB75 čtvrtek G
CJBB84 1 GAK CJBB CJBB84 2 Využití morfologických vlastností českého slovesa při formulaci dotazu při vyhledávání deverbativ od tvaru od.
„EU peníze středním školám“
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Testování závislosti kvalitativních znaků
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Tloušťková struktura porostu
Obsah statistiky Jana Zvárová
Barva zvuku Veronika Kučerová.
Škola: Střední škola právní – Právní akademie, s.r.o. Typ šablony: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Projekt: CZ.1.07/1.5.00/
Korpusová lingvistika (6) Kolokace
Řízení a supervize v sociálních a zdravotnických organizacích
Odhady parametrů základního souboru
CJBB75 1 ZPK CJBB75 čtvrtek G
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Zkvalitnění kompetencí pedagogů ISŠ Rakovník IV/2 Inovace a zkvalitnění výuky směřující k rozvoji matematické gramotnosti žáků středních škol Integrovaná.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Charakteristiky variability
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Základy zpracování geologických dat
INFORMATIKA 9 MS Excel III. III2 – I ANOTACE Materiál obsahuje prezentaci ve formátu Microsoft PowerPoint (.ppt) pro učivo v předmětu Informatika,
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
K sémantice základních číslovek Alena Poncarová 13-14/V 2011.
CJBB CJBB75.
Generování náhodných čísel
CJBB75 1 ZPK CJBB75 středa G
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
PSY717 – statistická analýza dat
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
1. cvičení
Sociální patologie SCPT SCPA
Inferenční statistika - úvod
CJBB75 Základy využití korpusu pro praxi st G13.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základní informace o předmětu1. Přednášející: RNDr. Martin Hála, CSc. katedra matematiky, B105, Další informace a soubory ke stažení.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Statistika nuda je... ? Úkol č. 1: Dobu, po kterou bude znít píseň „Statistika“ autorů Jaroslava Uhlíře a Zdeňka Svěráka (cca 2 min 05 s), máte na rozbor.
Neparametrické testy  neparametrické pořadové testy  Chí-kvadrát kontingenční tabulky test dobré shody.
… jsou bohatší lidé šťastnější?
Ukládání dat biodiverzity a jejich vizualizace
Výpočty ve statistice – test k procvičení
Zdeněk Dorazil, Veronika Fojtů, Nela Schmidtová, Tereza Pospíšilová
Induktivní statistika - úvod
KIV/ZD cvičení 4 Tomáš Potužák.
Indexní analýza Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Normální rozložení Intervalová/poměrová proměnná
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Induktivní statistika
Spojitá a kategoriální data Základní popisné statistiky
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Neparametrické testy pro porovnání polohy
Analýza kardinálních proměnných
Úvod do korpusové lingvistiky 3
Autor: Honnerová Helena
7. Kontingenční tabulky a χ2 test
Rozložení nadpisu Podnadpis.
Induktivní statistika
Základy statistiky.
Transkript prezentace:

Korpusová lingvistika (4) Základy korpusové statistiky Jan Radimský FF JU České Budějovice

Základy korpusové statistiky: četnost slov Statistické metody se v lingvistice objevují teprve s nástupem elektronických korpusů Výchozí bod: frekvence (četnost výskytu) jednotlivých slov frekvence = počet výskytů (absolutní fq.) slovo = tvar n. lemma... př.: jakou fq. má tvar / lemma „tužka“ v SYN2005? Frekvence slovních druhů Kolik je sloves v korpusu Orwell? (malý korpus = rychlejší výsledky) token / type Bonito: Konkordance – Statistiky – Frekvenční distribuce Frekvenční seznam rank (pozice ve fq. seznamu)

Zipfovy zákony George Kingsley Zipf: frekvenční distribuce slov v jakémkoli textu má podobný tvar vztah: frekvence – rank vztah: počet lemmat – frekvence Několik málo slov (funkční slova) má velmi vysokou frekvenci Velmi mnoho slov má minimální frekvenci „Hapax legomenon“ (pl. hapax legomena) Vpravo: ilustrace Zipfova zákona (podle Enciclopedia dell’italiano, s. 1400)

Samostatný úkol... Zipfovy zákony Analýza frekvenčního seznamu sloves z korpusu „Orwell“ Zkopírujte si frekvenční seznamu do tabulkového kalkulátoru („Excel“ a spol.) Kolik sloves (tj. lemmat / type) má frekvenci 1,2,3? (Vyjádřeno absolutně a v procentech) Kolik výskytů mají všechna slovesa dohromady? (tj. všechny tvary, token) Kolik z toho připadá na 5 nejfrekventovanějších sloves?

Hapaxy Proč mají některá slova extrémně vysokou / nízkou frekvenci? Hapaxy (tag=N) Syn 2005: vemeň, kafeteria, evangelistář, Hutníková, fěrtoch... Orwell: finesa, nepohodlí, předvolání, brach, kuropění... Nejfrekventovanější N Syn 2005: rok, člověk, den, doba, strana, život, země, dítě, místo, ruka, svět, práce, město, žena, muž... Orwell: Winston, člověk, strana, slovo, tvář, rok, O’Brien, ruka, oko, obrazovka, válka... Co vyčteme ze seznamu hapaxů a frekventovaných slov? Pokud porovnáváme dva korpusy...

Srovnávání frekvencí: relativní četnost (frekvence) Hypotéza: Lemma „internet“ bude mít v korpusu Syn2009PUB vyšší četnost, než v SYN2000, protože po r. 2000 se o Internetu psalo v novinách více... Ověření této hypotézy Absolutní fq. lemmatu „internet“ v obou korpusech: f(x) Relativní fq. v obou korpusech vyjádřená v procentech: fR(x)=f(x) / N , kde N je velikost korpusu vyjádřená např. v počtu výskytů na 1M slov (totéž, ale lze si to lépe představit)

Srovnání fq. lemmatu „internet“ Syn2000 Syn2009PUB f(x) 9506 104000 N 100000000 700000000 fR(x) 0,00009506 0,000148571 fR(x) na 1M slov 95,06 148,5714286 Mohu udělat závěr, že lemma „internet“ je v korpusu Syn2009PUB 1,5x častější než v korpusu Syn2000? Mohu tento závěr aplikovat na výchozí hypotézu? Nikoli: je třeba vzít v úvahu rozdílné složení obou korpusů: Syn2000 obsahuje kromě publicistiky i další typy textů! Zkontrolujte rozložení tohoto lemmatu v korpusu (konkordance-statistiky-rozložení) Navrhněte, jak toto ve výpočtu zohlednit pokud se „internet“ vyskytuje v SYN2000 i jinde než v publicistických textech (a má v korpusu rovnoměrné rozložení) pokud se vyskytuje pouze v publicistice

... Výsledky pro normální rozložení v korpusu Ne-publicistika tvoří 40% korpusu SYN2000 Těchto 40% odečtu od fR i od velikosti korpusu Výsledek.... Syn2009PUB Syn2000 Syn2000 "PUB" f(x) 104000 9506 5703,6 N 700000000 100000000 60000000 fR(x) 0,000148571 0,00009506 fR(x) na 1M slov 148,5714286 95,06

Výsledky pro případ, že „internet“ je pouze v publicistice Velikost korpusu Syn2000 je 100 M, ale moje výskyty jsou koncentrované pouze v 60% korpusu ! Počet výskytů zůstává Velikost korpusu snížíme o 40% Výsledek... výchozí hypotéza je jednoznačně vyvrácena Syn2009PUB Syn2000 Syn2000 upravený f(x) 104000 9506 N 700000000 100000000 60000000 fR(x) 0,000148571 0,00009506 0,000158433 fR(x) na 1M slov 148,5714286 95,06 158,4333333

Souvýskyt dvou jednotek Druhá oblast aplikace statistiky: souvýskyt dvou jednotek Jedná se vždy o jednotky v kontextu. Ale: Jak velký má být kontext? (vzdálenost slov) V jakých jednotkách má být určen kontext? (pořadí slov, pevná / pružná vzdálenost, lematizace...) Cvičení: srovnejte kolokáty sloves na pozici 1R mhouřit, číst, cvičit, vylézt... co nám to říká? Vyhledejte substantiva, která jsou pravovalenčním doplněním těchto sloves Jak to udělat, když není korpus syntakticky anotován?

Statistická významnost souvýskytu Lze statisticky odhadnout, jestli se dvě slova vyskytují spolu „náhodně“, nebo „nápadně často“ lemma „mhouřit“ – konkordance, statistiky, kolokace (od -5 do +5) MI score, T-score, abs./rel. frekvence Rozdíl MI score a T-Score (porovnejte): Damoklův meč, Ariadnina nit, muří noha veřejné mínění, vzdušný prostor volské oko

Kolokační paradigma - analýza Kolokační paradigma (pozice -1) řídké slovo: useň středně běžné slovo: proutek běžné slovo: nemoc porovnání synonym: nemoc vs. choroba porovnání kolokátů na pozici -1 v kontingenční tabulce (parametry: abs.fq., rel.fq., MI-score, T-score)

Komplexní analýza kolokací průkaz – legitimace – průkazka adjektivní doplnění: občanský průkaz substantivní doplnění: průkaz pojištěnce valence: průkaz + PREP. polysémie