Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Testování hypotéz Jana Zvárová
Testování neparametrických hypotéz
Testování hypotéz.
Test dobré shody 2 test.
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Základy informatiky přednášky Kódování.
P‑value ano, či ne? Roman Biskup
t-rozdělení, jeho použití
Hodnocení krajinných změn, příklad z ČR
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
Číselné soustavy david rozlílek ME4B
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
9. Analýza kategorických dat
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Statistická analýza únavových zkoušek
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Matematické metody v ekonomice a řízení II 4. Metoda PERT
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
Kontingenční tabulky.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Experimentální fyzika I. 2
Zadání srovnávací studie. Postup srovnávací studie  Vybereme si téma  Formulujeme si cíl – cílovou otázku  Vyhledáme literaturu – dvě odborné knihy.
Práce s výsledky statistických studií
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Počítačová chemie (5. přednáška)
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
(Popis náhodné veličiny)
Jak statistika dokazuje závislost
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
TEST DOBRÉ SHODY A TEST NEZÁVISLOSTI Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
… jsou bohatší lidé šťastnější?
INDUKTIVNÍ STATISTIKA
Test dobré shody Fisherův přesný test McNemar test
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
Škola: Základní škola Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace MATEMATIKA A JEJÍ APLIKACE, MATEMATIKA, ČÍSLO A PROMĚNNÁ PRAVIDLA.
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Náhodné výběry a jejich zpracování
Testování hypotéz - pojmy
NÁZEV: VY_32_INOVACE_02_15_M7_Hanak TÉMA: Celá čísla
Transkript prezentace:

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd. Jiří Milička Ústav srovnávací jazykovědy FF UK

Úvod Definice nejsou libovolné Systém klasifikován obvykle tak aby: A) konvenoval lidské mysli B) daly se dobře testovat hypotézy

Kvaternity Tedy rozdělení podle dvou nezávislých distinktivních rysů Teplý Studený Vlhký Vzduch Voda Suchý Oheň Země Tedy rozdělení podle dvou nezávislých distinktivních rysů

V lingvistice Oblíbenost „binárních opozic“ v PLKu se časově shoduje s X2 a s Fisherovým testem Přesto Fisherův test v lingvistice příliš nezdomácněl SYN 2010 Oral 2008 Bychom 23072 52 Bysme 803 477

SYN 2010 Oral 2008 Bychom 23072 52 Bysme 803 477 Naivní interpretace: bysme je v mluveném jazyce běžnější než bychom, v psaném je tomu obráceně. – co když je to náhoda? Statisticky testovatelná interpretace: pravděpodobnost, že příslušnost k těmto dvěma korpusům neovlivňuje distribuci bychom / bysme je menší než 0.00001 (podle Fisherova testu) Co když nám to nestačí?

Fisherův test a chí kvadrát nám nestačí i v mnoha jiných případech Jak se vyskytuje slovo ona v levém bezprostředním okolí okolí slova je (SYN 2010) Pravděpodobnost, že je tahle tabulka náhodná je také menší než 0,00001, což nám ale jenom řekne, že ta slova souvisí, ale neřekne nám to, jak moc Proto je tolik (často ad hoc) metrik pro výpočet „kolokability“ Okolí slova „je“ Okolí jiných slov Slovo „ona“ 730 18640 Jiná slova 1023785 99000000

Fisherův test nám obzvlášť nepomůže, když budeme chtít porovnávat více hodnot – třeba kolokabilitu slova ona s kolokabilitou slova on Bylo by to prostě porovnávání dvou velmi malých čísel, které by nemělo praktický význam – nechci vědět, jak se liší pravděpodobnost, že nemám náhodná data, ale jak se liší distribuce s přihlédnutím k tomu, jestli ta data třeba nejsou náhodná.

Poslední příklad: chci vědět, jak moc je slovo „river“ frekventovanější v románu The last of the mohicans než v románu The Deerslayer p<0,0001 (Fishers exact test) – dobře je to disproporční. Ale jak moc je to disproporční? Mohicans Deerslayer „river“ 53 32 Ostatní slova 146244 213753

Změřeno na milionu náhodně permutovaných multimnožin odpovídajících spojení textů Posledního Mohikána a Lovce jelenů Není všechno normální distribuce, co má zvonovitou křivku.

Model N1….. Celkový počet tokenů v textu 1 f1…… absolutní frekvence daného typu v textu 1

Confidence interval Konfidenční interval (na určité hladině splehlivosti α) Nakousla Karolína na minulém Žďárku Definice: “a confidence interval is an interval in which a measurement or trial falls corresponding to a given probability” (Mathworld) Pro představu:

Confidence level α = 95 %

Horní limit (UL) a dolní limit (LL) konfidenčního intervalu na hladině α. Minimal Ratio (MR): Když spadne naměřená hodnota mezi dolní a horní limit, tak nemůžeme říct, že se liší od předpokládané. Když spadne do intervalu nad horní limit, tak ji budeme porovnávat s horním limitem, když pod spodní limit, tak ji budeme porovnávat s dolním limitem

Vraťme se ke slovu „river“, které má v Posledním Mohikánovi frekvenci 53 a tedy spadá nad horní mez konfidenčního intervalu (44) – nám dokonce spadl mimo graf

Minimální poměr tedy vypočítáme tak, že naměřenou hodnotu podělíme horním limitem konfidenčního intervalu MR(95 %)=53/44= 1,204545

Přesná definice horního limitu UL(α)

Přesná definice dolního limitu LL(α)

Přesná definice minimálního poměru MR(α)

Praktická ukázka (key words) The Last of the Mohicans versus The Deerslayer

Alice's Adventures in Wonderland versus The Last of the Mohicans

Vyjde v Czech and Slovak Linguistic Review: Minimal Ratio: An Exact Metric for Keywords, Collocations etc.

Další literatura Barnard, G. A. (1947). Significance Tests for 2×2 Tables. Biometrika 34 (1/2) pp. 123–138. Fisher, R. A. (1922). On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society, pp. 87–94. Milička, J. (2009). Type-token & Hapax-token Relation: A Combinatorial Model. Glottotheory. International Journal of Theoretical Linguistics 2/1 pp. 99–110. Oakes, M. P. (1998). Statistics for CorpusLinguistics. Edinburgh: Edinburgh University Press. Weisstein, E. W. (2012). Confidence Interval. [online] .Cit 2012-10-28. MathWorld – A Wolfram Web. Resource: http://mathworld.wolfram.com/ConfidenceInterval.html Yates, F. (1984). Tests of Significance for 2 × 2 Contingency Tables. Journal of the Royal Statistical Society. Series A (General) , pp. 426–463.

Děkuji za pozornost!!!