Kontingenční tabulky Závislost dvou kvalitativních proměnných.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Neparametrické metody
Testování parametrických hypotéz
Testování hypotéz Jana Zvárová
Testování neparametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování hypotéz Distribuce náhodných proměnných
Testování statistických hypotéz
Test dobré shody 2 test.
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
4EK211 Základy ekonometrie Autokorelace Cvičení /
Analýza variance (Analysis of variance)
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Regresní analýza a korelační analýza
Princip testování hypotéz, c2 testy.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Data s diskrétním rozdělením
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
Kontingenční tabulky.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Princip testování hypotéz, c2 testy.
2. Vybrané základní pojmy matematické statistiky
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Odhady odhady bodové a intervalové odhady
INDUKTIVNÍ STATISTIKA
Statistické testování – základní pojmy
Test dobré shody Fisherův přesný test McNemar test
Induktivní statistika
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Kontingenční tabulky Závislost dvou kvalitativních proměnných

Příklady problémů Závisí přežití osoby vyslané do tropů do cholerické oblasti na tom, zda byla dotyčná osoba očkovaná proti choleře? Je nějaká souvislost mezi barvou vlasů a pohlavím osoby. Je výskyt dvou druhů parazitů vzájemně nezávislý?

Kontingenční tabulka

Závislost přežití na očkování Vzájemná závislost dvou druhů

Vztah dvou kvalitativních proměnných v tabulce jak v případě, že je jedna z proměnných manipulovaná tak v případě, že jedna z proměnných je zřejmě příčinou a druhá důsledkem, ale jedná se o pozorování tak i v případě, že se jedná o dvě stejnocenné proměnné

Základní pravidla z teorie pravděpodobnosti Pravděpodobnost společného výskytu dvou nezávislých jevů Pi,j = Pi . Pj Příklad: V populaci je polovina samců (Psamec=0,5) a jedna desetina všech individuí jsou albíni (Palbín =0,1). Pokud jsou albíni stejně zastoupeni mezi oběma pohlavími (tj. albinismus a pohlaví jsou nezávislé jevy), pak pravděpodobnost, že náhodně vybrané individuum je albinotický samec je Psamec . Palbín 0,5 . 0,1 =0,05

Základní pravidla z teorie pravděpodobnosti Očekávaný počet úspěchů E(a) z n pokusů, kde pravděpodobnost úspěchu je Pa je E(a)=Pa . n Příklad: Pravděpodobnost výskytu mutace je 0,02 - mezi 100 náhodně vybranými jedinci očekáváme dva jedince nesoucí danou mutaci

Jak spočteme 2 ? A jak získáme očekávané hodnoty? H0 praví - jevy jsou nezávislé - takže pomocí pravděpodobnosti společného výskytu dvou nezávislých jevů.

Výpočet očekávaných hodnot Pomocí marginálních součtů Pi. = Ri /n P.j = Cj / n Pij=Pi.P.j, E (fij) = Pij . n = (Ri / n) . (Cj / n) . n = Ri . Cj / n

Co potřebuji znát, abych znal celý výsledek pokusu (při daných marginálních četnostech?) df = (c-1) . (r - 1) počet řádků počet sloupců

Kritická hodnota na 5% hladině významnosti při df=3.

Nyní spíše Tahle plocha je 0,029, takže píšeme 2 =8,99, df=3, P=0,029

I tady se někdy (když jsou extrémně nízké očekávané četnosti) používá Yatesova korekce lepší ochrana proti chybě 1, druhu, ale slabší test

Jiné testové kriterium, ale také s 2 rozdělením tzv. 2 likelihood ratio (LR)

Vychází podobně “Normální” 2 =8,99

Čtyřpolní tabulky Všimněte si, že pro tabulku nulové hypotézy platí ad = bc

Když prezentuji výsledky kontingenčních tabulek Nestačí napsat, že výsledek je průkazný Vždy je třeba i uvést, kterým směrem jde odchylka od H0 Nestačí tedy, že očkování má vliv, ale důležité je, že chrání před infekcí (i kdyby zvyšovalo pravděpodobnost infekce, H0 bychom zamítali) obvykle se uvádějí procenta marginálních četností, tj. z očkovaných v tropech přežilo 95%, z neočkovaných 55%.

Statistická a kauzální závislost Kauzální závislost můžu přímo prokázat jen manipulativním experimentem Pro “správný” experiment musí být „očkováni“ všichni, ale půlka dostane jen placebo (srov. co lze a co chce statistika).

Zásady experimentátora Každý zásah musí mít kontrolu Kontrola se liší od zásahu pouze tím, čeho vliv chci prokázat (často je to velmi obtížné) Pro všechno musím mít nezávislá opakování

Výhody experimentu a observační studie Experimentem prokážu kauzalitu Rozsah experimentálních manipulací je vetšinou omezený Skoro každý experimentální zásah má vedlejší účinky, často nepředvídané

Fisherův exaktní text Jaká je pravděpodobnost, že tuto, nebo ještě více odlišnou tabulku dostanu za daných marginálních četností (za předpokladu, že nulová hypotéza platí, spočteno pomocí kombinatoriky). Používá se pro čtyřpolní tabulku při nízkých počtech pozorování.

Mám-li tabulku Potom Fisherův test přímo spočítá pravěpodobnost této tabulky, a všech (z hlediska H0) extrémnějších, tj. Součet všech těchto pravděpodobností je dosaženou hladinou významnosti pro jednostranný test (proto statistika také tiskne 2*p)

Srovnejme dvě tabulky: 2 i síla testu roste s počtem pozorování - přitom jsou obě tabulky velmi pravděpodobně výběrem ze stejného základního souboru

Míry síly vazby ve čtyřpolní tabulce - nezávislé na velikosti výběru Y = ad/bc =f11f22 / f21f12 - nevýhoda - od 0 pro zápornou vazbu, po 1 pro nezávislost, do + nekonečno pro kladnou vazbu od -1 přes 0 pro nezávislost do + 1; -1 a + 1 (maximální možné vazby pro dané hodnoty marg. četností) od -1 přes 0 pro nezávislost do + 1; -1 a + 1 (maximální možné vazby pro jakékoliv hodnoty marg. četností)

Vícerozměrné kontingenční tabulky Dnes se pro stejný účel častěji užívají zobecněné lineární modely