Kontingenční tabulky Závislost dvou kvalitativních proměnných
Příklady problémů Závisí přežití osoby vyslané do tropů do cholerické oblasti na tom, zda byla dotyčná osoba očkovaná proti choleře? Je nějaká souvislost mezi barvou vlasů a pohlavím osoby. Je výskyt dvou druhů parazitů vzájemně nezávislý?
Kontingenční tabulka
Závislost přežití na očkování Vzájemná závislost dvou druhů
Vztah dvou kvalitativních proměnných v tabulce jak v případě, že je jedna z proměnných manipulovaná tak v případě, že jedna z proměnných je zřejmě příčinou a druhá důsledkem, ale jedná se o pozorování tak i v případě, že se jedná o dvě stejnocenné proměnné
Základní pravidla z teorie pravděpodobnosti Pravděpodobnost společného výskytu dvou nezávislých jevů Pi,j = Pi . Pj Příklad: V populaci je polovina samců (Psamec=0,5) a jedna desetina všech individuí jsou albíni (Palbín =0,1). Pokud jsou albíni stejně zastoupeni mezi oběma pohlavími (tj. albinismus a pohlaví jsou nezávislé jevy), pak pravděpodobnost, že náhodně vybrané individuum je albinotický samec je Psamec . Palbín 0,5 . 0,1 =0,05
Základní pravidla z teorie pravděpodobnosti Očekávaný počet úspěchů E(a) z n pokusů, kde pravděpodobnost úspěchu je Pa je E(a)=Pa . n Příklad: Pravděpodobnost výskytu mutace je 0,02 - mezi 100 náhodně vybranými jedinci očekáváme dva jedince nesoucí danou mutaci
Jak spočteme 2 ? A jak získáme očekávané hodnoty? H0 praví - jevy jsou nezávislé - takže pomocí pravděpodobnosti společného výskytu dvou nezávislých jevů.
Výpočet očekávaných hodnot Pomocí marginálních součtů Pi. = Ri /n P.j = Cj / n Pij=Pi.P.j, E (fij) = Pij . n = (Ri / n) . (Cj / n) . n = Ri . Cj / n
Co potřebuji znát, abych znal celý výsledek pokusu (při daných marginálních četnostech?) df = (c-1) . (r - 1) počet řádků počet sloupců
Kritická hodnota na 5% hladině významnosti při df=3.
Nyní spíše Tahle plocha je 0,029, takže píšeme 2 =8,99, df=3, P=0,029
I tady se někdy (když jsou extrémně nízké očekávané četnosti) používá Yatesova korekce lepší ochrana proti chybě 1, druhu, ale slabší test
Jiné testové kriterium, ale také s 2 rozdělením tzv. 2 likelihood ratio (LR)
Vychází podobně “Normální” 2 =8,99
Čtyřpolní tabulky Všimněte si, že pro tabulku nulové hypotézy platí ad = bc
Když prezentuji výsledky kontingenčních tabulek Nestačí napsat, že výsledek je průkazný Vždy je třeba i uvést, kterým směrem jde odchylka od H0 Nestačí tedy, že očkování má vliv, ale důležité je, že chrání před infekcí (i kdyby zvyšovalo pravděpodobnost infekce, H0 bychom zamítali) obvykle se uvádějí procenta marginálních četností, tj. z očkovaných v tropech přežilo 95%, z neočkovaných 55%.
Statistická a kauzální závislost Kauzální závislost můžu přímo prokázat jen manipulativním experimentem Pro “správný” experiment musí být „očkováni“ všichni, ale půlka dostane jen placebo (srov. co lze a co chce statistika).
Zásady experimentátora Každý zásah musí mít kontrolu Kontrola se liší od zásahu pouze tím, čeho vliv chci prokázat (často je to velmi obtížné) Pro všechno musím mít nezávislá opakování
Výhody experimentu a observační studie Experimentem prokážu kauzalitu Rozsah experimentálních manipulací je vetšinou omezený Skoro každý experimentální zásah má vedlejší účinky, často nepředvídané
Fisherův exaktní text Jaká je pravděpodobnost, že tuto, nebo ještě více odlišnou tabulku dostanu za daných marginálních četností (za předpokladu, že nulová hypotéza platí, spočteno pomocí kombinatoriky). Používá se pro čtyřpolní tabulku při nízkých počtech pozorování.
Mám-li tabulku Potom Fisherův test přímo spočítá pravěpodobnost této tabulky, a všech (z hlediska H0) extrémnějších, tj. Součet všech těchto pravděpodobností je dosaženou hladinou významnosti pro jednostranný test (proto statistika také tiskne 2*p)
Srovnejme dvě tabulky: 2 i síla testu roste s počtem pozorování - přitom jsou obě tabulky velmi pravděpodobně výběrem ze stejného základního souboru
Míry síly vazby ve čtyřpolní tabulce - nezávislé na velikosti výběru Y = ad/bc =f11f22 / f21f12 - nevýhoda - od 0 pro zápornou vazbu, po 1 pro nezávislost, do + nekonečno pro kladnou vazbu od -1 přes 0 pro nezávislost do + 1; -1 a + 1 (maximální možné vazby pro dané hodnoty marg. četností) od -1 přes 0 pro nezávislost do + 1; -1 a + 1 (maximální možné vazby pro jakékoliv hodnoty marg. četností)
Vícerozměrné kontingenční tabulky Dnes se pro stejný účel častěji užívají zobecněné lineární modely