9. Analýza kategorických dat APS100041 Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat
chí-kvadrát test dobré shody ověřuje shodu empirické distribuce s teoretickou (očekávanou/předpokládanou) zjistit potřebujeme pouze, co je (kolik je) „očekávaná četnost“ (expected count – EC) obecně jde o „model“, jenž srovnáme s realitou zajímá nás „jak moc“ se pozorované četnosti liší od očekávaných
Distribuce u různých df https://www.khanacademy.org/math/probability/statistics-inferential/chi-square/v/chi-square-distribution-introduction
Příklad v populaci následující zastoupení: můj vzorek: zdraví: 70%, neurotici: 20%, psychotici: 10% můj vzorek: zdraví 50, neurotici 30, psychotici 10 liší se můj vzorek signifikantně ve složení dle daného kritéria? jak budeme postupovat?
Postup nejdřív zjistíme očekávané četnosti jednotlivých kategorií kdyby platila nulová hypotéza – jak v tomto případě zní? EC = rel. četnost v populaci * N mého vzorku tj. 0,7*90 = 63; 0,2*90 = 18; 0,1*90 = 9 zbytek je pouhá mechanika – dosazujeme do vzorce... chi2 = 10,79 p < 0,01
Analýza vztahů kategorických dat chí-kvadrát test nezávislosti analyzujeme počty (frekvence) v určitých kombinacích kategorií pohlaví / odpověď: počet mužů odpovídajících „ano“, počet žen odpovídajících „ano“, počet mužů odpovídajících „ne“, počet žen odpovídajících „ne“ podobně jako test dobré shody, pouze výpočet očekávaných četností je mírně specifický
Chí-kvadrát test nezávislosti základní technika pro zkoumání vztahů mezi dvěma kategorickými (=nominální/ordinální) proměnnými více proměnných –> mnohorozměrné KT (loglineární analýza) převod škálových na kategorické – bining (bin = přihrádka) a) hypotéza o existenci vztahu b) určení síly vztahu
každý jednotlivec může být klasifikován dle proměnné A a B výchozí předpoklad stochastické nezávislosti (pokud např. A kontrolujeme (=cíleně vybíráme osoby s danou hodnotou A), nazývá se A faktor pak místo nezávislosti předpoklad homogenity – početně ale stejné) jako obvykle – požadavek náhodného výběru/randomizace
Obecná r x c kont. tab. výpočet EC výpočet chí-kvadrát (E = Expected Count, očekávaná četnost, n = Observed Count, zjištěná četnost)
Výpočet očekávaných četností Teorie: předpokladem je, že X a Y jsou na sobě nezávislé, tj: H0: P(X=i,Y=j) = P(X=i) . P(Y=j) (hypotéza nezávislosti X, Y) (i a j jsou možné hodnoty první a druhé proměnné) HA: nonH0 P(X=i,Y=j) ≠ P(X=i).P(Y=j) alespoň pro jednu kombinaci i, j
Příklad reportu Mezi typem tréninku a chováním byl zjištěn signifikantní vztah, 2 (1) = 25,36; p < 0,001.
Předpoklady dostatečné očekávané četnosti tj. max. 20% buněk s očekávanou četností menší než 5 25% buněk s OČ menší než 4,5 - X 15% buněk s OČ menší než 3 - OK žádná OČ nesmí být menší než 1 pokud je splněno, pak má vypočtená statistika přibližně 2 distribuci a můžeme test použít nezávislost buněk (tj. každá osoba může být jen v jedné buňce)
Adjustované standardizované reziduály OČ – EČ = reziduál (OČ – EČ)/sqrt(OČ) = standardizovaný reziduál to je stejný výraz jako ze vzorce na výpočet chí-kvadrátu! (jen neumocňujeme) adjustované std. reziduály ještě berou v potaz marginální proporce (vzorec není důležitý) interpretace – jako z-skór hledáme reziduály s absolutní hodnotou větší než 2 (zaokrouhleno z 1,96)
Analýza závislosti rozdělení výsledku atestace (1 – výborně, P – prospěl, N – neprospěl) na oboru studia (O_S) (A, B, C)
Tvrzení (P/N/nelze) Hypotézu nezávislosti můžeme zamítnout na 1% hladině významnosti Jednička se u studentů oboru A vyskytuje s vyšší pravděpodobností než u zbývajících oborů Extrémně nízký počtu osob (3) v kategorii (A * N) nedovoluje použít chí-kvadrát test nezávislosti Očekávané četnosti jsou dostatečně veliké pro možnost užití chí-kvadrát testu Pravděpodobnost klasifikace „NEPROSPĚL“ je u studentů oboru B vyšší než u studentů oboru A Hypotézu stejné distribuce výsledku atestace u oborů A a B nelze zamítnout U této atestace (bez ohledu na obor) se výsledek „N“ vyskytuje s nižší pravděpodobností než výsledek „1“
Různé testy chí-kvadrát test Fisherův exaktní test McNemar dostatečné N Fisherův exaktní test malé N, 2x2 tabulka „Lady tasting tea“ - The lady in question claimed to be able to tell whether the tea or the milk was added first to a cup. Fisher proposed to give her eight cups, four of each variety, in random order. One could then ask what the probability was for her getting the number she got correct, but just by chance. McNemar závislá data, 2x2 tabulka
Fisherův přesný (exact) test u malých N – ale pouze 2x2 alternativně chí-kvadrát s Yatesovou korekcí přehnaně konzervativní
McNemar H0: pc = pb předpoklad: (b + c) > 25, pak statistika má 2 distribuci s 1 df
Cramerovo V chí-kvadrát -> existuje vztah? Cramerovo V -> jak silný je to vztah? hodnoty (0;1), 1 = silný vztah, 0 = žáden
Odds ratio nebo-li „poměr šancí“ co je šance? běžně se zaměňuje s pravděpodobností, ale zatímco p(A) = počet A / počet všech jevů, pro šancí platí odd(A) = počet A / počet ne-A
Příklad šance (R|Kouří) = 688/650 = 1,06 Rakovina Kontrolní skupina Kuřáci 688 650 Nekuřáci 21 59 (Doll and Hill, British Med. J, 1950, 739-748) šance (R|Kouří) = 688/650 = 1,06 šance (R|Nekouří) = 21/59 = 0,356 poměr šancí = 1,06/ 0,356 = 2,97 kuřák má 3x větší šanci mít rakovinu pacient s rakovinou má 3x větší šanci být kuřák