Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

APS100041 Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat.

Podobné prezentace


Prezentace na téma: "APS100041 Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat."— Transkript prezentace:

1 APS Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat

2 chí-kvadrát test dobré shody ověřuje shodu empirické distribuce s teoretickou (očekávanou/předpokládanou) zjistit potřebujeme pouze, co je (kolik je) „očekávaná četnost“ (expected count – EC) – obecně jde o „model“, jenž srovnáme s realitou – zajímá nás „jak moc“ se pozorované četnosti liší od očekávaných

3 Distribuce u různých df

4 Příklad v populaci následující zastoupení: – zdraví: 70%, neurotici: 20%, psychotici: 10% můj vzorek: – zdraví 50, neurotici 30, psychotici 10 liší se můj vzorek signifikantně ve složení dle daného kritéria? jak budeme postupovat? 4

5 Postup nejdřív zjistíme očekávané četnosti jednotlivých kategorií – kdyby platila nulová hypotéza – jak v tomto případě zní? EC = rel. četnost v populaci * N mého vzorku – tj. 0,7*90 = 63; 0,2*90 = 18; 0,1*90 = 9 zbytek je pouhá mechanika – dosazujeme do vzorce... 5

6 Analýza vztahů kategorických dat chí-kvadrát test nezávislosti analyzujeme počty (frekvence) v určitých kombinacích kategorií – pohlaví / odpověď: počet mužů odpovídajících „ano“, počet žen odpovídajících „ano“, počet mužů odpovídajících „ne“, počet žen odpovídajících „ne“ podobně jako test dobré shody, pouze výpočet očekávaných četností je mírně specifický

7 Chí-kvadrát test nezávislosti základní technika pro zkoumání vztahů mezi dvěma kategorickými (=nominální/ordinální) proměnnými – více proměnných –> mnohorozměrné KT (loglineární analýza) – převod škálových na kategorické – bining (bin = přihrádka) a) hypotéza o existenci vztahu b) určení síly vztahu

8 každý jednotlivec může být klasifikován dle proměnné A a B – výchozí předpoklad stochastické nezávislosti – (pokud např. A kontrolujeme (=cíleně vybíráme osoby s danou hodnotou A), nazývá se A faktor pak místo nezávislosti předpoklad homogenity – početně ale stejné) – jako obvykle – požadavek náhodného výběru/randomizace

9 Obecná r x c kont. tab. výpočet EC výpočet chí-kvadrát (E = Expected Count, očekávaná četnost, n = Observed Count, zjištěná četnost)

10 Výpočet očekávaných četností Teorie: předpokladem je, že X a Y jsou na sobě nezávislé, tj: H 0 : P(X=i,Y=j) = P(X=i). P(Y=j) – (hypotéza nezávislosti X, Y) – (i a j jsou možné hodnoty první a druhé proměnné) H A :nonH 0  P(X=i,Y=j) ≠ P(X=i).P(Y=j) – alespoň pro jednu kombinaci i, j 10

11 Příklad reportu Mezi typem tréninku a chováním byl zjištěn signifikantní vztah,  2 (1) = 25,36; p < 0,001.

12 Předpoklady dostatečné očekávané četnosti – tj. max. 20% buněk s očekávanou četností menší než 5 25% buněk s OČ menší než 4,5 - X 15% buněk s OČ menší než 3 - OK – žádná OČ nesmí být menší než 1 pokud je splněno, pak má vypočtená statistika přibližně  2 distribuci a můžeme test použít nezávislost buněk – (tj. každá osoba může být jen v jedné buňce) 12

13 Adjustované standardizované reziduály OČ – EČ = reziduál (OČ – EČ)/sqrt(OČ) = standardizovaný reziduál – to je stejný výraz jako ze vzorce na výpočet chí- kvadrátu! (jen neumocňujeme) adjustované std. reziduály ještě berou v potaz marginální proporce – (vzorec není důležitý) interpretace – jako z-skór – hledáme reziduály s absolutní hodnotou větší než 2 (zaokrouhleno z 1,96) 13

14 Analýza závislosti rozdělení výsledku atestace (1 – výborně, P – prospěl, N – neprospěl) na oboru studia (O_S) (A, B, C)

15 Tvrzení (P/N/nelze) Hypotézu nezávislosti můžeme zamítnout na 1% hladině významnosti Jednička se u studentů oboru A vyskytuje s vyšší pravděpodobností než u zbývajících oborů Extrémně nízký počtu osob (3) v kategorii (A * N) nedovoluje použít chí-kvadrát test nezávislosti Očekávané četnosti jsou dostatečně veliké pro možnost užití chí- kvadrát testu Pravděpodobnost klasifikace „NEPROSPĚL“ je u studentů oboru B vyšší než u studentů oboru A Hypotézu stejné distribuce výsledku atestace u oborů A a B nelze zamítnout U této atestace (bez ohledu na obor) se výsledek „N“ vyskytuje s nižší pravděpodobností než výsledek „1“

16 Různé testy chí-kvadrát test – dostatečné N Fisherův exaktní test – malé N, 2x2 tabulka – „Lady tasting tea“ - The lady in question claimed to be able to tell whether the tea or the milk was added first to a cup. Fisher proposed to give her eight cups, four of each variety, in random order. One could then ask what the probability was for her getting the number she got correct, but just by chance. McNemar – závislá data, 2x2 tabulka

17 Fisherův přesný (exact) test u malých N – ale pouze 2x2 alternativně chí-kvadrát s Yatesovou korekcí – přehnaně konzervativní

18 McNemar H 0 : p c = p b předpoklad: (b + c) > 25, pak statistika má  2 distribuci s 1 df

19 Cramerovo V chí-kvadrát -> existuje vztah? Cramerovo V -> jak silný je to vztah? – hodnoty (0;1), 1 = silný vztah, 0 = žáden

20 Odds ratio nebo-li „poměr šancí“ co je šance? – běžně se zaměňuje s pravděpodobností, ale zatímco p(A) = počet A / počet všech jevů, pro šancí platí odd(A) = počet A / počet ne-A

21 Příklad RakovinaKontrolní skupina Kuřáci Nekuřáci (Doll and Hill, British Med. J, 1950, ) šance (R|Kouří) = 688/650 = 1,06 šance (R|Nekouří) = 21/59 = 0,356 poměr šancí = 1,06/ 0,356 = 2,97 kuřák má 3x větší šanci mít rakovinu pacient s rakovinou má 3x větší šanci být kuřák


Stáhnout ppt "APS100041 Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat."

Podobné prezentace


Reklamy Google