Analýza kvantitativních dat II. UK FHS Historická sociologie (LS 2012+) Analýza kvantitativních dat II. Testování hypotéz (2) Kategoriální znaky: Test dobré shody (Chíkvadrát) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 30/11/2014 ® Jiří Šafr, 2014
OBSAH 1. Princip testování statistických hypotéz 3. Kategoriální data → Chí-kvadrát testy dobré shody: homogenity četností kategorií jedné proměnné asociaci dvou znaků v kontingenční tabulce Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) 4. Souvislosti uvnitř kontingenční tabulky: Adjustovaná residua a znaménkové schéma (poznámky, viz jinou presentaci) 6. Třídění třetího stupně a elaborace vztahů (několik poznámek) 7. Neparametrické testy 8. Webové nástroje pro analýzu Upozornění: Jednou tato presentace bude rozdělena min. do tří (1+2+7; 3+4; 5+6).
Princip testování statistických hypotéz Viz prezentaci http://metodykv.wz.cz/AKD2_hypotezy1.ppt Následuje jen připomenutí toho nejdůležitějšího.
Proč testujeme hypotézy? (statistická indukce) Protože pracujeme (většinou pouze) s výběrovými daty → potřebujeme vědět, zda (a do jaké míry) to, co jsme naměřili ve vzorku platí v celé populaci, tj. zda výsledky ze výběrového souboru lze zobecnit na celou populaci. Zdroj: [Příručka pro sociology 1980: 218-220]
Statistická kritéria a ověřování hypotéz K ověřeni nulové hypotézy se používá specielně zvolená náhodná veličina - statistické kriterium (K), její přesné rozdělení je známé - je v tabulkách. Pro kritérium K se volí kritická oblast - soubor hodnot kritéria, pro něž odmítáme nulovou hypotézu. Bod K je kritický bod (Kkr) tehdy, když odděluje kritickou oblast od oblasti, v níž hypotézu přijímáme. Přijetí/odmítnutí hypotézy provádíme na základě odpovídajícího statistického kriteria s určitou pravděpodobností. Zdroj: [Příručka pro sociology 1980: 218-220]
Statistická kritéria a ověřování hypotéz Předpokládáme, že nulová hypotéza je pravdivá tehdy, jestliže pravděpodobnost toho, že kriterium K bude mít hodnotu vyšší než Kkr tzn. že se bude nacházet v kritické oblasti, se rovná zvolené pravděpodobnosti → hladina významnosti Zdroj: [Příručka pro sociology 1980: 218-220]
Obecný postup přijetí / odmítnutí nulové hypotézy zvolíme odpovídající kritérium (hl. dle typu znaku), vypočítáme pozorovanou hodnotu kriteria KH (vycházíme ze zjištěného empirického rozdělení), zvolíme hladinu statistické významnosti (většinou 0,05 nebo 0,01) Z tabulek rozděleni kritéria K pro danou hladinu významnosti najdeme kritický bod KKR Jestliže: KH > Kkr → nulovou hypotézu H0 odmítáme KH < Kkr → H0 nemůžeme zamítnout. Alternativně pomocí software spočítáme p-hodnotu (viz dále). Tento postup ovšem nelze používat mechanicky, protože …
Statistická hypotéza je tvrzení o rozdělení pozorované náhodné veličiny, např. o rozdělení nějaké statistiky (parametru jako průměr, podíl, rozptyl) náhodného výběru. Pokud rozdělení výběrové statistiky známé, pak lze hypotézu formulovat přímo jako tvrzení o hodnotě parametru příslušného rozdělení (např. že určitá politická strana má podporu 25 %). Hypotéza se týká celého základního souboru, z nějž jsme vybírali (nebo který experimentálně zkoumáme), např. všech dospělých osob v ČR, ale její testování se odehrává pouze na vybraných jedincích, které jsme skutečně zkoumali. Smyslem testování je správně zobecnit z vybrané podmnožiny (výběru) na celek. [Soukup 2010: 79]
Testování statistických hypotéz Z výběrových dat vypočteme testovou statistiku na základě porovnání s kvantily rozdělení této statistiky (za předpokladu platnosti nulové hypotézy) zjistíme, zda je na zvolené hladině spolehlivosti možno nulovou hypotézu zamítnout. [Soukup 2010: 79]
Platnost H0: Testová a kritická hodnota Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0 (→ „rozdíly v populaci nejsou“) K testování hypotéz podrobněji viz [Hendl 2006: 176-188]
Testování hypotéz Statistická hypotéza H0: „žádný rozdíl“ (variabilita v datech je náhodná) → testem hodnotíme sílu dokladu proti tomuto předpokladu H1: alternativní, platí, když neplatí H0 „existence rozdílů / závislosti“ Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je ale pouze konvence. Hodnota významnosti p - pravděpodobnost realizace hodnoty testovací statistiky, pokud platí H0. Dosažená hladina hodnoty p < α ukazuje na neplatnost H0. Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu).
Testování hypotéz Zamítání nulové hypotézy se tedy děje nejčastěji s 5% rizikem, tj. stanovujeme pravděpodobnost zamítání nulové hypotézy při její platnosti v základním souboru na maximální hodnotu 0,05. Protože chybu druhého druhu nemáme jasně pod kontrolou, volíme v případě, že nedokážeme na základě hodnoty testové statistiky zamítnout nulovou hypotézu, opatrný závěr: „nezamítáme H0“ místo závěru „zamítáme H1 a přijímáme H0“. [Soukup 2010: 80]
Normální rozložení ukazující hladinu významnosti α = 0,05 Hladinou významnosti rozumíme pravděpodobnost zamítnutí nulové hypotézy, pakliže ve skutečnosti (v základním souboru-populaci) platí. Pokládat hodnotu za významnou na hladině 0,05 znamená, že má pravděpodobnost 0,05 nebo menší, že se vyskytne na jednom z konců normálního rozložení. Poněvadž je rozložení symetrické, jsou oba konce rozložení stejné a hladina významnosti 0,05 znamená useknutí konců ukázané v grafu → vyšrafovaná plocha je pravděpodobnost 0,05/2 = 0,025. Hladina významnosti 0,05 znamená, že u 100 výběrů bude mít 5 z nich větší než očekávanou hodnotu pozorovaného rozdílu způsobenou náhodně. [Köniová a kol. 1988: 140]
Testování hypotéz - důležité vlastnosti a omezení p-hodnoty nevypovídají nic o síle evidence → mj. jsou závislé na velikosti výběru Nezamítnutí H0 neznamená její důkaz.
Kategoriální data Testování rozložení kategorií u jedné proměnné a asociací v kontingenční tabulce
Kontingenční tabulka a statistické testování Statistické míry a testování Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení Chíkvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.
Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů Pro nominální znaky (i ordinální a kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané-teoretické frekvence lze získat buď z našich dat (u kontingenční tabulky) nebo od jinud, např. z výsledků jiného výzkumu (publikované jako tabulka). Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. Počet stupňů volnosti: df = K -1 K =počet kategorií pro kontingenční tabulku df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce
Testovací kritérium χ2 má rozdělení dle stupňů volnosti Vyzkoušejte na: http://www.stat.tamu.edu/~west/applets/chisqdemo1.html
V zásadě existují dvě aplikace Chíkvadrát testu Test dobré shody = Homogenita četností kategorií v rámci jedné proměnné (nebo obecněji odchylka od očekávané/teoretické četnosti) → One-dimensional "goodness of fit" test Na tom si dále vysvětlíme princip 2. Test nezávislosti 2 znaků → Asociace dvou znaků v kontingenční tabulce (3.) Aplikace One-dimensional "goodness of fit" testu s teoretickými četnostmi „od jinud“ (z jiného výzkumu / teorie) → varianta na 1.
Chíkvadrát test odpovídá na otázku, jsou-li rozdíly mezi empirickými a teoretickými četnostmi (ve výběrových datech) náhodné nebo ne.
Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. Pro nominální znaky (i ordinální a kategorizované kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. (Pozor na to v jakém jazyce vzorec je, anglické a české zkratky znamenají opak: fo může být očekávaná i observed a fe empirická=pozorovaná i expected) Počet stupňů volnosti df = (r-1) (s-1) nebo K - 1 pro jednodim.test r = počet řádků s = počet sloupců v tabulce Nebo také se lze setkat s určením stupňů volnosti df = k - 1 – r, kde k - počet kategorií r - počet parametrů předpokládaného rozdělní, kdy v tabulce třídění 1. stupně je r =2
Obecně: ověřujeme odchylku od očekávané/teoretické četnosti 1. Chí-kvadrát test dobré shody homogenity četností kategorií v rámci jedné proměnné Obecně: ověřujeme odchylku od očekávané/teoretické četnosti Očekávané-teoretické četnosti určujeme buď na základě rozložení v datovém souboru nebo dle „teorie“, např. porovnání s hodnotou z jiného výzkumu
Například: shodné zastoupení kategorií věku 1. Test dobré shody - jednodimenzionální Chí-kvadrát test: Shoda s teoretickými četnostmi Hypotéza o rovnoměrném zastoupení kategorií 1. znaku. Například: shodné zastoupení kategorií věku Pozorované absolutní četnosti kategorií věku (tabulka třídění 1.stupně, absolutní četnosti): 1. Velmi nízký 5 2. Střední 10 3. Vysoký 9 Celkem 24 H0: počet respondentů je ve všech kategoriích stejný Očekávané (teoretické) četnosti = 24 : 3 = 8. Zdroj: [Příručka pro sociology 1980: 221-222]
1. Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku H0: Počet respondentů je ve všech kategoriích stejný. → Ověřujeme model stejných pravděpodobností (equal probabibilities) Příklad. pozorované absolutní četnosti kategorií: Očekávané (teoretické) četnosti = 24 : 3 = 8 → Stejná proporce zastoupení kategorií (33,3 % / 33,3 % / 33,3 %) Pozorované: Očekávané: Vypočítanou hodnotu χ2 porovnáme s kritickou hodnotou z tabulek (viz dále) Zdroj: [Příručka pro sociology 1980: 221-222]
Jednodimenzionální Chí-kvadrát test dobré shody Nulová hypotéza vyjadřuje očekávání, že pozorované a očekávané četnosti se neliší. Určení stupňů volnosti df = k - 1 k - počet kategorií Kritický bod z tabulky statistické významnosti pro hladinu statistické významnosti Alpha 0,05 Pokud vypočítaná χ2 < χ2 kritická hodnota→ nelze zamítnout H0 (= četnosti jsou mezi kategoriemi stejné).
Zpět do příkladu Kritickou hodnotu χ2 najdeme pro v tabulkách pro zvolenou hladinu významnosti α a počtu stupňů volnosti df zde: df = k – 1 kde k počet kategorií znaku a r je počet parametrů předpokládaného rozdělení, které hodnotíme na základě výběrového souboru (např. pro normální rozdělení dva parametry: μ a s2) Zde je to 3 kategorie znaku a 1 parametr (relativ. podíl): df = 3 – 1 = 2 Najdeme tabulkovou kritickou hodnotu χ2krit = 5,991 (viz dále) Protože ta je vyšší než námi naměřená χ2 = 1,74 → rozložení četností odpovídá H0 → nemůžeme H0 zamítnout, tj. rozdíly mezi skupinami v populaci nejsou. Obecně v kontingenční tabulce (pro dva znaky) je počet stupňů volnosti df = (r-1) (s-1) (viz dále) r = počet řádků s = počet sloupců v tabulce
Určení kritické hodnoty χ2 v tabulce Hladina významnosti (α) Stupeň volnosti
a nebo vyhodnocení podle hodnoty významnosti p-value Spočítali jsme: Chisq = 1,74 df =2 Při převodu testovací statistiky (zde Chisq) na p-hodnotu hledáme plochu pod normální křivkou pro hodnoty nad námi naměřenou hodnotou (zde 1,74). V grafu tak odečteme: Plochy pod hustotou na obou stranách rozdělení - každá má velikost 0,2095 násobíme 2x, protože jde o dvoustranný test (musíme brát v úvahu oba konce statistiky) p-hodnota = 0,2095 x 2 = 0,419 Ta je vyšší než 0,05 proto nulovou hypotézu nemůžeme zamítnout. Výpočet lze znázornit na: http://www.stat.tamu.edu/~west/applets/chisqdemo.html P-hodnotu nám spočítá většina statistických programů (včetně aplikací pro mobilní telefony). p-hodnota je pravděpodobnost výskytu námi spočtené hodnoty testové statistiky, za předpokladu, že platí nulová hypotéza. Vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1. Více k principu hladiny významnosti při testování hypotéz viz [Hendl 2009: 181-191], pro Chíkvadrát test [314-323].
Chí-kvadrát test → test nezávislosti polí v tabulce Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými-pozorovanými a teoretickými četnostmi náhodné nebo ne. Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. (viz dále) Lze aplikovat na již existující agregovaná data (publikované tabulky apod.) Výpočet v SPSS pomocí NPar Tests (viz dále příklady) Příklad: porovnání vzdělanostní struktury v kohortě 50-64letých a 65-79letých (data ISSP 2007)
2. Chí-kvadrát test pro asociaci dvou znaků v kontingenční tabulce Testování rozdílu 2 či více empirických četností → hypotéza homogenity (nezávislost mezi zkoumanými znaky) Očekávané-teoretické četnosti → předpoklad nezávislosti četností znaku A a B, určujeme je na základě rozložení v datovém souboru: jsou dány marginálními distribucemi sledovaných znaků Řešíme podobný problém jako v analýze rozptylu (porovnání shody průměrů v podskupinách).
Testem porovnáváme 2 či více skupin empirických četností mezi sebou Testem porovnáváme 2 či více skupin empirických četností mezi sebou. Cílem je zjistit, zda se skupiny (hodnoty nezávislého znaku) ve svých četnostech výskytu sledovaného kategoriálního - závislého znaku liší.
Příklad: Čtení knih a vzdělání Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro fE11 je 645*173/1202 = 92,8 Postup pro ruční výpočet Zdroj: data ISSP 2007, ČR (neváženo)
V SPSS: Očekávané četnosti (Expected count) a empirické (=absolutní) četnosti (Count) Příklad: Čtení knih a vzdělání Zdroj: data ISSP 2007, ČR (neváženo)
Příklad: Čtení knih a vzdělání df = (5-1)(3-1) = 8 při Alpha 0,05 naměřená hodnota χ2 = 112,17 > χ2krit = 15,507 → nemůžeme přijmout (zamítáme) H0 „o nezávislosti“, tj., že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň u jedné kategorie (buňce v tabulce) v porovnání s ostatními kategoriemi tabulky se liší očekávané od empirických četností (Test říká, že tuto skutečnost nalezneme s 95 % jistotou v celé populaci.) Místo porovnání hodnoty testovacího kritéria s kritickými – tabulkovými hodnotami se pro rozhodování o nulové hypotéze používá také p-hodnota, či significance kterou zjistíme pomocí statistického software (princip viz dále). p < α zamítáme H0 p > α nelze zamítnout H0
P-value – úroveň statistické významnosti (level of significance) Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu). Ve výstupech SPSS: Asymp. Sig. (2-sided) Formálně tedy stačí porovnat zvolené α s vypočtenou hodnotou p a zamítnout H0, pokud α > p, a naopak α < p. Výstupy z počítačových programů bohužel svádí k tomu, abychom hladinu α předem nevolili a hodnotili věrohodnost hypotéz až podle vypočtené hodnoty p. [Hebák 1995: 84-85] Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“.
Zpět do příkladu p-value – úroveň statistické významnosti Chis = 112.2 df = 8
Kontingenční tabulka a testy dobré shody – pozor na: Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce nevyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Testování hypotéz můžeme provádět pouze na výběrovém souboru, tj. ne na celé populaci (census), navíc data musí být pořízena náhodným výběrem.
Kontingenční tabulka - vyjádření vztahů kategorií Statistika Chíkvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. Pro zjištění síly vztahu → - koeficienty asociace (obdobné korelaci, např. CC), - znaménkové schéma – adjustovaná residua - podíl šancí (OR), - u ordinálních veličin korelační koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).
viz presentaci http://metodykv.wz.cz/AKD2_kontg_tab2.ppt Pro zjištění síly vztahu v kontingenční tabulce – míry asociace (příp. pořadové korelace) viz presentaci http://metodykv.wz.cz/AKD2_kontg_tab2.ppt
Vícerozměrná analýza & statistické testování hypotéz Vztahy mezi dvěma a více proměnnými
Úkoly k procvičení v SPSS Data ISSP 2007 Souvisí čtení knih (q1_d) s věkem (vekkat)? Liší se pocit, že je člověk uspěchaný ve volném čase (q5a_b) v závislosti na typu lokality, kde bydlí (S21)?
Další příklady výpočtu Chíkvadrátu pro vztah dvou proměnných
příklad Chí-kvadrát testu (2-dim) Kouření marihuany u žáků 9 a 12 třídy Zdroj: [Thyer, B. A. 2001.The Handbook of SOCIAL WORK RESEARCH METHODS.]
Příklad Chí-kvadrát test: pozorované a teoretické četnosti, stupně volnosti
Příklad Chí-kvadrát test: Výpočet 2x2 tabulka je rozepsána jako „had“ v řádcích Chíkvadrát kritický z tabulek > Chíkvadrát dosažený (naměřený) → Ho nelze zamítnout = homogenita mezi kategoriemi
Pouhý celkový test homogenity polí kontingenční tabulky sociologovi ovšem nestačí. A tedy co dál? U kterých kategorií je v kontingenční tabulce souvislost silnější a u kterých slabší? Viz presentace Kontingenční tabulka: vztahy mezi kategorizovanými znaky http://metodykv.wz.cz/AKD2_kontg_tab2.ppt
Adjustovaná residua Znaménkové schéma CROSSTABS: Adj. standardised (v SPSS / PSPP) Adjustovaná residua Residuum v daném políčku tabulky (=pozorovaná (observed) minus očekávaná (expected) hodnota) dělený odhadem vlastní standardní chyby. Odpovídající standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem. Znaménkové schéma → jednoduchá vizualizace 'kde abs(z) >= 3.29 nahradí +++ resp. ---, 'kde abs(z) >= 2.58 nahradí ++ resp. --, 'kde abs(z) >= 1.96 nahradí + resp. -. Podrobněji viz prezentaci AKD2_kontg_tab2.ppt http://metodykv.wz.cz/AKD2_kontg_tab2.ppt
Znaménkové schéma Kritérium v daném políčku tabulky (Adjustované residuum) označuje významnost rozdílu mezi empirickým zjištěnou četností a teoretickou (očekávanou) četností. Umožňuje rychlou orientaci mezi dvěma znaky.
Více viz AKD2_kontg_tab2.ppt http://metodykv.wz.cz/AKD2_kontg_tab2.ppt Test odchylky od nezávislosti v poli tabulky: Adjustovaná residua a znaménkové schéma Více viz AKD2_kontg_tab2.ppt http://metodykv.wz.cz/AKD2_kontg_tab2.ppt
Procvičit v SPSS 0. kontrola absolutních četností v jednotlivých polích → transformace (sloučení) 1. správně orientovaná procenta 2. chíkvadrát test nezávislosti (tabulky jako celku) 3. adjustovaná residua a znaménkové schéma k detekování významných odchylek Úkol: Pohlaví a volil v 2006 Náboženské vyznání x Volil 2006 Náboženské vyznání x Velikost bydliště Náboženské vyznání x Velikost bydliště x Volil 2006
Úkoly k procvičení v SPSS (data ISSP 2007) 2 x 2 tabulky: Pohlaví a Volil v 2006 Pohlaví a Vzdělání n x n tabulky: Velikost bydliště x Vzdělání → sloučení nebo pro vybraná pole tabulky
S tříděním druhého stupně bychom se neměli spokojit S tříděním druhého stupně bychom se neměli spokojit. → Třídění třetího stupně a elaborace vztahů viz prezentace: Kontingenční tabulka: vztahy mezi kategorizovanými znaky (AKD2_kontg_tab2.ppt) a Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt) http://metodykv.wz.cz/AKD2_kontg_tab_standardizace.ppt
Vyloučení (posouzení) vlivu třetí proměnné → Třídění 3 stupně Kontingenční tabulka A x B x C Příklad pro tři proměnné: Volil (závislá) x VŠ (nezávislá-vysvětlující) x Pohlaví (nezávislá kontrolní) → Sledujeme vztah mezi A a B odděleně v kategoriích C, nejjednodušeji pomocí koeficientů asociace/korelace (kontingenční koef., Cramérovo V, Phi,… pořadové korelace Spermanovo Rho, TauB), detailněji pak klasicky % rozdíly mezi kategoriemi nebo adjustovaná residua. Parciální korelace – pro spojité proměnné Multivariační metody (např. regresní analýza, vícerozměrná analýza rozptylu ANOVA)
3. Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) aneb, když máme teoretické-očekávané hodnoty odjinud než z očekávaných hodnot z distribuce v našich datech
One-dimensional "goodness of fit" test Cílem je ověřit hypotézu o shodnosti četností kategorií u jedné proměnné od jiného určitého očekávaného-teoretického rozložení, které je dáno informací mimo naše data, kupříkladu teorií nebo předchozími výsledky z jiného výzkumu (časově / mezinárodně).
One-dimensional "goodness of fit" test Situace je stejná jako u prvního příkladu s testem rovnoměrného zastoupení kategorií jednoho znaku Ale místo očekávané četnosti dané rovnoměrným zastoupením kategorií vstupujeme s teoretickými četnostmi, např. z předchozího výzkumu. V SPSS je situace pomocí NPAR TEST složitější: vstoupit s tabelárními daty je obtížné (viz finta DATA ENTRY s pomocí vážení vyjadřujícím podíly v syntaxu) Existují ale nástroje pro analýzu tabelárních dat (tj. pro agregované výsledky) http://vassarstats.net/csfit.html
One-dim Chí-kvadrát test: v SPSS NPar Tests Příklad 1 One-dim Chí-kvadrát test: v SPSS NPar Tests Příklad 1. Očekávané četnosti reprezentují rovnoměrné zastoupení kategorií (EQUAL) Testujeme hypotézu H0: kategorie vzdělání mají stejné zastoupení. FILTER BY Fi_50_64. NPAR TESTS /CHISQUARE=vzd4 /EXPECTED=EQUAL /STATISTICS DESCRIPTIVES. Zdroj: data ISSP 2007, ČR (věk 50-64)
One-dim Chí-kvadrát test: Příklad 2 One-dim Chí-kvadrát test: Příklad 2. Změna v čase (máme pouze výsledky nikoliv data) Teoretickou četností zde hodnota z předchozí etapy (výzkumu) → změna 2007-2010 (nikoliv poměrové rozložení v jednom souboru). Testujeme nulovou hypotézu, že struktura názorů se mezi roky 2007 a 2010 nezměnila. V obou výzkumech byla velikost souboru n = 100 (tj. nejedná se o procenta). Df = k-1 = 3-1 Х2 = 1,64 (df 2) < 5,99 tabulková hodnota (pro df 2 a α 5 %) (p = 0,4404 výpočet na http://vassarstats.net/csfit.html ) Vypočítaná hodnota Chisq je menší než tabulková-kritická hodnota. H0 o "nerozdílu„ nezamítáme (rozdíl v četnostech je způsoben náhodnými faktory).
Příklad 2. Výpočet pomocí aplikace http://vassarstats.net/csfit.html
NPAR TESTS /CHISQUARE =vzd4 /EXPECTED= 67 174 93 22 One-dim Chí-kvadrát test: v SPSS NPar Tests Příklad 3a. Porovnání „v čase“ (mezi kohortami) Porovnání proměny vzdělanostní struktury mezi kohortami 50-64 a 65-79 letých. → kohorta 65-79 představuje teoretické-očekávané hodnoty (info o očekávané četnosti zde máme z jednoho výzkumu, ale pro různé podskupiny věku, i proto filtr 50-64) FILTER BY Fi_50_64. /* v tomto případě musíme filtrovat jen pro věk 50-64. NPAR TESTS /CHISQUARE =vzd4 /EXPECTED= 67 174 93 22 /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Pozor: Zadáváme absolutní četnosti a v tomto případě musíme mít vypnuté vážení (WEIGHT OFF) a hodnoty musíme mít převážené na stejnou velikost jednoho z výběrů, tj. absolutní hodnoty očekávaných a empirických hodnot musí mít stejný základ (zde je to přepočítáno pomocí váhy). V tomto příkladu máme mikrodata (jednotlivé případy=respondenty v datech) pro věkovou kategorii 50-64 let a jejich vzdělanostní zastoupení testujeme proti teoretickým hodnotám pro věkovou kategorii 65-79, které máme také z těchto dat, ale už jako agregovaný výstup (tabulka třídění 1./2. stupně FREQ / CROSST). 50 - 64 let 65 - 79 let váha 65-79 let převáženo ZŠ 48 52 1,29 67 VYUČ 165 135 174 SŠ 125 72 93 VŠ 17 22 Celkem 355 276 váha = 355/276 Zdroj: data ISSP 2007, ČR (věk 50-64)
Příklad 3a: NPar Tests – očekávané četnosti reprezentují jiný (pod)soubor - Output Porovnáváme empirickou = pozorovanou (Observed) strukturu četností (zde věková kohorta 50-54 let) s teoretickou = očekávanou (Expected), kterou zde reprezentuje věková kohorta 65-79 let (převážená na celkovou velikost kohorty 50-54). H0: struktura četností je shodná. H0 zamítáme (p < 0,05). Vzdělanostní struktura věkových kohort 50-54 let a 65-79 let není shodná. Residua ukazují, že největší rozdíl je u stupně SŠ a dále u ZŠ. Zdroj: data ISSP 2007, ČR (věk 50-64)
One-dimensional "goodness of fit" test Jiné statistické balíky mají možnost vstupu s tabelárními daty (např. kontingenční tabulka), http://vassarstats.net/csfit.html v SPSS můžeme pouze složitě načíst tabulku jako vážená data (pomocí váhy definujeme frekvence polí v tabulce) viz http://metodykv.wz.cz/syntaxy/data_input.sps Očekávané četnosti (Expected values) zde lze vkládat buď jako absolutní četnosti (Exp. Frequency) nebo i jako podíly, tj. procenta (Exp. Proportion). Pozorované (Observed) četnosti musí být zadány jako absolutní hodnoty.
Příklad 3a: výpočet pomocí aplikace http://vassarstats.net/csfit.html
One-dimensional "goodness of fit" test Příklad 3b One-dimensional "goodness of fit" test Příklad 3b. – Porovnání distribuce vzdělanostních kategorií ve dvou věkových kohortách. Vstupní data (absolutní četnosti): vzdělání v kohortě 1945-50 (= očekávaná-teoretická četnost) a kohortě 1951-56 (= empirická „námi naměřená“ četnost). Ověřujeme nulovou hypotézu H0: Vzdělanostní struktura se mezi kohortami 45-50 a 51-56 neproměnila. Jinými slovy, distribuce četností kategorií vzdělání je pro sledované kohorty stejná. Poznámka: Zde v příkladech 3a a 3b máme (retrospektivní) informaci z jednoho výzkumu, nicméně pro dvě podskupiny. Tím tak pouze simulujeme situaci, kdybychom porovnávali kohorty zkoumané v odlišných dobách resp. výzkumech (naše data tak samozřejmě nejsou zcela přesná). Zdroj: data ISSP 2007, ČR (neváženo)
Ale příkaz NPAR TESTS v SPSS pracuje i s pravděpodobnostmi (%). Příklad 3b. Pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností → nejprve přepočítat – převážit Ale příkaz NPAR TESTS v SPSS pracuje i s pravděpodobnostmi (%). Zdroj: data ISSP 2007, ČR
One-dimensional "goodness of fit" test. Příklad 3b One-dimensional "goodness of fit" test. Příklad 3b. Řešení v SPSS Chi-Square Test pomocí NPAR TESTS Poznámka: zde provádíme výpočet pro kohortu 1951-56 na původních individuálních datech a tu porovnáváme s očekávanými četnostmi v kohortě 1945-50 (64 18 5), které jsme si spočítali dříve pomocí např. CROSSTABS (tím vlastně simulujeme data z jiné doby - výzkumu). Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných (Observed) četností! *nejprve zapneme filtr pro kohortu 1951-56. FILTER BY vek18_1951_56. NPAR TESTS /CHISQUARE = vzd3 /EXPECTED = 64 18 5 /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Dosažená p hodnota je hraniční, tabulkový Chíkvadrát je χ2krit = 5,991 Proto raději hypotézu H0 (shoda s teoretickými četnostmi) nezamítneme.
Příklad 3b. Dtto na tabulárních datech pomocí aplikace http://vassarstats.net/csfit.html Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných (Observed) četností - musí být shodné celkové velikosti souborů, což zde není (viz další snímek).
Příklad 3b. Ale pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností http://vassarstats.net/csfit.html Příkaz NPAR v SPSS to přepočítá automaticky, zde musíme převážit na velikost pozorovaných četností (Observed) sami (např. v Excelu)
Neparametrické testy (Non-parametric Tests) Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr Neparametrické metody: - nezávislé na rozdělní - méně citlivé na odchylky extrémních hodnot i pro výběry velmi malého rozsahu vhodné pro nominální i ordinální znaky Ale dochází častěji k chybnému nezamítnutí nepravdivé H0. Např. Chí-kvadrát testy, binomický test, testy středních hodnot (Mann-Whitney, Kruskal-Wallis atd.)
Webové nástroje pro analýzu Index of On-line Stats Calculators (rozcestí) http://www.physics.csbsju.edu/stats/Index.html Exact r×c Contingency Table: http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html Statistical Calculations http://statpages.org/ R. Webster West applets http://www.stat.tamu.edu/~west/ http://www.stat.tamu.edu/~west/ph/ VassarStats: Website for Statistical Computation http://vassarstats.net Chi-Square "Goodness of Fit" Test http://vassarstats.net/csfit.html Učebnice: Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy http://www.stahroun.me.cz/interstat/ Statnotes: Topics in Multivariate Analysis, by G. David Garson http://faculty.chass.ncsu.edu/garson/PA765/index.htm StatSoft - Elektronická učebnice statistiky (anglicky) http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31 http://www.statsoft.com/textbook/