Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace."— Transkript prezentace:

1 Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/1/2014 UK FHS Historická sociologie

2 OBSAH 1. Princip testování statistických hypotéz Spojitá (číselná) data 2. Testování hypotéz rozdílu mezi dvěma průměry a rozptyly 3. Kategoriální data → Chí-kvadrát testy dobré shody: –homogenity četností kategorií jedné proměnné –asociaci dvou znaků v kontingenční tabulce –Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) 4. Souvislosti uvnitř kontingenční tabulky: Adjustovaná residua a znaménkové schéma (poznámky, viz jinou presentaci) 5. Vícerozměrná analýza & statistické testování hypotéz (několik poznámek) 6. Třídění třetího stupně a elaborace vztahů (několik poznámek) 7. Neparametrické testy 8. Webové nástroje pro analýzu Upozornění: Jednou tato presentace bude rozdělena min. do tří (1+2+7; 3+4; 5+6).

3 Princip testování statistických hypotéz

4 Proč testujeme hypotézy? (statistická indukce) Protože pracujeme (většinou pouze) s výběrovými daty → potřebujeme vědět, zda (a do jaké míry) to, co jsme naměřili ve vzorku platí v celé populaci, tj. zda výsledky ze výběrového souboru lze zobecnit na celou populaci. Zdroj: [Příručka pro sociology 1980: ]

5 Statistická kritéria a ověřování hypotéz K ověřeni nulové hypotézy se používá specielně zvolená náhodná veličina - statistické kriterium (K), její přesné rozdělení je známé - je v tabulkách. Pro kritérium K se volí kritická oblast - soubor hodnot kritéria, pro něž odmítáme nulovou hypotézu. Bod K je kritický bod (K kr ) tehdy, když odděluje kritickou oblast od oblasti, v níž hypotézu přijímáme. Přijetí/odmítnutí hypotézy provádíme na základě odpovídajícího statistického kriteria s určitou pravděpodobností. Zdroj: [Příručka pro sociology 1980: ]

6 Statistická kritéria a ověřování hypotéz Předpokládáme, že nulová hypotéza je pravdivá tehdy, jestliže pravděpodobnost toho, že kriterium K bude mít hodnotu vyšší než K kr tzn. že se bude nacházet v kritické oblasti, se rovná zvolené pravděpodobnosti → hladina významnosti Zdroj: [Příručka pro sociology 1980: ]

7 Obecný postup přijetí / odmítnutí nulové hypotézy 1.zvolíme odpovídající kritérium (hl. dle typu znaku), 2.vypočítáme pozorovanou hodnotu kriteria K H (vycházíme ze zjištěného empirického rozdělení), 3.zvolíme hladinu statistické významnosti (většinou 0,05 nebo 0,01) 4.Z tabulek rozděleni kritéria K pro danou hladinu významnosti najdeme kritický bod K KR 5.Jestliže: K H > K kr → nulovou hypotézu H0 odmítáme K H < K kr → H0 nemůžeme zamítnout. Alternativně pomocí software spočítáme p-hodnotu (viz dále). Tento postup ovšem nelze používat mechanicky, protože …

8 Statistická hypotéza je tvrzení o rozdělení pozorované náhodné veličiny, např. o rozdělení nějaké statistiky (parametru jako průměr, podíl, rozptyl) náhodného výběru. Pokud rozdělení výběrové statistiky známé, pak lze hypotézu formulovat přímo jako tvrzení o hodnotě parametru příslušného rozdělení (např. že určitá politická strana má podporu 25 %). Hypotéza se týká celého základního souboru, z nějž jsme vybírali (nebo který experimentálně zkoumáme), např. všech dospělých osob v ČR, ale její testování se odehrává pouze na vybraných jedincích, které jsme skutečně zkoumali. Smyslem testování je správně zobecnit z vybrané podmnožiny (výběru) na celek. [Soukup 2010: 79]

9 Testování statistických hypotéz Z výběrových dat vypočteme testovou statistiku na základě porovnání s kvantily rozdělení této statistiky (za předpokladu platnosti nulové hypotézy) zjistíme, zda je na zvolené hladině spolehlivosti možno nulovou hypotézu zamítnout. [Soukup 2010: 79]

10 Platnost H0: Testová a kritická hodnota Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0 (→ „rozdíly v populaci nejsou“) K testování hypotéz podrobněji viz [Hendl 2006: ]

11 Testování hypotéz Statistická hypotéza H0: „žádný rozdíl“ (variabilita v datech je náhodná) → testem hodnotíme sílu dokladu proti tomuto předpokladu H1: alternativní, platí, když neplatí H0 „existence rozdílů / závislosti“ Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je ale pouze konvence. Hodnota významnosti p - pravděpodobnost realizace hodnoty testovací statistiky, pokud platí H0. Dosažená hladina hodnoty p < α ukazuje na neplatnost H0. Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu).

12 Platnost hypotéz o základním souboru a možná rozhodnutí na základě testování [Soukup 2010: 80] chyba I. druhu → když je nulová hypotéza zamítnuta, přestože H0 platí. chyba II. druhu → když nulová hypotéza zamítnuta není, přestože neplatí. Kvalita testu je dána pravděpodobnostmi, s jakými tyto chyby mohou nastat (α a β v tabulce). Pro výběrový soubor nelze současně minimalizovat pravděpodobnosti obou druhů chyb. Proto se statistici rozhodli omezit riziko chyby prvního druhu na rozumnou velikost, nejčastěji na 5 % (α = 0,05). Chyba I. druhu → H0 ve skutečnosti-v populaci platí, ale my jí ale zamítneme. Chyba II druhu → H0 neplatí, ale my jí nezamítneme (přijmeme).

13 Testování hypotéz Zamítání nulové hypotézy se tedy děje nejčastěji s 5% rizikem, tj. stanovujeme pravděpodobnost zamítání nulové hypotézy při její platnosti v základním souboru na maximální hodnotu 0,05. Protože chybu druhého druhu nemáme jasně pod kontrolou, volíme v případě, že nedokážeme na základě hodnoty testové statistiky zamítnout nulovou hypotézu, opatrný závěr: „nezamítáme H0“ místo závěru „zamítáme H1 a přijímáme H0“. [Soukup 2010: 80]

14 Normální rozložení ukazující hladinu významnosti α = 0,05 Hladinou významnosti rozumíme pravděpodobnost zamítnutí nulové hypotézy, pakliže ve skutečnosti (v základním souboru-populaci) platí. Pokládat hodnotu za významnou na hladině 0,05 znamená, že má pravděpodobnost 0,05 nebo menší, že se vyskytne na jednom z konců normálního rozložení. Poněvadž je rozložení symetrické, jsou oba konce rozložení stejné a hladina významnosti 0,05 znamená useknutí konců ukázané v grafu → vyšrafovaná plocha je pravděpodobnost 0,05/2 = 0,025. Hladina významnosti 0,05 znamená, že u 100 výběrů bude mít 5 z nich větší než očekávanou hodnotu pozorovaného rozdílu způsobenou náhodně. [Köniová a kol. 1988: 140]

15 Co znamená „statisticky významný výsledek“? Tvrzeni, že výsledky jsou statisticky významné na hladině a = 0,05 má přesně tento (a žádný jiný) význam [Rabušic, Soukup 2007: 381] : U náhodného reprezentativního výběru znamená, že riziko nesprávného zobecnění z náhodného reprezentativního výběru na cely základní soubor je nejvýše 0,05 (tj. 5 %). Např. riziko, že v základním souboru studentů není procento spokojenosti vyšší než 50 %. Jde o riziko tzv. chyby I. druhu, že nesprávně zamítneme statistickou nulovou hypotézu H0. Tj. zde hypotézu, že rozdíl mezi skutečným procentem spokojených v základním souboru a zadaným procentem 50 % je nulový. Chybně zamítneme hypotézu, že rozdíl mezi hodnotou u výběru (60 %) a pesimisticky předpokládanou možnou hodnotou v základním souboru (50 %) je jen náhodný. Tedy chybně učiníme závěr, že z výběru lze provést zobecnění (zde zobecnění, že v souboru studentů je počet spokojených větší než 50 %). Statistická významnost tedy znamená pouze, že výsledek je „‚statisticky zobecnitelný z reprezentativního- randomizovaného výběru na základní soubor, a to se zvoleným rizikem. [Blahuš 2000]

16 Testování hypotéz - důležité vlastnosti a omezení p-hodnoty nevypovídají nic o síle evidence → mj. jsou závislé na velikosti výběru Nezamítnutí H0 neznamená její důkaz.

17 Statistická indukce a testování hypotéz → zobecňování výsledků z výběrového souboru na základní soubor Při tom musí být splněny předpoklady: -velkého náhodného výběru (n > 30) -z dostatečně velké populace (min 100x větší než plánovaný vzorek), -musí jít o výběr, pro celou populaci (census) nedává smysl Podrobně viz [Soukup, Rabušic 2007].

18 Statistická významnost a síla testu Chyba I. druhu. Hodnota  je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona platí. Chyba II. druhu. Hodnota  je pravděpodobnost nezamítnutí nulové hypotézy za předpokladu, že ona neplatí. Síla testu nebo-li 1-  je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona neplatí. H 0 platíH 0 neplatí Nezamítne H 0 1-  Chyba II. druhu Zamítne H 0  Chyba I. druhu 1-  Síla

19 Síla testu Síla testu (S) = 1 - , tj. jako pravděpodobnost, že test správně zamítne hypotézu, která ve skutečnosti neplatí.

20 Síla testu je určena třemi faktory Velikostí účinku (ES): hodnota efektu (např. rozdíl mezi průměry nebo velikost korelace mezi proměnnými). Alfa (  ): volba menší hodnoty, čím menší tak zmenšujeme sílu. Nejčastěji  = Velikost výběru: větší výběr → větší síla. Proto při velkých výběrech i malou odchylku hodnotíme jako statisticky významnou. A na to pozor!

21 Velikost chyby I. a II. druhu Velikost chyby I. a II. druhu a síly testu je spolu úzce provázána. Pokud vzrůstá velikost jedné chyby, klesá velikost druhé a naopak. Jejich vzájemný vztah je také ovlivněn velikostí výběru a velikostí efektu:

22 Statistické testy Nejčastější statistické testy (dle testovacího kritéria): 1. Parametrické – jsou vázány splněním předpokladů o parametrech základního souboru, hl. testovaná proměnná je v základní souboru normálně rozdělena: Z-test → porovnání průměrů, když známe směrod. odchylku populace T-test → porovnání průměrů, stejné rozptyly neznáme směrod. odchylku populace F-test → porovnání rozptylů (pro více kategorií např. Oneway ANOVA) 2. Neparametrické – nejsou závislé na splnění předpokladů ohledně základního souboru: Chí-kvadrát, Komolgorův-Smirnovův rozdělení ve 2populacích, Mann-Whitney test (dvouvýběrový t-test Mediánu ve dvou subpopulacích) Wilkoxnův, … Konkrétní volba testu a jeho použití závisí mj. na charakteru/typu proměnné. Viz standardní učebnice statistiky, např. [Hendl 2006]

23 Statistické testy - Jednostranné testy (test zda hodnota leží napravo/nalevo, tj. vyšší /nižší, od očekávané hodnoty) -Dvoustranné testy: odchylky od H0 bez ohledu na směr (vyšší /nižší hodnota)

24 Testování hypotéz o statistické významnosti rozdílu mezi dvěma aritmetickými průměry a rozptyly

25 Z-test Pro testování parametrů kvantitativních proměnných (průměry, ale i rozdíly hodnot nebo korelační koeficienty) Podmínky: Náhodný výběr větší než 30, normální rozložení znaku a známe rozptyl v základním souboru (populaci) Výběrový X – Populační (testovaný) μ průměr Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0

26 Násobky Směrodatné odchylky Normální rozložení a Z-skóry α 10%5% 1% z α/2 z.1 z.05 z.025 z.01 z.005 z.001 z.0005 Z Normované (standardizované) normální rozdělení N(0;1) má parametry: Průměr µ =0 Směr.odch. σ = 1 (průměr = medián = modus)

27 Z-test příklad (neznáme populační rozptyl) [Köniová a kol. 1988: 149] Vypočtená hodnota Z je větší než obě tabelované hodnoty (1,96 pro α = 5 % i 2,58 pro α = 1 %), proto nulovou hypotézu zamítáme. Německé abstrakty jsou statisticky významně kratší než všechny abstrakty.

28 t-test: testy pro průměry Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ 0 (nebo porovnání s jinou testovou- teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ 0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL 10.5 /VARIABLES prijem. Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TEST GROUPS s30(1 2)/ VARIABLES prijem.

29 Kategoriální data Testování rozložení kategorií u jedné proměnné a asociací v kontingenční tabulce

30 Kontingenční tabulka a statistické testování Statistické míry a testování Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení Chíkvadrát o (r- 1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.

31 Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů Pro nominální znaky (i ordinální a kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané-teoretické frekvence lze získat buď z našich dat (u kontingenční tabulky) nebo od jinud, např. z výsledků jiného výzkumu. Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - f O ) četnostmi a teoretickými (očekávanými -f E ) četnostmi náhodné nebo ne. Počet stupňů volnosti: df = K -1 K =počet kategorií pro kontingenční tabulku df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce

32 Testovací kritérium χ 2 má rozdělení dle stupňů volnosti Vyzkoušejte na:

33 V zásadě existují dvě aplikace Chíkvadrát testu 1.Test dobré shody = Homogenita četností kategorií v rámci jedné proměnné (nebo obecněji odchylka od očekávané/teoretické četnosti) → One-dimensional "goodness of fit" test Na tom si dále vysvětlíme princip 2. Test nezávislosti 2 znaků → Asociace dvou znaků v kontingenční tabulce (3.) Aplikace One-dimensional "goodness of fit" testu s teoretickými četnostmi „od jinud“ (z jiného výzkumu / teorie) → varianta na 1.

34 Chíkvadrát test odpovídá na otázku, jsou-li rozdíly mezi empirickými a teoretickými četnostmi (ve výběrových datech) náhodné nebo ne.

35 Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. Pro nominální znaky (i ordinální a kategorizované kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - f O ) četnostmi a teoretickými (očekávanými -f E ) četnostmi náhodné nebo ne. Počet stupňů volnosti df = (r-1) (s-1) nebo K - 1 pro jednodim.test r = počet řádků s = počet sloupců v tabulce Nebo také se lze setkat s určením stupňů volnosti df = k - 1 – r, kde k - počet kategorií r - počet parametrů předpokládaného rozdělní, kdy v tabulce třídění 1. stupně je r =2

36 1. Chí-kvadrát test dobré shody homogenity četností kategorií v rámci jedné proměnné Obecně: ověřujeme odchylku od očekávané/teoretické četnosti Očekávané-teoretické četnosti určujeme buď na základě rozložení v datovém souboru nebo dle „teorie“, např. porovnání s hodnotou z jiného výzkumu

37 1. Test dobré shody - jednodimenzionální Chí-kvadrát test: Shoda s teoretickými četnostmi Hypotéza o rovnoměrném zastoupení kategorií 1. znaku. Například: shodné zastoupení kategorií věku Pozorované absolutní četnosti kategorií věku (tabulka třídění 1.stupně, absolutní četnosti): 1. Velmi nízký5 2. Střední10 3. Vysoký9 Celkem24 H0: počet respondentů je ve všech kategoriích stejný Očekávané (teoretické) četnosti = 24 : 3 = 8.

38 1. Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku H0: Počet respondentů je ve všech kategoriích stejný. → Ověřujeme model stejných pravděpodobností (equal probabibilities) Příklad. pozorované absolutní četnosti kategorií: Očekávané (teoretické) četnosti = 24 : 3 = 8 Vypočítanou hodnotu χ 2 porovnáme s kritickou hodnotou z tabulek (viz dále) [Příručka pro sociology 1980: ] Pozorované: Očekávané: → Stejná proporce zastoupení kategorií (33,3 % / 33,3 % / 33,3 %)

39 Jednodimenzionální Chí-kvadrát test dobré shody Nulová hypotéza vyjadřuje očekávání, že pozorované a očekávané četnosti se neliší. Určení stupňů volnosti df = k - 1 k - počet kategorií Kritický bod z tabulky statistické významnosti pro hladinu statistické významnosti Alpha 0,05 Pokud vypočítaná χ 2 < χ 2 kritická hodnota→ nelze zamítnout H0 (= četnosti jsou mezi kategoriemi stejné).

40 Zpět do příkladu Kritickou hodnotu χ 2 najdeme pro v tabulkách pro zvolenou hladinu významnosti α a počtu stupňů volnosti df zde: df = k – 1 kde k počet kategorií znaku a r je počet parametrů předpokládaného rozdělení, které hodnotíme na základě výběrového souboru (např. pro normální rozdělení dva parametry: μ a s 2 ) Zde je to 3 kategorie znaku a 1 parametr (relativ. podíl): df = 3 – 1 = 2 Najdeme tabulkovou kritickou hodnotu χ 2 krit = 5,991 (viz dále) Protože ta je vyšší než námi naměřená χ 2 = 1,74 → rozložení četností odpovídá H0 → nemůžeme H0 zamítnout, tj. rozdíly mezi skupinami v populaci nejsou. Obecně v kontingenční tabulce (pro dva znaky) je počet stupňů volnosti df = (r-1) (s-1) (viz dále) r = počet řádků s = počet sloupců v tabulce

41 Určení kritické hodnoty χ2 v tabulce Stupeň volnosti Hladina významnosti (α)

42 a nebo vyhodnocení podle hodnoty významnosti p-value Spočítali jsme: Chisq = 1,74 df =2 Při převodu testovací statistiky (zde Chisq) na p-hodnotu hledáme plochu pod normální křivkou pro hodnoty nad námi naměřenou hodnotou (zde 1,74). V grafu tak odečteme: Plochy pod hustotou na obou stranách rozdělení - každá má velikost 0,2095 násobíme 2x, protože jde o dvoustranný test (musíme brát v úvahu oba konce statistiky) p-hodnota = 0,2095 x 2 = 0,419 Ta je vyšší než 0,05 proto nulovou hypotézu nemůžeme zamítnout. Výpočet lze znázornit na: P-hodnotu nám spočítá většina statistických programů. Více k principu hladiny významnosti při testování hypotéz viz [Hendl 2009: ], pro Chíkvadrát test [ ]. p-hodnota je pravděpodobnost výskytu námi spočtené hodnoty testové statistiky, za předpokladu, že platí nulová hypotéza. Vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1.

43 Chí-kvadrát test → test nezávislosti polí v tabulce Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými- pozorovanými a teoretickými četnostmi náhodné nebo ne. Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. (viz dále) Lze aplikovat na již existující agregovaná data (publikované tabulky apod.) Příklad: porovnání vzdělanostní struktury v kohortě a (data ISSP 2007)

44 2. Chí-kvadrát test pro asociaci dvou znaků v kontingenční tabulce → hypotéza homogenity (nezávislost mezi zkoumanými znaky) Očekávané-teoretické četnosti → předpoklad nezávislosti četností znaku A a B, určujeme je na základě rozložení v datovém souboru: jsou dány marginálními distribucemi sledovaných znaků Řešíme podobný problém jako v analýze rozptylu (porovnání shody průměrů v podskupinách).

45 Příklad: Čtení knih a vzdělání Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro f E 11 je 645*173/1202 = 92,8 Postup pro ruční výpočet

46 V SPSS: Očekávané četnosti (Expected count) a empirické (=absolutní) četnosti (Count) Příklad: Čtení knih a vzdělání

47 Příklad: Čtení knih a vzdělání df = (5-1)(3-1) = 8 při Alpha 0,05 naměřená hodnota χ 2 = 112,17 > χ 2 krit = 15,507 → nemůžeme přijmout (zamítáme) H0 „o nezávislosti“, tj., že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň u jedné kategorie (buňce v tabulce) v porovnání s ostatními kategoriemi tabulky se liší očekávané od empirických četností (Test říká, že tuto skutečnost nalezneme s 95 % jistotou v celé populaci.) Místo porovnání hodnoty testovacího kritéria s kritickými – tabulkovými hodnotami se pro rozhodování o nulové hypotéze používá také p-hodnota, či significance kterou zjistíme pomocí statistického software (princip viz dále). p α nelze zamítnout H0

48 P-value – úroveň statistické významnosti (level of significance) Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu). Ve výstupech SPSS: Asymp. Sig. (2-sided) Formálně tedy stačí porovnat zvolené α s vypočtenou hodnotou p a zamítnout H0, pokud α > p, a naopak α < p. Výstupy z počítačových programů bohužel svádí k tomu, abychom hladinu α předem nevolili a hodnotili věrohodnost hypotéz až podle vypočtené hodnoty p. [Hebák 1995: 84-85] Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“.

49 Zpět do příkladu p-value – úroveň statistické významnosti Chis = df = 8

50 Kontingenční tabulka a testy dobré shody – pozor na: Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce nevyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Testování hypotéz můžeme provádět pouze na výběrovém souboru, tj. ne na celé populaci (census), navíc data musí být pořízena náhodným výběrem.

51 Kontingenční tabulka - vyjádření vztahů kategorií Statistika Chíkvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. Pro zjištění síly vztahu → - koeficienty asociace (obdobné korelaci, např. CC), - znaménkové schéma – adjustovaná residua - podíl šancí (OR), - u ordinálních veličin korelační koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).

52 Vícerozměrná analýza & statistické testování hypotéz Vztahy mezi dvěma a více proměnnými

53 Úkoly v SPSS: souvisí čtení knih (q1_d) s věkem (vekkat)? Souvisí Pocit, že je uspěchaný ve volném čase (q5a_b) a lokalita bydliště (S21)

54 Další příklady výpočtu Chíkvadrátu pro vztah dvou proměnných

55 příklad Chí-kvadrát testu (2-dim) Kouření marihuany u žáků 9 a 12 třídy Zdroj: [Thyer, B. A The Handbook of SOCIAL WORK RESEARCH METHODS.]

56 Příklad Chí-kvadrát test: pozorované a teoretické četnosti, stupně volnosti

57 Příklad Chí-kvadrát test: Výpočet Chíkvadrát kritický z tabulek > Chíkvadrát dosažený (naměřený) → Ho nelze zamítnout = homogenita mezi kategoriemi 2x2 tabulka je rozepsána jako „had“ v řádcích

58 Pouhý celkový test homogenity polí kontingenční tabulky sociologovi ovšem nestačí. A tedy co dál? U kterých kategorií je v kontingenční tabulce souvislost silnější a u kterých slabší? Viz presentace Kontingenční tabulka: vztahy mezi kategorizovanými znaky

59 Adjustovaná residua Znaménkové schéma CROSSTABS: Adj. standardised (v SPSS / PSPP) Adjustovaná residua Residuum v daném políčku tabulky (=pozorovaná (observed) minus očekávaná (expected) hodnota) dělený odhadem vlastní standardní chyby. Odpovídající standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem. Znaménkové schéma → jednoduchá vizualizace 'kde abs(z) >= 3.29 nahradí +++ resp. ---, 'kde abs(z) >= 2.58 nahradí ++ resp. --, 'kde abs(z) >= 1.96 nahradí + resp. -. Podrobněji viz prezentaci AKD2_kontg_tab.ppt

60 Znaménkové schéma Kritérium v daném políčku tabulky (Adjustované residuum) označuje významnost rozdílu mezi empirickým zjištěnou četností a teoretickou (očekávanou) četností. Umožňuje rychlou orientaci mezi dvěma znaky.

61 Test odchylky od nezávislosti v poli tabulky: Adjustovaná residua a znaménkové schéma Více viz AKD2_kontg_tab.ppt

62 Procvičit v SPSS 0. kontrola absolutních četností v jednotlivých polích → transformace (sloučení) 1. správně orientovaná procenta 2. chíkvadrát test nezávislosti (tabulky jako celku) 3. adjustovaná residua a znaménkové schéma k detekování významných odchylek Úkol: Pohlaví a volil v 2006 Náboženské vyznání x Volil 2006 Náboženské vyznání x Velikost bydliště Náboženské vyznání x Velikost bydliště x Volil 2006

63 Úkol Procvičit v SPSS 2 x 2 tabulky Pohlaví a volil v 2006 Pohlaví a Vzdělání n x n Velikost bydliště x Vzdělání → sloučení nebo vybraná pole tabulky

64 S tříděním druhého stupně bychom se neměli spokojit. → Třídění třetího stupně a elaborace vztahů viz prezentace: Kontingenční tabulka: vztahy mezi kategorizovanými znaky (AKD2_kontg_tab.ppt) a Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt)

65 Vyloučení (posouzení) vlivu třetí proměnné → Třídění 3 stupně Kontingenční tabulka A x B x C –Příklad pro tři proměnné: Volil (závislá) x VŠ (nezávislá-vysvětlující) x Pohlaví (nezávislá kontrolní) → Sledujeme vztah mezi A a B odděleně v kategoriích C, nejjednodušeji pomocí koeficientů asociace/korelace (kontingenční koef., Cramérovo V, Phi,… pořadové korelace Spermanovo Rho, TauB), detailněji pak klasicky % rozdíly mezi kategoriemi nebo adjustovaná residua. Parciální korelace – pro spojité proměnné Multivariační metody (např. regresní analýza, vícerozm. analýzu rozptylu ANOVA)

66 3. Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) aneb, když máme teoretické- očekávané hodnoty odjinud než z očekávaných hodnot z distribuce v našich datech

67 One-dimensional "goodness of fit" test Cílem je ověřit hypotézu o shodnosti četností kategorií u jedné proměnné od jiného určitého očekávaného-teoretického rozložení, které je dáno informací mimo naše data, kupříkladu teorií nebo předchozími výsledky z jiného výzkumu (časově / mezinárodně).

68 One-dimensional "goodness of fit" test Situace je stejná jako u prvního příkladu s testem rovnoměrného zastoupení kategorií jednoho znaku Ale místo očekávané četnosti dané rovnoměrným zastoupením kategorií vstupujeme s teoretickými četnostmi, např. z předchozího výzkumu. V SPSS je situace pomocí NPAR TEST složitější: vstoupit s tabelárními daty je obtížné (viz finta DATA ENTRY s pomocí vážení vyjadřujícím podíly v syntaxu) Existují ale nástroje pro analýzu tabelárních dat (tj. pro agregované výsledky)

69 Teoretickou četností zde není poměrové rozložení ale hodnota z předchozí etapy (výzkumu). Chí-kvadrát test: změna v čase Vypočítaná hodnota Chisq je menší než tabulková-kritická hodnota. Platí H0 o "nerozdílu„ (rozdíl v četnostech je způsoben náhodnými faktory).

70 Ukázka v SPSS: porovnání v čase pomocí Chíkvadrátu Porovnání proměny vzdělanostní struktury mezi kohortami a letých. → kohorta představuje teoretické- očekávané hodnoty (info o očekávané četnosti zde máme z jednoho výzkumu, ale pro různé podskupiny věku) NPAR TESTS /CHISQUARE =vzd4 /EXPECTED= /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Pozor: Zadáváme absolutní četnosti a v tomto případě musíme mít vypnuté vážení (WEIGHT OFF) a hodnoty musíme mít převážené na stejnou velikost výběru let let 1 ZŠ VYUČ SŠ VŠ V tomto příkladu máme mikrodata (jednotlivé případy=respondenty v datech) pro věkovou kategorii let a jejich vzdělanostní zastoupení testujeme proti teoretickým hodnotám pro věkovou kategorii 65-79, které máme také z těchto dat, ale už jako agregovaný výstup (tabulka třídění 1.stupně)

71 One-dimensional "goodness of fit" test Jiné statistické balíky mají možnost vstupu s tabelárními daty (kontingenční tabulka), v SPSS můžeme pouze složitě načíst tabulku jako vážená data (pomocí váhy definujeme frekvence polí v tabulce) viz Očekávané četnosti (Expected values) zde lze vkládat buď jako absolutní četnosti nebo i jako podíly, tj. procenta.

72 One-dimensional "goodness of fit" test. Příklad 3. – Porovnání distribuce vzdělanostních kategorií ve dvou věkových kohortách. Vstupní data (absolutní četnosti): vzdělání v kohortě (=očekávaná- teoretická četnost) a kohortě (=empirická „námi naměřená“ četnost) Ověřujeme nulovou hypotézu H0: Vzdělanostní struktura se mezi kohortami a neproměnila. Jinými slovy, distribuce četností kategorií vzdělání je pro sledované kohorty stejná. Poznámka: Zde máme (retrospektivní) informaci z jednoho výzkumu, nicméně pro dvě podskupiny. Tím tak pouze simulujeme situaci, kdybychom porovnávali kohorty zkoumané v odlišných dobách resp. výzkumech (což samozřejmě není zcela přesné).

73 Pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností Příkaz NPAR TESTS v SPSS bere i pravděpodobnosti (%).

74 One-dimensional "goodness of fit" test. Příklad 3. Řešení v SPSS Chi-Square Test pomocí NPAR TESTS Poznámka: zde provádíme výpočet pro kohortu na původních individuálních datech a tu porovnáváme s očekávanými četnostmi v kohortě ( ), které jsme si spočítali dříve pomocí Crosstabs (tím vlastně simulujeme data z jiné doby - výzkumu). *nejprve zapneme filtr pro kohortu FILTER BY vek18_1951_56. NPAR TESTS /CHISQUARE = vzd3 /EXPECTED = /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Dosažená p hodnota je hraniční, tabulkový Chíkvadrát je χ 2 krit = 5,991 Proto raději hypotézu H0 (shoda s teoretickými četnostmi) nezamítneme.

75 Dtto na tabulárních datech pomocí aplikace

76 Příkaz NPAR v SPSS to přepočítá automaticky, zde musíme sami (např. v Excelu) Ale pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností

77 Neparametrické testy (Non-parametric Tests) Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr Neparametrické metody: - nezávislé na rozdělní - méně citlivé na odchylky extrémních hodnot -i pro výběry velmi malého rozsahu -vhodné pro nominální i ordinální znaky Ale dochází častěji k chybnému nezamítnutí nepravdivé H0. Chí-kvadrát testy,

78 Webové nástroje pro analýzu Index of On-line Stats Calculators Exact r×c Contingency Table: Statistical Calculations R. Webster West applets Učebnice: Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy Statnotes: Topics in Multivariate Analysis, by G. David Garson StatSoft - Elektronická učebnice statistiky (anglicky)


Stáhnout ppt "Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace."

Podobné prezentace


Reklamy Google