Analýza kvantitativních dat II.

Slides:

Advertisements

Podobné prezentace

Testování statistických hypotéz

Advertisements

Testování statistických hypotéz

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.

Statistická indukce Teorie odhadu.

Testování parametrických hypotéz

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

Neparametrické metody a analýza rozptylu (lekce 3-7)

Testování neparametrických hypotéz

Testování hypotéz.

Testování statistických hypotéz

NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ

Analýza kvantitativních dat: 1. Popisné statistiky a testování hypotéz

Jiří Šafr jiri.safr(zavináč)seznam.cz

Odhady parametrů základního souboru

F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)

Cvičení 6 – 25. října 2010 Heteroskedasticita

Testování hypotéz přednáška.

Náhodná proměnná Rozdělení.

Testování hypotéz vymezení důležitých pojmů

Řízení a supervize v sociálních a zdravotnických organizacích

Inference jako statistický proces 1

Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.

Kurz SPSS : Jednoduchá analýza dat 1

Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.

Biostatistika 5. přednáška Aneta Hybšová

Biostatistika 6. přednáška

Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.

Pohled z ptačí perspektivy

Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.

Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.

8. Kontingenční tabulky a χ2 test

Pearsonův test dobré shody chí kvadrát

Biostatistika 8. přednáška

Analýza kvantitativních dat II.

PSY717 – statistická analýza dat

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Jak statistika dokazuje závislost

ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.

Základy testování hypotéz

Inferenční statistika - úvod

Mann-Whitney U-test Wilcoxonův test Znaménkový test

TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.

Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.

Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)

INDUKTIVNÍ STATISTIKA

Statistické testování – základní pojmy

Testování hypotéz párový test

Neparametrické testy parametrické a neparametrické testy

Přednáška č. 3 – Posouzení nahodilosti výběrového souboru

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

- váhy jednotlivých studií

Neparametrické testy parametrické a neparametrické testy

Induktivní statistika

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Úvod do statistického testování

Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

PSY117 Statistická analýza dat v psychologii Přednáška

Neparametrické testy pro porovnání polohy

Úvod do induktivní statistiky

příklad: hody hrací kostkou

T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)

Statistika a výpočetní technika

Lineární regrese.

7. Kontingenční tabulky a χ2 test

Induktivní statistika

Základy statistiky.

NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.

Transkript prezentace:

Analýza kvantitativních dat II. UK FHS Historická sociologie Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/1/2014

OBSAH 1. Princip testování statistických hypotéz Spojitá (číselná) data 2. Testování hypotéz rozdílu mezi dvěma průměry a rozptyly 3. Kategoriální data → Chí-kvadrát testy dobré shody: homogenity četností kategorií jedné proměnné asociaci dvou znaků v kontingenční tabulce Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) 4. Souvislosti uvnitř kontingenční tabulky: Adjustovaná residua a znaménkové schéma (poznámky, viz jinou presentaci) 5. Vícerozměrná analýza & statistické testování hypotéz (několik poznámek) 6. Třídění třetího stupně a elaborace vztahů (několik poznámek) 7. Neparametrické testy 8. Webové nástroje pro analýzu Upozornění: Jednou tato presentace bude rozdělena min. do tří (1+2+7; 3+4; 5+6).

Princip testování statistických hypotéz

Proč testujeme hypotézy? (statistická indukce) Protože pracujeme (většinou pouze) s výběrovými daty → potřebujeme vědět, zda (a do jaké míry) to, co jsme naměřili ve vzorku platí v celé populaci, tj. zda výsledky ze výběrového souboru lze zobecnit na celou populaci. Zdroj: [Příručka pro sociology 1980: 218-220]

Statistická kritéria a ověřování hypotéz K ověřeni nulové hypotézy se používá specielně zvolená náhodná veličina - statistické kriterium (K), její přesné rozdělení je známé - je v tabulkách. Pro kritérium K se volí kritická oblast - soubor hodnot kritéria, pro něž odmítáme nulovou hypotézu. Bod K je kritický bod (Kkr) tehdy, když odděluje kritickou oblast od oblasti, v níž hypotézu přijímáme. Přijetí/odmítnutí hypotézy provádíme na základě odpovídajícího statistického kriteria s určitou pravděpodobností. Zdroj: [Příručka pro sociology 1980: 218-220]

Statistická kritéria a ověřování hypotéz Předpokládáme, že nulová hypotéza je pravdivá tehdy, jestliže pravděpodobnost toho, že kriterium K bude mít hodnotu vyšší než Kkr tzn. že se bude nacházet v kritické oblasti, se rovná zvolené pravděpodobnosti → hladina významnosti Zdroj: [Příručka pro sociology 1980: 218-220]

Obecný postup přijetí / odmítnutí nulové hypotézy zvolíme odpovídající kritérium (hl. dle typu znaku), vypočítáme pozorovanou hodnotu kriteria KH (vycházíme ze zjištěného empirického rozdělení), zvolíme hladinu statistické významnosti (většinou 0,05 nebo 0,01) Z tabulek rozděleni kritéria K pro danou hladinu významnosti najdeme kritický bod KKR Jestliže: KH > Kkr → nulovou hypotézu H0 odmítáme KH < Kkr → H0 nemůžeme zamítnout. Alternativně pomocí software spočítáme p-hodnotu (viz dále). Tento postup ovšem nelze používat mechanicky, protože …

Statistická hypotéza je tvrzení o rozdělení pozorované náhodné veličiny, např. o rozdělení nějaké statistiky (parametru jako průměr, podíl, rozptyl) náhodného výběru. Pokud rozdělení výběrové statistiky známé, pak lze hypotézu formulovat přímo jako tvrzení o hodnotě parametru příslušného rozdělení (např. že určitá politická strana má podporu 25 %). Hypotéza se týká celého základního souboru, z nějž jsme vybírali (nebo který experimentálně zkoumáme), např. všech dospělých osob v ČR, ale její testování se odehrává pouze na vybraných jedincích, které jsme skutečně zkoumali. Smyslem testování je správně zobecnit z vybrané podmnožiny (výběru) na celek. [Soukup 2010: 79]

Testování statistických hypotéz Z výběrových dat vypočteme testovou statistiku na základě porovnání s kvantily rozdělení této statistiky (za předpokladu platnosti nulové hypotézy) zjistíme, zda je na zvolené hladině spolehlivosti možno nulovou hypotézu zamítnout. [Soukup 2010: 79]

Platnost H0: Testová a kritická hodnota Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0 (→ „rozdíly v populaci nejsou“) K testování hypotéz podrobněji viz [Hendl 2006: 176-188]

Testování hypotéz Statistická hypotéza H0: „žádný rozdíl“ (variabilita v datech je náhodná) → testem hodnotíme sílu dokladu proti tomuto předpokladu H1: alternativní, platí, když neplatí H0 „existence rozdílů / závislosti“ Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je ale pouze konvence. Hodnota významnosti p - pravděpodobnost realizace hodnoty testovací statistiky, pokud platí H0. Dosažená hladina hodnoty p < α ukazuje na neplatnost H0. Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu).

Platnost hypotéz o základním souboru a možná rozhodnutí na základě testování chyba I. druhu → když je nulová hypotéza zamítnuta, přestože H0 platí. chyba II. druhu → když nulová hypotéza zamítnuta není, přestože neplatí. Kvalita testu je dána pravděpodobnostmi, s jakými tyto chyby mohou nastat (α a β v tabulce). Pro výběrový soubor nelze současně minimalizovat pravděpodobnosti obou druhů chyb. Proto se statistici rozhodli omezit riziko chyby prvního druhu na rozumnou velikost, nejčastěji na 5 % (α = 0,05). Chyba I. druhu → H0 ve skutečnosti-v populaci platí, ale my jí ale zamítneme. Chyba II druhu → H0 neplatí, ale my jí nezamítneme (přijmeme). [Soukup 2010: 80]

Testování hypotéz Zamítání nulové hypotézy se tedy děje nejčastěji s 5% rizikem, tj. stanovujeme pravděpodobnost zamítání nulové hypotézy při její platnosti v základním souboru na maximální hodnotu 0,05. Protože chybu druhého druhu nemáme jasně pod kontrolou, volíme v případě, že nedokážeme na základě hodnoty testové statistiky zamítnout nulovou hypotézu, opatrný závěr: „nezamítáme H0“ místo závěru „zamítáme H1 a přijímáme H0“. [Soukup 2010: 80]

Normální rozložení ukazující hladinu významnosti α = 0,05 Hladinou významnosti rozumíme pravděpodobnost zamítnutí nulové hypotézy, pakliže ve skutečnosti (v základním souboru-populaci) platí. Pokládat hodnotu za významnou na hladině 0,05 znamená, že má pravděpodobnost 0,05 nebo menší, že se vyskytne na jednom z konců normálního rozložení. Poněvadž je rozložení symetrické, jsou oba konce rozložení stejné a hladina významnosti 0,05 znamená useknutí konců ukázané v grafu → vyšrafovaná plocha je pravděpodobnost 0,05/2 = 0,025. Hladina významnosti 0,05 znamená, že u 100 výběrů bude mít 5 z nich větší než očekávanou hodnotu pozorovaného rozdílu způsobenou náhodně. [Köniová a kol. 1988: 140]

Co znamená „statisticky významný výsledek“? Tvrzeni, že výsledky jsou statisticky významné na hladině a = 0,05 má přesně tento (a žádný jiný) význam [Rabušic, Soukup 2007: 381]: U náhodného reprezentativního výběru znamená, že riziko nesprávného zobecnění z náhodného reprezentativního výběru na cely základní soubor je nejvýše 0,05 (tj. 5 %). Např. riziko, že v základním souboru studentů není procento spokojenosti vyšší než 50 %. Jde o riziko tzv. chyby I. druhu, že nesprávně zamítneme statistickou nulovou hypotézu H0. Tj. zde hypotézu, že rozdíl mezi skutečným procentem spokojených v základním souboru a zadaným procentem 50 % je nulový. Chybně zamítneme hypotézu, že rozdíl mezi hodnotou u výběru (60 %) a pesimisticky předpokládanou možnou hodnotou v základním souboru (50 %) je jen náhodný. Tedy chybně učiníme závěr, že z výběru lze provést zobecnění (zde zobecnění, že v souboru studentů je počet spokojených větší než 50 %). Statistická významnost tedy znamená pouze, že výsledek je „‚statisticky zobecnitelný z reprezentativního-randomizovaného výběru na základní soubor, a to se zvoleným rizikem. [Blahuš 2000]

Testování hypotéz - důležité vlastnosti a omezení p-hodnoty nevypovídají nic o síle evidence → mj. jsou závislé na velikosti výběru Nezamítnutí H0 neznamená její důkaz.

Statistická indukce a testování hypotéz → zobecňování výsledků z výběrového souboru na základní soubor Při tom musí být splněny předpoklady: velkého náhodného výběru (n > 30) z dostatečně velké populace (min 100x větší než plánovaný vzorek), musí jít o výběr, pro celou populaci (census) nedává smysl Podrobně viz [Soukup, Rabušic 2007].

Statistická významnost a síla testu H0 platí H0 neplatí Nezamítne H0 1-  Chyba II. druhu Zamítne H0  Chyba I. druhu 1- Síla Chyba I. druhu. Hodnota  je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona platí. Chyba II. druhu. Hodnota  je pravděpodobnost nezamítnutí nulové hypotézy za předpokladu, že ona neplatí. Síla testu nebo-li 1- je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona neplatí.

Síla testu Síla testu (S) = 1 - , tj. jako pravděpodobnost, že test správně zamítne hypotézu, která ve skutečnosti neplatí.

Síla testu je určena třemi faktory Velikostí účinku (ES): hodnota efektu (např. rozdíl mezi průměry nebo velikost korelace mezi proměnnými). Alfa (): volba menší hodnoty, čím menší tak zmenšujeme sílu. Nejčastěji  = 0.05. Velikost výběru: větší výběr → větší síla. Proto při velkých výběrech i malou odchylku hodnotíme jako statisticky významnou. A na to pozor!

Velikost chyby I. a II. druhu Velikost chyby I. a II. druhu a síly testu je spolu úzce provázána. Pokud vzrůstá velikost jedné chyby, klesá velikost druhé a naopak. Jejich vzájemný vztah je také ovlivněn velikostí výběru a velikostí efektu:

Statistické testy Nejčastější statistické testy (dle testovacího kritéria): 1. Parametrické – jsou vázány splněním předpokladů o parametrech základního souboru, hl. testovaná proměnná je v základní souboru normálně rozdělena: Z-test → porovnání průměrů, když známe směrod. odchylku populace T-test → porovnání průměrů, stejné rozptyly neznáme směrod. odchylku populace F-test → porovnání rozptylů (pro více kategorií např. Oneway ANOVA) 2. Neparametrické – nejsou závislé na splnění předpokladů ohledně základního souboru: Chí-kvadrát, Komolgorův-Smirnovův rozdělení ve 2populacích, Mann-Whitney test (dvouvýběrový t-test Mediánu ve dvou subpopulacích) Wilkoxnův, … Konkrétní volba testu a jeho použití závisí mj. na charakteru/typu proměnné. Viz standardní učebnice statistiky, např. [Hendl 2006]

Statistické testy - Jednostranné testy (test zda hodnota leží napravo/nalevo, tj. vyšší /nižší, od očekávané hodnoty) Dvoustranné testy: odchylky od H0 bez ohledu na směr (vyšší /nižší hodnota)

Testování hypotéz o statistické významnosti rozdílu mezi dvěma aritmetickými průměry a rozptyly

Z-test Pro testování parametrů kvantitativních proměnných (průměry, ale i rozdíly hodnot nebo korelační koeficienty) Podmínky: Náhodný výběr větší než 30, normální rozložení znaku a známe rozptyl v základním souboru (populaci) Výběrový X – Populační (testovaný) μ průměr Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0

Normální rozložení a Z-skóry Normované (standardizované) normální rozdělení N(0;1) má parametry: Průměr µ =0 Směr.odch. σ = 1 (průměr = medián = modus) Násobky Směrodatné odchylky α 10% 5% 1% z α/2 z.1 z.05 z.025 z.01 z.005 z.001 z.0005 Z 1.282 1.645 1.960 2.326 2.576 3.090 3.291 http://www.stat.tamu.edu/~west/applets/ci.html

Z-test příklad (neznáme populační rozptyl) Vypočtená hodnota Z je větší než obě tabelované hodnoty (1,96 pro α = 5 % i 2,58 pro α = 1 %), proto nulovou hypotézu zamítáme. Německé abstrakty jsou statisticky významně kratší než všechny abstrakty. [Köniová a kol. 1988: 149]

t-test: testy pro průměry Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovou-teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL 10.5 /VARIABLES prijem. Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TEST GROUPS s30(1 2)/ VARIABLES prijem.

Kategoriální data Testování rozložení kategorií u jedné proměnné a asociací v kontingenční tabulce

Kontingenční tabulka a statistické testování Statistické míry a testování Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení Chíkvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.

Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů Pro nominální znaky (i ordinální a kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané-teoretické frekvence lze získat buď z našich dat (u kontingenční tabulky) nebo od jinud, např. z výsledků jiného výzkumu. Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. Počet stupňů volnosti: df = K -1 K =počet kategorií pro kontingenční tabulku df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce

Testovací kritérium χ2 má rozdělení dle stupňů volnosti Vyzkoušejte na: http://www.stat.tamu.edu/~west/applets/chisqdemo1.html

V zásadě existují dvě aplikace Chíkvadrát testu Test dobré shody = Homogenita četností kategorií v rámci jedné proměnné (nebo obecněji odchylka od očekávané/teoretické četnosti) → One-dimensional "goodness of fit" test Na tom si dále vysvětlíme princip 2. Test nezávislosti 2 znaků → Asociace dvou znaků v kontingenční tabulce (3.) Aplikace One-dimensional "goodness of fit" testu s teoretickými četnostmi „od jinud“ (z jiného výzkumu / teorie) → varianta na 1.

Chíkvadrát test odpovídá na otázku, jsou-li rozdíly mezi empirickými a teoretickými četnostmi (ve výběrových datech) náhodné nebo ne.

Chí-kvadrát testy: test dobré shody Test pro homogenitu distribucí mezi kategoriemi znaku/ů test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. Pro nominální znaky (i ordinální a kategorizované kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. Počet stupňů volnosti df = (r-1) (s-1) nebo K - 1 pro jednodim.test r = počet řádků s = počet sloupců v tabulce Nebo také se lze setkat s určením stupňů volnosti df = k - 1 – r, kde k - počet kategorií r - počet parametrů předpokládaného rozdělní, kdy v tabulce třídění 1. stupně je r =2

Obecně: ověřujeme odchylku od očekávané/teoretické četnosti 1. Chí-kvadrát test dobré shody homogenity četností kategorií v rámci jedné proměnné Obecně: ověřujeme odchylku od očekávané/teoretické četnosti Očekávané-teoretické četnosti určujeme buď na základě rozložení v datovém souboru nebo dle „teorie“, např. porovnání s hodnotou z jiného výzkumu

1. Test dobré shody - jednodimenzionální Chí-kvadrát test: Shoda s teoretickými četnostmi Hypotéza o rovnoměrném zastoupení kategorií 1. znaku. Například: shodné zastoupení kategorií věku Pozorované absolutní četnosti kategorií věku (tabulka třídění 1.stupně, absolutní četnosti): 1. Velmi nízký 5 2. Střední 10 3. Vysoký 9 Celkem 24 H0: počet respondentů je ve všech kategoriích stejný Očekávané (teoretické) četnosti = 24 : 3 = 8.

1. Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku H0: Počet respondentů je ve všech kategoriích stejný. → Ověřujeme model stejných pravděpodobností (equal probabibilities) Příklad. pozorované absolutní četnosti kategorií: Očekávané (teoretické) četnosti = 24 : 3 = 8 → Stejná proporce zastoupení kategorií (33,3 % / 33,3 % / 33,3 %) Pozorované: Očekávané: Vypočítanou hodnotu χ2 porovnáme s kritickou hodnotou z tabulek (viz dále) [Příručka pro sociology 1980: 221-222]

Jednodimenzionální Chí-kvadrát test dobré shody Nulová hypotéza vyjadřuje očekávání, že pozorované a očekávané četnosti se neliší. Určení stupňů volnosti df = k - 1 k - počet kategorií Kritický bod z tabulky statistické významnosti pro hladinu statistické významnosti Alpha 0,05 Pokud vypočítaná χ2 < χ2 kritická hodnota→ nelze zamítnout H0 (= četnosti jsou mezi kategoriemi stejné).

Zpět do příkladu Kritickou hodnotu χ2 najdeme pro v tabulkách pro zvolenou hladinu významnosti α a počtu stupňů volnosti df zde: df = k – 1 kde k počet kategorií znaku a r je počet parametrů předpokládaného rozdělení, které hodnotíme na základě výběrového souboru (např. pro normální rozdělení dva parametry: μ a s2) Zde je to 3 kategorie znaku a 1 parametr (relativ. podíl): df = 3 – 1 = 2 Najdeme tabulkovou kritickou hodnotu χ2krit = 5,991 (viz dále) Protože ta je vyšší než námi naměřená χ2 = 1,74 → rozložení četností odpovídá H0 → nemůžeme H0 zamítnout, tj. rozdíly mezi skupinami v populaci nejsou. Obecně v kontingenční tabulce (pro dva znaky) je počet stupňů volnosti df = (r-1) (s-1) (viz dále) r = počet řádků s = počet sloupců v tabulce

Určení kritické hodnoty χ2 v tabulce Hladina významnosti (α) Stupeň volnosti

a nebo vyhodnocení podle hodnoty významnosti p-value Spočítali jsme: Chisq = 1,74 df =2 Při převodu testovací statistiky (zde Chisq) na p-hodnotu hledáme plochu pod normální křivkou pro hodnoty nad námi naměřenou hodnotou (zde 1,74). V grafu tak odečteme: Plochy pod hustotou na obou stranách rozdělení - každá má velikost 0,2095 násobíme 2x, protože jde o dvoustranný test (musíme brát v úvahu oba konce statistiky) p-hodnota = 0,2095 x 2 = 0,419 Ta je vyšší než 0,05 proto nulovou hypotézu nemůžeme zamítnout. Výpočet lze znázornit na: http://www.stat.tamu.edu/~west/applets/chisqdemo.html P-hodnotu nám spočítá většina statistických programů. p-hodnota je pravděpodobnost výskytu námi spočtené hodnoty testové statistiky, za předpokladu, že platí nulová hypotéza. Vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1. Více k principu hladiny významnosti při testování hypotéz viz [Hendl 2009: 181-191], pro Chíkvadrát test [314-323].

Chí-kvadrát test → test nezávislosti polí v tabulce Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými-pozorovanými a teoretickými četnostmi náhodné nebo ne. Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. (viz dále) Lze aplikovat na již existující agregovaná data (publikované tabulky apod.) Příklad: porovnání vzdělanostní struktury v kohortě 50-64 a 65-79 (data ISSP 2007)

2. Chí-kvadrát test pro asociaci dvou znaků v kontingenční tabulce → hypotéza homogenity (nezávislost mezi zkoumanými znaky) Očekávané-teoretické četnosti → předpoklad nezávislosti četností znaku A a B, určujeme je na základě rozložení v datovém souboru: jsou dány marginálními distribucemi sledovaných znaků Řešíme podobný problém jako v analýze rozptylu (porovnání shody průměrů v podskupinách).

Příklad: Čtení knih a vzdělání Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro fE11 je 645*173/1202 = 92,8 Postup pro ruční výpočet

V SPSS: Očekávané četnosti (Expected count) a empirické (=absolutní) četnosti (Count) Příklad: Čtení knih a vzdělání

Příklad: Čtení knih a vzdělání df = (5-1)(3-1) = 8 při Alpha 0,05 naměřená hodnota χ2 = 112,17 > χ2krit = 15,507 → nemůžeme přijmout (zamítáme) H0 „o nezávislosti“, tj., že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň u jedné kategorie (buňce v tabulce) v porovnání s ostatními kategoriemi tabulky se liší očekávané od empirických četností (Test říká, že tuto skutečnost nalezneme s 95 % jistotou v celé populaci.) Místo porovnání hodnoty testovacího kritéria s kritickými – tabulkovými hodnotami se pro rozhodování o nulové hypotéze používá také p-hodnota, či significance kterou zjistíme pomocí statistického software (princip viz dále). p < α zamítáme H0 p > α nelze zamítnout H0

P-value – úroveň statistické významnosti (level of significance) Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu). Ve výstupech SPSS: Asymp. Sig. (2-sided) Formálně tedy stačí porovnat zvolené α s vypočtenou hodnotou p a zamítnout H0, pokud α > p, a naopak α < p. Výstupy z počítačových programů bohužel svádí k tomu, abychom hladinu α předem nevolili a hodnotili věrohodnost hypotéz až podle vypočtené hodnoty p. [Hebák 1995: 84-85] Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“.

Zpět do příkladu p-value – úroveň statistické významnosti Chis = 112.2 df = 8

Kontingenční tabulka a testy dobré shody – pozor na: Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce nevyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Testování hypotéz můžeme provádět pouze na výběrovém souboru, tj. ne na celé populaci (census), navíc data musí být pořízena náhodným výběrem.

Kontingenční tabulka - vyjádření vztahů kategorií Statistika Chíkvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. Pro zjištění síly vztahu → - koeficienty asociace (obdobné korelaci, např. CC), - znaménkové schéma – adjustovaná residua - podíl šancí (OR), - u ordinálních veličin korelační koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).

Vícerozměrná analýza & statistické testování hypotéz Vztahy mezi dvěma a více proměnnými

Úkoly v SPSS: souvisí čtení knih (q1_d) s věkem (vekkat)? Souvisí Pocit, že je uspěchaný ve volném čase (q5a_b) a lokalita bydliště (S21)

Další příklady výpočtu Chíkvadrátu pro vztah dvou proměnných

příklad Chí-kvadrát testu (2-dim) Kouření marihuany u žáků 9 a 12 třídy Zdroj: [Thyer, B. A. 2001.The Handbook of SOCIAL WORK RESEARCH METHODS.]

Příklad Chí-kvadrát test: pozorované a teoretické četnosti, stupně volnosti

Příklad Chí-kvadrát test: Výpočet 2x2 tabulka je rozepsána jako „had“ v řádcích Chíkvadrát kritický z tabulek > Chíkvadrát dosažený (naměřený) → Ho nelze zamítnout = homogenita mezi kategoriemi

Pouhý celkový test homogenity polí kontingenční tabulky sociologovi ovšem nestačí. A tedy co dál? U kterých kategorií je v kontingenční tabulce souvislost silnější a u kterých slabší? Viz presentace Kontingenční tabulka: vztahy mezi kategorizovanými znaky

Adjustovaná residua Znaménkové schéma CROSSTABS: Adj. standardised (v SPSS / PSPP) Adjustovaná residua Residuum v daném políčku tabulky (=pozorovaná (observed) minus očekávaná (expected) hodnota) dělený odhadem vlastní standardní chyby. Odpovídající standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem. Znaménkové schéma → jednoduchá vizualizace 'kde abs(z) >= 3.29 nahradí +++ resp. ---, 'kde abs(z) >= 2.58 nahradí ++ resp. --, 'kde abs(z) >= 1.96 nahradí + resp. -. Podrobněji viz prezentaci AKD2_kontg_tab.ppt

Znaménkové schéma Kritérium v daném políčku tabulky (Adjustované residuum) označuje významnost rozdílu mezi empirickým zjištěnou četností a teoretickou (očekávanou) četností. Umožňuje rychlou orientaci mezi dvěma znaky.

Více viz AKD2_kontg_tab.ppt Test odchylky od nezávislosti v poli tabulky: Adjustovaná residua a znaménkové schéma Více viz AKD2_kontg_tab.ppt

Procvičit v SPSS 0. kontrola absolutních četností v jednotlivých polích → transformace (sloučení) 1. správně orientovaná procenta 2. chíkvadrát test nezávislosti (tabulky jako celku) 3. adjustovaná residua a znaménkové schéma k detekování významných odchylek Úkol: Pohlaví a volil v 2006 Náboženské vyznání x Volil 2006 Náboženské vyznání x Velikost bydliště Náboženské vyznání x Velikost bydliště x Volil 2006

Úkol Procvičit v SPSS 2 x 2 tabulky Pohlaví a volil v 2006 Pohlaví a Vzdělání n x n Velikost bydliště x Vzdělání → sloučení nebo vybraná pole tabulky

S tříděním druhého stupně bychom se neměli spokojit S tříděním druhého stupně bychom se neměli spokojit. → Třídění třetího stupně a elaborace vztahů viz prezentace: Kontingenční tabulka: vztahy mezi kategorizovanými znaky (AKD2_kontg_tab.ppt) a Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt)

Vyloučení (posouzení) vlivu třetí proměnné → Třídění 3 stupně Kontingenční tabulka A x B x C Příklad pro tři proměnné: Volil (závislá) x VŠ (nezávislá-vysvětlující) x Pohlaví (nezávislá kontrolní) → Sledujeme vztah mezi A a B odděleně v kategoriích C, nejjednodušeji pomocí koeficientů asociace/korelace (kontingenční koef., Cramérovo V, Phi,… pořadové korelace Spermanovo Rho, TauB), detailněji pak klasicky % rozdíly mezi kategoriemi nebo adjustovaná residua. Parciální korelace – pro spojité proměnné Multivariační metody (např. regresní analýza, vícerozm. analýzu rozptylu ANOVA)

3. Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné (One-dimensional "goodness of fit" test) aneb, když máme teoretické-očekávané hodnoty odjinud než z očekávaných hodnot z distribuce v našich datech

One-dimensional "goodness of fit" test Cílem je ověřit hypotézu o shodnosti četností kategorií u jedné proměnné od jiného určitého očekávaného-teoretického rozložení, které je dáno informací mimo naše data, kupříkladu teorií nebo předchozími výsledky z jiného výzkumu (časově / mezinárodně).

One-dimensional "goodness of fit" test Situace je stejná jako u prvního příkladu s testem rovnoměrného zastoupení kategorií jednoho znaku Ale místo očekávané četnosti dané rovnoměrným zastoupením kategorií vstupujeme s teoretickými četnostmi, např. z předchozího výzkumu. V SPSS je situace pomocí NPAR TEST složitější: vstoupit s tabelárními daty je obtížné (viz finta DATA ENTRY s pomocí vážení vyjadřujícím podíly v syntaxu) Existují ale nástroje pro analýzu tabelárních dat (tj. pro agregované výsledky) http://vassarstats.net/csfit.html

Chí-kvadrát test: změna v čase Teoretickou četností zde není poměrové rozložení ale hodnota z předchozí etapy (výzkumu). Vypočítaná hodnota Chisq je menší než tabulková-kritická hodnota. Platí H0 o "nerozdílu„ (rozdíl v četnostech je způsoben náhodnými faktory).

Ukázka v SPSS: porovnání v čase pomocí Chíkvadrátu Porovnání proměny vzdělanostní struktury mezi kohortami 50-64 a 65-79 letých. → kohorta 65-79 představuje teoretické-očekávané hodnoty (info o očekávané četnosti zde máme z jednoho výzkumu, ale pro různé podskupiny věku) NPAR TESTS /CHISQUARE =vzd4 /EXPECTED= 52 135 72 17 /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Pozor: Zadáváme absolutní četnosti a v tomto případě musíme mít vypnuté vážení (WEIGHT OFF) a hodnoty musíme mít převážené na stejnou velikost výběru. 50 - 64 let 65 - 79 let 1 ZŠ 48 52 2 VYUČ 165 135 3 SŠ 125 72 4 VŠ 17 355 276 V tomto příkladu máme mikrodata (jednotlivé případy=respondenty v datech) pro věkovou kategorii 50-64 let a jejich vzdělanostní zastoupení testujeme proti teoretickým hodnotám pro věkovou kategorii 65-79, které máme také z těchto dat, ale už jako agregovaný výstup (tabulka třídění 1.stupně)

One-dimensional "goodness of fit" test Jiné statistické balíky mají možnost vstupu s tabelárními daty (kontingenční tabulka), http://vassarstats.net/csfit.html v SPSS můžeme pouze složitě načíst tabulku jako vážená data (pomocí váhy definujeme frekvence polí v tabulce) viz http://metodykv.wz.cz/syntaxy/data_input.sps Očekávané četnosti (Expected values) zde lze vkládat buď jako absolutní četnosti nebo i jako podíly, tj. procenta.

One-dimensional "goodness of fit" test. Příklad 3 One-dimensional "goodness of fit" test. Příklad 3. – Porovnání distribuce vzdělanostních kategorií ve dvou věkových kohortách. Vstupní data (absolutní četnosti): vzdělání v kohortě 1945-50 (=očekávaná-teoretická četnost) a kohortě 1951-56 (=empirická „námi naměřená“ četnost) Ověřujeme nulovou hypotézu H0: Vzdělanostní struktura se mezi kohortami 45-50 a 51-56 neproměnila. Jinými slovy, distribuce četností kategorií vzdělání je pro sledované kohorty stejná. Poznámka: Zde máme (retrospektivní) informaci z jednoho výzkumu, nicméně pro dvě podskupiny. Tím tak pouze simulujeme situaci, kdybychom porovnávali kohorty zkoumané v odlišných dobách resp. výzkumech (což samozřejmě není zcela přesné).

Příkaz NPAR TESTS v SPSS bere i pravděpodobnosti (%). Pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností Příkaz NPAR TESTS v SPSS bere i pravděpodobnosti (%).

One-dimensional "goodness of fit" test. Příklad 3 One-dimensional "goodness of fit" test. Příklad 3. Řešení v SPSS Chi-Square Test pomocí NPAR TESTS Poznámka: zde provádíme výpočet pro kohortu 1951-56 na původních individuálních datech a tu porovnáváme s očekávanými četnostmi v kohortě 1945-50 (64 18 5), které jsme si spočítali dříve pomocí Crosstabs (tím vlastně simulujeme data z jiné doby - výzkumu). *nejprve zapneme filtr pro kohortu 1951-56. FILTER BY vek18_1951_56. NPAR TESTS /CHISQUARE = vzd3 /EXPECTED = 64 18 5 /STATISTICS DESCRIPTIVES /MISSING ANALYSIS. Dosažená p hodnota je hraniční, tabulkový Chíkvadrát je χ2krit = 5,991 Proto raději hypotézu H0 (shoda s teoretickými četnostmi) nezamítneme.

Dtto na tabulárních datech pomocí aplikace http://vassarstats

Ale pozor: Suma očekávaných (Expected) četností musí být shodná jako u pozorovaných četností http://vassarstats.net/csfit.html Příkaz NPAR v SPSS to přepočítá automaticky, zde musíme sami (např. v Excelu)

Neparametrické testy (Non-parametric Tests) Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr Neparametrické metody: - nezávislé na rozdělní - méně citlivé na odchylky extrémních hodnot i pro výběry velmi malého rozsahu vhodné pro nominální i ordinální znaky Ale dochází častěji k chybnému nezamítnutí nepravdivé H0. Chí-kvadrát testy,

Webové nástroje pro analýzu Index of On-line Stats Calculators http://www.physics.csbsju.edu/stats/Index.html Exact r×c Contingency Table: http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html Statistical Calculations http://statpages.org/ R. Webster West applets http://www.stat.tamu.edu/~west/ http://www.stat.tamu.edu/~west/ph/ Učebnice: Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy http://www.stahroun.me.cz/interstat/ Statnotes: Topics in Multivariate Analysis, by G. David Garson http://faculty.chass.ncsu.edu/garson/PA765/index.htm StatSoft - Elektronická učebnice statistiky (anglicky) http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31 http://www.statsoft.com/textbook/