Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat II. Kontingenční tabulka: vztahy mezi kategorizovanými znaky Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 14.12.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat II. Kontingenční tabulka: vztahy mezi kategorizovanými znaky Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 14.12."— Transkript prezentace:

1 Analýza kvantitativních dat II. Kontingenční tabulka: vztahy mezi kategorizovanými znaky Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace UK FHS Historická sociologie (LS 2011)

2 Kontingenční tabulky sestavujeme tak, aby vyjadřovaly naší pracovní hypotézu.

3 Asociace mezi znaky míra souvislosti znaků opakování

4 Základní možnosti pro vztah dvou proměnných A x B (opakování) Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B) Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální

5 Asociace nominálních znaků Vyjádření souvislosti pomocí koeficientu (ekvivalent ke korelaci)

6 Asociace nominálních znaků: Kontingenční koeficient (CC) Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr. Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky. V SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V

7 Pro ordinální (kategoriální) data viz prezentaci Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky (AKD2_korelace.ppt) Pořadové (ordinální) korelační koeficienty: Spearmanovo Rho, Kendaulovo Tau B, Gama,…

8 A ZNOVU a znovu … Asociace (korelace) a kauzalita Asociace (korelace) neznamená automaticky kauzální vztah Podmínky kauzality (připomenutí podruhé): 1.Naměřená korelace (asociace A-B) 2.Časová souslednost (k A došlo před B) 3.Lze vyloučit vliv další proměnné/ných (A-B/C) Směr působení nám může pomoci určit silná teorie

9 Nejprve viz presentaci Testování hypotéz (1) - zejména část o dvoudimenzionálním Chíkvadrát testu dobré shody →homogenita v kontingenční tabulce

10 Kategoriální data (nominálními a ordinální znaky) Asociace v kontingenční tabulce Testování hypotéz o „odchylkách“ četností

11 Kontingenční tabulka Statistické míry a testování Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení chí kvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.

12 Chí-kvadrát testy: test dobré shody připomenutí Test pro homogenitu distribucí mezi kategoriemi znaku/ů test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. Pro nominální znaky (i ordinální a kategorizované kardinální) Nevyžaduje znalost předchozího rozdělení znaku Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - f O ) četnostmi a teoretickými (očekávanými -f E ) četnostmi náhodné nebo ne. Počet stupňů volnosti df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce

13 Chí-kvadrát test nezávislosti Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými- pozorovanými a teoretickými četnostmi náhodné nebo ne. Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. Lze aplikovat na již existující agregovaná data (publikované tabulky apod.) Příklad: porovnání vzdělanostní struktury v kohortě a 65-79

14 Chíkvadrát test v kontingenční tabulce Vztahy dvou (a více) znaků v tabulce

15 Princip testování vztahu 2 a více proměnných Většina statistických testů je založena na srovnání naměřené (empirické) distribuce pozorování do polí tabulky s distribucí, jakou bychom obdrželi, kdyby pozorování byla zařazena do polí tabulky náhodně (teoretická četnost).

16 Příklad: Čtení knih a vzdělání Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro f E 11 je 645*173/1202 = 92,8

17 Příklad: Čtení knih a vzdělání DF = (5-1)(3-1) = 8 při Alpha 0,05 χ 2 krit = 15,507 < naměřená hodnota 112,17 → zamítáme H0 „o nezávislosti“, tj, že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň jedna kategorie se liší od ostatních (tuto skutečnost nalezneme v 95 % případů v celé populaci) Místo porovnání hodnoty testovacího kritéria s kritickými hodnotami se pro rozhodování o nulové hypotéze používá také p- hodnota, kterou zjisítme pomocí statistického software. p α nelze zamítnout H0

18 Kontingenční tabulka - vyjádření vztahů kategorií Statistika chí kvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. Pro zjištění síly vztahu → - koeficienty (obdobné korelaci: CC), - znaménkové schéma – adjustovaná residua - podíl šancí (OR), - u ordinálních veličin korelační koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).

19 Kontingenční tabulka a testy dobré shody – pozor na: Prázdná pole a nízké četnosti v tabulce mohou zkreslit význam koeficientů měřících souvislost. Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskytlo méně než 20 % políček, v nichž by očekávané (teoretické) četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano").

20 Načtení tabelárních dat v SPSS z agregované existující kontingenční tabulky (→ vážení procenty) ****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007). DATA LIST LIST/vek vzdel volil freq. VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 " 50" / volil 1 "nevolil" 2 "volil". BEGIN DATA END DATA. FORMATS vek vzdel volil freq (f8). WEIGHT by freq. CROSS vzdel by volil by vek. CROSS vzdel by volil. Volil VěkVzdělání1 nevolil2 volil 1 <491 ZŠ+VY SŠ+VŠ >501 ZŠ+VY SŠ+VŠ56175 Volil VěkVzdělání1 nevolil2 volil 1 <491 ZŠ+VY SŠ+VŠ >501 ZŠ+VY SŠ+VŠ Pozice pole v tabulce Syntax: crosstab_data_input.sps

21 Test odchylky od nezávislosti v poli tabulky: Adjustovaná residua a znaménkové schéma

22 Test odchylky od nezávislosti v poli tabulky → znaménkové schéma V případě zamítnutí hypotézy o celkové nezávislosti, tj. celkové homogenitě tabulky (např. pomocí Chíkvadrát testu) dále hledáme pole tabulky, kde je nezávislost porušena. → skryté souvislosti uvnitř tabulky → znaménkové schéma odhaluje pole, kde nastává významná závislost

23 Kontingenční tabulka: očekávané četnosti a znaménkové schéma (princip) Očekávané (teoretické) četnosti vyjadřují model rozložení četností, za předpokladu, že by mezi znaky nebyl žádný vztah. = součin marginálních četností (daného políčka) dělený celkovou četností Očekávaná četnost: fO 11 = 2121 * 452 / 3815 [Kapr, Šafář 1969: 186] Znaménka: Rozdíl mezi pozorovanou (absolutní) a očekávanou četností (k učení síly viz dále)

24 Znaménkové schéma Kritérium v daném políčku tabulky (Adjustované residuum) označuje významnost rozdílu mezi empirickým zjištěnou četností a teoretickou (očekávanou) četností. Umožňuje rychlou orientaci mezi dvěma znaky.

25 Adjustovaná residua Znaménkové schéma CROSSTABS: Adj. standardised (v SPSS / PSPP) Adjustovaná residua = Residuum v daném políčku tabulky (= Pozorovaná (observed) minus Očekávaná (expected) hodnota) dělené odhadem vlastní standardní chyby. Standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem. Znaménkové schéma → jednoduchá vizualizace kde abs(z) >= 3.29 nahradíme +++ resp. --- abs(z) >= 2.58 nahradíme ++ resp. -- abs(z) >= 1.96 nahradíme + resp. -

26 znaménkové schéma měří statistickou významnost odchylek, nikoli jejich velikost Vznikne na základě adjustovaných reziduí, ty porovnáme s hodnotami z (1,96; 2,58;…), které odpovídají hladinám významnosti 5% (-), 1% (--), 0,1% (---); hladina významnosti α = 0,05 (z >2) → 5% riziko chyby našeho závěru; Např. α = 0,06 → 6% riziko chyby → výsledek je statisticky nevýznamný, naznačuje určitou tendenci, ale nejsme schopni ji prokázat s konvenční hladinou spolehlivosti

27 Znaménkové schéma: Znaménka Struktura adjustovaných residuí může skrývat působení nějakých latentních faktorů, které jsou přímo neměřitelné, ale které se v dané asociační struktuře projevují. Jde o latentní vlivy, na které můžeme usuzovat pouze na základě takto zjištěného vnějšího projevu. V praxi je struktura charakterizována, např. tzv. znaménkovým schématem (s volbou hranic pro znaménka: -, + = významné na hladině 0,05; --, ++ = na 0,01; ---, +++ = na 0,001). Rozlišujeme: - simultánní inferenci, → postihuje významnou strukturu toku jako celku (implementováno v SPSS v Asresid), -testování postupně všech jednotlivých polí → struktura znamének označuje významnost těchto jednotlivých proudů. Zde je schéma znamének v tabulce bohatší, protože prokázat statistickou vlastnost jednoho dílčího proudu bez ohledu na chování ostatních vyžaduje podstatně méně odchylné skóry než přijetí statisticky prokazatelného závěru o šedesáti dílčích proudech současně, tj. přijetí pravděpodobnostně spolehlivého závěru o tom, že všechny označené proudy jsou statisticky významně specifické (slabší nebo silnější) a tudíž jejich struktura může být interpretována jako systematicky vznikající celistvý tok. ZS je běžná rutina československých sociologů, umožňuje názorně pracovat se strukturou asociací v kontingenční tabulce. Je logickým krokem v analýze interakčních vazeb mezi kategoriemi řádků a sloupců. [Řehák, Mánek 1991]

28 Korespondenční analýza „jednoduchá“ → pro rozkrytí asociací ve složitější dvourozměrné tabulce

29 jednoduchá Korespondenční analýza zde to ovšem není ideální příklad, protože kategorií v tabulce by mělo být alespoň 7x7. Ve verzi SPSS Base korespondenční analýza bohužel není, ale lze vložit kontingenční tabulku (absolutní četnosti) např. do freeware programu PAST. PAST lze si lze stáhnout z (a umí mnohem, mnohem víc...).

30 Opět příklad: Čtení knih a vzdělání: absolutní četnosti, sloupcová %, adjustovaná residua

31 Znaménkové schéma

32 CROSSTABS: zadání Chíkvadrátu

33 CROSSTABS: zadání adjustovaných residuí pro znaménkové schéma Samotné znaménkové schéma musíme následně vytvořit ručně z tabulky (dle hodnot z ) a nebo použít skript

34 Procvičit v SPSS 0. kontrola absolutních četností v jednotlivých polích → transformace (sloučení) 1. správně orientovaná procenta 2. chíkvadrát test nezávislosti (tabulky jako celku) 3. adjustovaná residua a znaménkové schéma k detekování významných odchylek Úkol: Pohlaví a volil v 2006 Náboženské vyznání x Volil 2006 Náboženské vyznání x Velikost bydliště Náboženské vyznání x Velikost bydliště x Volil 2006

35 Poměr šancí - ODDS RATIO → další možnost vyjádření asociací uvnitř kontingenční tabulky Viz prezentaci Poměr šancí - ODDS RATIO AKD2_odds_ratio.ppt

36 Vyjádření vztahů mezi kategoriemi v kontingenční tabulce pomocí ODDS RATIO (OR)

37 Pomocí OR můžeme vyjádřit vztahy mezi kategoriemi v kontingenční tabulce OR _= f 11 f 22 / f 12 f 21 = OR = (424*68)/(19*674) = 2,25 U vysokoškoláků je v porovnání s ostatními 2,25x vyšší šance, že půjdou volit. V CROSSTABS v SPSS pozor na kódování kategorií (nelze nastavit, pouze překódovat).

38 Úkol Procvičit v SPSS 2 x 2 tabulky Pohlaví a volil v 2006 Pohlaví a Vzdělání n x n Velikost bydliště x Vzdělání → sloučení nebo vybraná pole tabulky

39 Vyloučení vlivu třetího jevu → Třídění 3 stupně Kontingenční tabulka A x B x C Příklad: pohlaví x volil x VŠ Parciální korelace Multivariační metody (např. regresní analýza, ANOVA)

40 Elaborace Třídění 3 stupně aneb kontrola pro další faktor

41 Vícerozměrná analýza: třídění třetího stupně Analyzujeme souběžně vztahy mezi několika proměnnými (nejčastěji více nezávislých – vysvětlujících znaků). Princip je stejný jako u dvourozměrné analýzy.

42 Vícerozměrná analýza: třídění třetího stupně Jak mezi muži tak ženami starší lidé chodí do kostela častěji než mladí. V každé věkové kategorii ženy navštěvují kostel častěji než muži. Podle tabulky, pohlaví má nepatrně větší efekt na chození do kostela než věk. Věk a pohlaví mají nezávislý vliv na chození do kostela. Uvnitř každé kategorie nezávislé proměnné odlišné vlastnosti té druhé přesto ovlivňují jednání. Podobně obě nezávislé proměnné mají kumulativní efekt na jednání. Starší ženy chodí nejčastěji a mladí muži nejméně často. [Babbie 1997: 391, tabulka 15-9] 100 % Rozdíl 9 %Rozdíl 16 %

43 Zjednodušení předchozí tabulky: 100 % → 70 % méně často Ukazujeme pouze pozitivní kategorie znaku („do kostela chodí týdně). Při tom neztrácíme žádný údaj. Četnosti v závorkách uvádí procentní základ, z něj lze dopočítat podíl nezobrazené kategorie. [Babbie 1997: 391: Table 15-10]

44 Příklad I.: Nepravá souvislost 1. bivariátní vztah (třídění 2.st.) Zdroj: [Disman 1993: ]

45 2. Při kontrole vlivu vzdělání (třídění 3 st.)

46 Zdroj: [Disman 1993: ]

47 Příklad II.: Potlačená souvislost (nepravá nezávislost) 1. bivariátní vztah (třídění 2.st.) Zdroj: [Disman 1993: ]

48 2. s kontrolou pohlaví (třídění 3 st.) mužiženy Kontrola 3 faktoru odhalila potlačenou souvislost (nepravou nezávislost) mezi dvěma proměnnými Příčina zkreslení → vztah mezi dvěma proměnnými existuje pouze v části populace

49 Testování/ kontrola vlivu dalšího faktoru Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.

50 Testování vlivu dalšího faktoru Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru. Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru

51 Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky Ptáme se: 1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné? Rozdíly mezi krajními kategoriemi věku: 14 %13 % 30 % Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje. Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání?

52 Pozor v SPSS tabulka vypadá jinak

53 Interakční a aditivní efekt Efekt 1 na 2 proměnnou závisí na 3 proměnné Interakční efekt: Dvě proměnné navzájem interagují a vytváří u 3 proměnné jiný výsledek než by měla každá zvlášť Při absenci interakčního efektu lze uvažovat o aditivním efektu, kdy vlivy jsou v principu podobné ale podél kategorií 1 proměnné zesilují/ oslabují

54 Interakční a aditivní efekt Aditivní efekt – efekty obou proměnných se propojují navzájem Interakční efekt – efekt jedné proměnné na druhou závisí na hodnotě třetí proměněné Podobný vliv věku kategoriích vzdělání Odlišný vliv věku v kategoriích vzdělání: u Mladých žádný rozdíl, u Starších se % Volení zvyšuje s vyšším vzděláním. Nejvyšší volební účast je u starších vysokoškoláků. Dopočet do 100 % je % Nevolil Stejný rozdíl mezi katg. věku v katg. vzdělání

55 Odhalení vlivu 3. proměnné pomocí asociačních koeficientů Rychlou identifikaci vlivu 3. proměnné můžeme provést pomocí asociačních koeficientů spočítaných zvlášť v jejích kategoriích. pro nominální znaky: Lambda, Phi, Cramérovo V, Koeficient kontingence pro ordinální znaky: ordinální korelace (Kendaullovo Tau-B a Tau-C, Spermanův korelační koeficient)

56 Dalším krokem analýzy může být přímá standardizace (podle faktoru Z) Ukazujeme tzv. čistý vztah dvou proměnných očištěný o vliv třetí proměnné. Tabulku standardizujeme (převážíme) podle faktoru Z, tj. jako kdyby všichni v kategoriích X měli stejné podíly v kategoriích Z (např. stejné vzdělání). Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků. Viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru

57 Příklad: moderace pohlavím (2) [Bryman 2008: ] Využívá jiné možnosti k pravidelnému cvičení než tělocvičnu x Věk x Pohlaví Vzorec odpovědí je pro muže a ženy jiný: muži jako celek, ženy nárůst s věkem ← Pozor absolutní četnosti!

58 Vztahy mezi X-Y a (Z) Moderace a mediace úvod

59 Vztah X-Y a Z: moderace a mediace Mediátor (Z) propojuje příčinu a následek. –Příčina ovlivňuje mediátorovou proměnnou a ta pak působí na závislou proměnnou Y. Moderátor (Z) modifikuje přímé působení nezávislé X na závislou proměnnou Y. –Stálá vlastnost (např. kontextuální proměnná jako charakteristika okolí) modifikuje příčinnou závislost. [Hendl 2010].

60 Vztah X-Y a Z: moderace a mediace Zdroj: [Hendl 2010: 3, 6] Mediátor Moderátor

61 Literatura Disman, M. (1993): Jak se vyrábí sociologická znalost. Praha: Karolinum. –Kapitola 9. „Všechno je jinak aneb vícerozměrná analýza.“ (s ). Babbie, E. (1995). The Practice of social Research. 7th Edition. Belmont: Wadsworth –Kapitola 16. „Elaboration Model.“ (s ). Hendl, J „Analýza působení mediátorových a moderátorových proměnných“ Informační Bulletin České statistické společnosti 21(1): Treiman, D. J Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass. –Kapitola 2. „More on Tables.“ (s ).


Stáhnout ppt "Analýza kvantitativních dat II. Kontingenční tabulka: vztahy mezi kategorizovanými znaky Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 14.12."

Podobné prezentace


Reklamy Google