Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Direct standardization in contingency table (adjustment for factor) Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis II.

Podobné prezentace


Prezentace na téma: "Direct standardization in contingency table (adjustment for factor) Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis II."— Transkript prezentace:

1 Direct standardization in contingency table (adjustment for factor) Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis II. UK FHS Historical sociology (2014+)

2 2 Přímá standardizace v kontingenční tabulce Navazujeme na elaboraci – kontrolu vlivu Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) Princip viz přednášku Standardizace intenzitních údajů Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné

3 3 Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků. Přímá standardizace v kontingenční tabulce

4 Nejprve připomenutí principu: Tabulky třídění třetího stupně Podrobněji viz

5 5 Testování/ kontrola vlivu dalšího faktoru Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.

6 6 Testování vlivu dalšího faktoru Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru. Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru

7 7 Třídění 3 st.: kontrola vlivu 3 proměnné: interpretace a uspořádání tabulky Ptáme se: 1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné? Rozdíly mezi krajními kategoriemi věku: 14 %13 %30 % Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje. Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání?

8 Dalším krokem pak může být Přímá standardizace vztahu podle třetí proměnné

9 Rosenberg, M „Test Factor Standardization as a Method of Interpretation.“ Social Forces 41(1): Příklad1 Náboženskost rodiny x Sebeúcta dítěte (x Vzdělání otce)

10 10 Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah → tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y Zdroj: [Rosenberg 1962]

11 11 Náboženskost a Sebeúcta, kontrola vzdělání otce: Standardizace/vážení pro katolíky (Vys. sebeúcta): 0,1579 * 0,681 = 0,1075 Standardizace → převážení dle vzdělání otce váha hodnota v daném poli Zdroj: [Rosenberg 1962] Váhy (vzdělání otce) Váhy (podíl vzdělanostních kategorií → třídění 1.st.) spočítáme z absolutních četností

12 12 Pokračování tabulky Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962]

13 13 Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce 8th Grade or Less0,1579 Some High School0,2488 High School Graduate0,2891 Some College0,1019 College Graduate0,1312 Post-Graduate0,0712 Celkem1,000

14 14 Přímá standardizace: Vážený čistý procentní rozdíl Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně. Ukazujeme Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem (původní vztah bez kontroly) Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce)

15 15 Postup standardizace podle testového faktoru Váhy: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů (pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): = 592 tj. 15,79% resp. 0, to je naše váha pro kat. vzdělání I. Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 * 0,681 a 0,1579 * 0,718 a 0,1579 * 0,648 a 0,1579 * 0,258 atd. Podobně pro všechna pole každého panelu tabulky. Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0, , , , ,589 = 75,8 atd. (viz další snímek)

16 16 + pro další tři panely tabulky

17 17 Vážený podíl: pro High Self-Esteem Vážený podíl získáme jako součet převážených hodnot pro vzdělanostní kategorie v kategoriích náboženské orientace rodin: pro High Self-EsteemCatholicJewishProtestant 8th Grade or Less0,10750,11340,1023 Some High School0,17040,17570,1791 High School Graduate0,20730,21540,1659 Some College0,07220,08030,0712 College Graduate0,08860,11530,0926 Post-Graduate0,0519 0,0525 celkem0,6980,7520,664

18 18 Příklad1: Sebeúcta Porovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné Hrubý rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty 7,8% (69,7 - 77,5) Čistý (vážený pro vzdělání) je 6 % (69,8 - 75,8) To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8))

19 Příklad 2. Religiozita a militantnost v boji za občanská práva mezi afroameričany v USA (60. léta) se standardizací podle vzdělání [Treiman 2009: 30-33] Kapitola 2. More on the tables Úloha a tabulky jsou z původního článku Gary T. Marxe [1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?

20 20 Religiozita a militantnost - radikalita v boji za lidská práva (operacionalizace) Religiozita měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami. Militantnost v otázce boje za lidská práva měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní)

21 21 Militantnost podle Religiozity → bivariátní vztah, který nás zajímá Very ReligiousSomew. ReligNot very Relig. + Not at All Relig. Total Militant Nonmilitant Total100 % N(230)(532)(231) (993) Po sloučení kategorií „Not Very Religious“ a „Not at All Religious“

22 22 Militantnost podle vzdělání (třídění 2.stupně)

23 23 Militantnost podle religiozity a vzdělání: základní tabulka třídění 3. stupně s panely pro kontrolní proměnnou (zde vzdělání) V = Very religious, S = Somewhat religious, N = Not religious

24 24 Zjednodušená prezentace předchozí tabulky: pouze % Militantních + otočeno o 90 st. → viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních. → úsporná forma prezentace v tabulce

25 25 Z ní získáme – spočteme váhy: (protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) 1. Celkový počet případů = ( … + 49) =993 pro ZŠ (Grammar school) je počet ( ) = 353 atd. 2. Určíme váhy (podíly ve vzdělanostních kategoriích) : –pro ZŠ (Grammar school): 353 / 993 = 0,356 –pro SŠ (High school): 504 / 993 = 0,508 –pro VŠ (College): 136 / 993 = 0,137 Součet pro váhy je 1 (po zaokrouhlení). Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N

26 26 A vážíme – standardizujeme: Váhy: ZŠ SŠ VŠ pro Velmi silně věřící (very religious): 17 % *0, %*0, % *0,137 = 29 % pro Částečně věřící: 22 % *0, %*0, % *0,137 = 31 % pro Velmi slabě věřící a nevěřící: 32 % *0, %*0, % *0,137 = 45 % Standardizované – čisté podíly porovnáme s původními hrubými Váhy (podíly vzdělání): ZŠ (Grammar School)0,356 SŠ (High School)0,508 VŠ (College)0,137 V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní

27 27 Militantnost podle religiozity: Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku Rozsah procent mezi krajními kategoriemi nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání): 21 % hrubý rozdíl oproti 16 % čistému rozdílu (s kontrolou vzdělání) odpovídá 24 % redukci díky vlivu vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je ordinalita kategorií nezávislé proměnné (zde religiozita) a monotónnost vztahu závislé a nezávislé proměnné. [Treiman 2009: 29-31] Hrubé (nevážené) četnosti Vážený % rozdíl mezi krajními kategoriemi Hrubý (nevážený) % rozdíl mezi krajními kategoriemi REDUKCE vlivem kontrolní proměnné/ faktoru: (1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie.

28 28 Redukce efektu vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru) REDUKCE vlivem kontrolní proměnné (faktoru) → rozdíl hrubý (původní bez kontroly) a čistý (po převážení kontrolním faktorem) pro krajní kategorie nezávislé proměnné (min a max): (1 – (Čistý rozdíl / Hrubý rozdíl))*100 → K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné. Pozor platí pouze pro ordinální znaky, tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah (tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné).

29 29 Přímá standardizace pro kontrolu vlivu dvou proměnných Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total)

30 Vzdělanostní aspirace žáků 8.-9.tříd ZŠ mezi dvěma typy škol, při kontrole vlivu vzdělání rodičů Příklad 3. [Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.

31 31 Vzdělanostní aspirace žáku podle typu ZŠ a vzdělání rodičů Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací. Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší. Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10). → bivariátní vztah, který nás zajímá → potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat

32 32 Zároveň ale … Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů. → Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků? (a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry? (na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) → (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.) standardizace podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol podle vzdělání rodiny (max. Vyučení / min. SŠ)

33 33 1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme (pomocí Pivoting Trays nebo v Excelu) pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech Ideální je úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení) vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %) Otočeno o 90 st. Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st.

34 34 Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: interpretace Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: –ve školách ze sociálně vyloučených lokalit: 45 – 63 = 18 % bodů –ve školách z lokalit s majoritní populací : 44 – 75 = 31 % bodů Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) (CrV=0,13). → interakční efekt vzdělání rodičů a typu školy (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací. Možné sociologické interpretace: –Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“). –Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu. –Pozor ovšem, neznáme mnoho okolností – podmínek, za kterých mechanismus působí (zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).

35 35 Standardizace – převážení aspirací na SŠ/VŠ v typech škol podle vzdělání rodičů Váhy: máme-li mikro-data získáme je z třídění 1. stupně (Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Tabulka 3. stupně % aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem: Standardizace (převážení dle vzdělání rodičů): 9,82 % oproti 9,75 %, odpovídá -0,1 % rozdílu díky vlivu vzdělání rodičů (=(1-(9,82/9,75)). Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi nic nepřidává. Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.

36 36 Poznámky k příkladům 1, 2, 3 Př. 1 – Sebeúcta dětí: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …) Př. 2 – Militantnost afroameričanů: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící). Váhy pro vzdělání zde byly spočítány přímo z tabulky. Př. 1 – Aspirace dětí: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým podílem zde není (-0,1%).

37 Jak na to s tabulkami z SPSS: úprava tabulek třídění 3. stupně A ještě jeden příklad (č. 4): Chození do kina podle vzdělání při kontrole vlivu věku

38 38 Krok 1. bivariátní vztah: Chození do kina podle vzdělání Pokud jde o ordinální znak má smysl sledovat pro krajní kategorie nezávislé proměnné (zde vzdělání) hrubý % rozdíl. U nominálního znaku porovnáváme jednotlivé kategorie mezi sebou (viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická). Hrubý rozdíl v krajních kategoriích vzdělání: 6,5% – 13,8% = 7,3 % Zdroj: ISSP 2007

39 39 2. krok. třídění 3.stupně → přidáme do panelu kontrolní faktor (věk) V SPSS pro třídění 3.stupně dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou. Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.

40 40 Úprava tabulky tř. 3. st. v SPSS My ale chceme panely (s kontrolní proměnnou) vedle sebe. → Pivoting trays (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, jak je chceme: 1. vzdělaní v COLUMN o řádek dolů, 2. pak nad něj přetáhneme věk původní stavnaše úprava

41 41 Příprava tabulky třídění 3. st. z SPSS pro standardizaci Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 - Nechodí do kina) A pak případně pootočit o 90 st.

42 42 A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci Musíme ale ještě promazat „negativní“ kategorie (0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit

43 43 Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: Vážíme-standardizujeme podle věku. Váhy věku zde máme přímo spočítané z frekvence věku: 10-29let = 0, let = 0,30 50+let = 0,52) pro ZŠ+VY:33 * 0, * 0, * 0,52 = 8,2 pro SŠ: 36 * 0, * 0, * 0,52 = 13,8 pro VŠ: 31 * 0, * 0, * 0,52 = 13,8 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 = 5,6% Váhy: tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost) FREQ vek3.

44 44 V Excelu …(výstup z SPSS)

45 45 Velikost redukce ve vztahu (kino x vzdělání) způsobená kontrolním faktorem (věk) Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: –Čistý (vážený podle věku) = 5,6 % –Hrubý (původní bivariátní) = 7,3 % –Rozdíl hrubý – čistý (7,3 – 5,6) = 1,7 % Redukce díky vlivu věku: =(1-(5,6 /7,3) = 0,233 = 23 %

46 46 PARTIAL CORR q1_b WITH vzd4 BY vek /STATISTICS CORR. Řešení pro kardinální znaky → parciální korelace kino ← vzdělání při kontrole vlivu věku (původní kardinální/ordinální verze proměnných) Po kontrole vlivu věku došlo k poklesu Pearsonova korelačního koeficientu R o 25,2 % ((1-0,178/0,238)). Zdroj: Data ISSP 2007 (Poznámka: proměnná q1_b má maximum 5=nikdy, proto je zde korelace záporná.)

47 47 Parciální korelace: z-test statist.významnosti změny korelačního koeficientu H0: Ra = Rb → výsledek se zavedením kontroly pro třetí proměnnou nezměnil

48 48 Literatura Rosenberg, M „Test Factor Standardization as a Method of Interpretation.“ Social Forces 41(1): Marx, G. T „Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?“ American Sociological Review 32 (1): Šafr, J., B. Kalný (v recenzi). „Vzdělanostně– profesní aspirace žáků z rodin ohrožených sociálním vyloučením.“ in Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě, Institut mezioborových studií Brno, 19.–20. dubna Treiman, Donald J Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass.


Stáhnout ppt "Direct standardization in contingency table (adjustment for factor) Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis II."

Podobné prezentace


Reklamy Google