Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2011+) Analýza kvantitativních dat II./III. Redukce ve struktuře dat a vytváření aditivních indexů Odhalení struktury a vazeb mezi promennými a objekty Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 18.4.2016 (8.4.2015; vytvořeno 23.4. 2011)
Nepřímé pozorování a kovariance/korelace Až dosud jsme se zabývali vztahy mezi jednou závislou a jednou či více nezávislými proměnnými (v SEM terminologii kauzální model) Nyní budeme uvažovat struktury skryté v datech → vztah mezi několika proměnnými (bez určení závislá/nezávislá), cílem je nalézt nepřímo měřenou latentní proměnnou →jeden znak je (lineární či jinou) kombinací vícero znaků (a k tomu potřebujeme nejprve osvěžit znalosti o korelacích – viz presentace)
Možné důvody k analýze struktur v datech Analýza struktur v datech jako taková, cílem je rozkrytí, popis a pochopení struktur (např. postojů) Vytváření reliabilních a validních škál (tj. latentních proměnných) Postupů/metod je vícero, mezi hlavní patří: PCA (obecně explorační faktorová analýza) – pro kardinální znaky Pro matice nepodobnosti či podobnosti: Klastrová „shluková“ analýza (kardinální i kategoriální) MDS - vícerozměrné škálování
Analýza hlavních komponent (PCA) Umožňuje extrahovat hlavní vztahy ve vícerozměrných datech.* Cílem metody Principal Component Analysis (PCA) je transformace dat z původních proměnných do menšího poctu latentních proměnných Tyto nové proměnné mají vhodnější vlastnosti, je jich výrazně méně, vystihují téměř celou proměnlivost původních proměnných - jsou vzájemné nekorelované Latentní proměnné - hlavní komponenty → lineární kombinace původních proměnných, kdy: první hlavní komponenta y1 vystihuje největší část proměnlivosti (rozptylu) původních dat, druhá hlavní komponenta y2 zase největší část rozptylu neobsaženého v y1 , atd. Vstupními daty je většinou korelační matice (případně kovarianční) Obvyklým způsobem nalezení hlavních komponent v datové množině je výpočet tzv. vlastních čísel korelační matice (eigenvalues).* Pro kategoriální data lze použít analýzu hlavních komponent s optimálním škálováním. Zdroj: http://meloun.upce.cz/docs/research/chemometrics/methodology/4pca.pdf * Zdroj: [Húsek a kol. 2002]
Faktorová rotace Otočení přerozdělí vysvětlený rozptyl pro jednotlivé dimenze. Cílem natočení je získání jednodušší struktury: vyšší zátěže pro typické položky. Metoda ortogonální rotace Varimax: minimalizuje počet položek, které vykazují vysokou zátěž. Zdroj: [Meloun, Militklý, Hill 2005: 99]
Vstupní matice podobností souboru proměnných (korelační matice)
Metoda hlavních komponent (PCA) Dimenzionalita heterogenity okruhu přátel? (12 položek)
Metoda hlavních komponent (PCA) v SPSS Pozor: Předpokladem je že znaky jsou kardinální a s přibližně normálním rozložením. Existuje varianta CPCA pro ordinální znaky (nemá ale rotaci). Proměnné mohou mít odlišné škály – vstupem ale musí být korelační matice (nikoliv kovariance).
PCA - SYNTAX SPSS FACTOR /VARIABLES q27_a q27_b q27_c q27_d q27_e q27_f q27_g q27_h q27_i q27_j q27_k q27_l /MISSING LISTWISE /ANALYSIS q27_a q27_b q27_c q27_d q27_e q27_f q27_g q27_h q27_i q27_j q27_k q27_l /PRINT INITIAL EXTRACTION ROTATION /FORMAT SORT /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION.
Faktorové zátěže – rotované řešení (VARIMAX)
Jiné metody „rozkrývání“ a redukce struktury v datech Multidimenzionální škálování (MDS) Většinou je vstupní maticí nějaká míra nepodobnosti – distance (např. Euklidovská vzdálenost) Výhodou je možnost zkoumat binární proměnné (v klasické PCA/faktorové analýze v SPSS to nelze, ale je zde CPCPA) Nelze ale rotované řešení, ani uložení hodnot latentních proměnných (lze pouze pomocí součtových indexů) Shluková analýza (nejčastěji Hierarchická klastrová analýza) Tyto metody vychází z (stejné) matice nepodobností a jejich výsledky se navzájem doplňují. Shlukovat a MDS lze provádět jak pro proměnné (analogie k předchozímu příkladu s PCA), tak i pro případy (tj. respondenty, používáme pro agregovaná data)
Konstrukce souhrnné škály/indexu v klasické teorii měření Homogenita/dimenzionalita a Položková reliabilita
Postup konstrukce souhrnné škály/indexu – klasická teorie měření (CCT) Cíl: chceme z několika odpovědí na otázky (položek testu) konstruovat souhrnnou škálu (nejčastěji jako jejich sumu/průměr hodnot, také lze použít faktorové skóry) položky by měly měřit různé odrazy přitom ovšem jednoho společného konstruktu. (1.) Ověření homogenity/ jednodimenzionality např. exploračně pomocí PCA (nebo deduktivně v konfirmační fakt. anl. CFA) 2. Ověření vnitřní konzistence indexu - položkové reliability, např. pomocí koeficientu Cronbachovo alfa nebo Split-Half Coefficients
1. Homogenita/dimenzionalita
1. Dimenzionalita (5 vybraných položek pro BSC)? → PCA
2. Reliabilita (položková) → Konzistence měření
Význam reliability měření (obecně) pro velikost chyby, kterou do měření vnáší měřicí nástroj Chceme změřit určitý znak u jedince, který není přímo pozorovatelný (například znalost „něčeho“ → test) Pokud navrhneme takovéto testy dva a necháme osobu, aby na všechny otázky odpověděla dvakrát, a poté sečteme zvlášť výsledky obou testů, dojdeme nejspíše ke dvěma odlišným hodnotám, ačkoliv se vlastnost, kterou hodláme měřit (znalost), nezměnila. Rozdíly budou nejspíše způsobeny chybami v měřicím nástroji (testu). Chyba nastává při každém měření a užitečnost měřicí techniky spočívá do značné míry v její schopnosti přinášet přesné (stabilní) hodnoty. To má mj. dopad na zkreslení odhadu velikosti regresních koeficientů. Potřeba kvantifikovat chybu měřicího nástroje (dotazníku, testu) Reliabilita vyjadřuje, do jaké míry je měření konzistentní. Dostává-li výzkumník při každém použití měřicí metody velmi odlišné výsledky, je zřejmé, že je pro něj takto nepřesné měření nepoužitelné, neboť nemůže vědět, který výsledek se nejvíce blíží skutečné hodnotě. Neodhadnutí reliability měření může mít fatální následky pro další analýzy. Zdroj: [Schubert 2010]
Vnitřní konzistence měření (testu) – položková reliabilita Vnitřní konzistence (internal consistency): „jak moc tvoří vícero vzájemně podobných položek jednotnou skupinu“? Pomocí např. koeficientu Cronbachova Alfa zjišťujeme stupeň vnitřní konzistence položek ve škále, čímž odhadujeme reliabilitu (spolehlivost) škály jako celku.
Položková reliabilita: koeficient Cronbachovo alfa V principu jde o funkci počtu položek a průměru jejich vzájemných korelací (kovariancí). K počet položek, var (Yj) rozptyl j-té položky, var (Y) rozptyl celkových skóre Cronbachovo alfa (CA) má hodnoty 0 až 1 > 0,7 představuje vysokou konzistenci a reliabilitu škály ale záleží na počtu položek! CA = 1 → položky jsou svázány lineárně. Naopak nízké hodnoty vypovídají o nízké vnitřní konzistenci položek (tj. nízké spolehlivosti testu). Pro dichotomické proměnné (ano/ne) existuje zjednodušená varianta Kuder-Richardsonův vzorec 20 Zdroj: http://www.wikiskripta.eu
Vnitřní konzistence → položková reliabilita pomocí koeficientu Cronbachovo alfa doporučená hodnota CA je > 0,7 ale záleží na počtu položek! Vysoká hodnota CA nezaručuje, že měření je jednodimenzionální. Tato reliabilita vychází z předpokladu, že by všechny položky měřící jednu vlastnost měly mít mezi sebou kladné, dostatečně vysoké korelace. Ale čím vyšší je vnitřní konzistence, tím nižší je validita metody. To proto, že při měření latentních proměnných chceme zachytit celou šíři aspektů daného faktoru, avšak při vysoké vnitřní konzistenci všechny položky měří zhruba to stejné - jde tedy o neustálé vyvažování reliability a validity. Vnitřní konzistence také z principu roste s počtem položek. Více info viz [Soukup 2006] na http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112
Položková reliabilita výpočet v SPSS Příklad index Přemosťujícího sociálního kapitálu
Položková reliabilita v SPSS Příklad index Přemosťujícího sociálního kapitálu
Položková reliabilita v SPSS Příklad index Přemosťujícího sociálního kapitálu Vyřazení položky A – jiná generace
Položková reliabilita: Syntax RELIABILITY /VARIABLES=q27_a q27_b q27_c q27_d q27_e /SCALE ('Přemostující soc.kapitál') ALL /MODEL=ALPHA /STATISTICS=SCALE /SUMMARY=TOTAL.
3. Konstrukce indexu
Možnosti konstrukce indexu Při samotné konstrukci indexu (tj. latentní proměnné) máme v klasické teorii měření zásadě 3-4 možnosti: 1. zprůměrování (průměr odpovědí) 2. prostý součet (suma odpovědí, ale pouze listwise missing) 3. vážený součet (vážená suma odpovědí např. v testu znalostí dle obtížnosti položek) 4. faktorové skóry z (odladěné) PCA V praxi přináší tyto postupy většinou podobný* výsledek. Sofistikovanější alternativou je tzv. Model měření ve strukturním modelování (SEM), což je vlastně (odladěný) model konfirmační faktorové analýzy. Ta zohledňuje i chyby měření jednotlivých položek. Zcela jiný přístup pak nabízí teorie měření na položku IRT (item response theory).
Konstrukce indexu: zprůměrování položek (průměr odpovědí) zprůměrování odpovědí/položek Lze pouze u položek se stejnými hodnotami-kategoriemi odpovědí. Průměr z odpovědí je výhodnější strategií něž jejich prostý součet-sumace, protože nemusíme počítat jen s těmi případy (respondenty), kteří dopověděli na všechny otázky/položky (listwise missing), ale můžeme připustit, že na některé respondent nedopověděl. Musíme ale určit max. počet chybějících odpovědí-položek (na kolik otázek v baterii musel odpovědět, aby skóre bylo platné).
Konstrukce indexu: faktorové skóry z (odladěné) PCA Využijeme výsledky PCA. Toto řešení zohledňuje váhy jednotlivých položek, ale zohledňuje pouze všechny validní odpovědi (listwise missing). Pokud použijeme jako vstup korelační matici, tak dokonce nemusí být položky měřeny na stejných škálách. Nejprve je třeba ověřit jednodimenzionalitu, což platí i pro ostatní postupy řešení. Ideální je jen jedna hlavní komponenta. Ale lze souběžně i pro více dimenzí, pokud k nim máme teoreticko-interpretační odůvodnění, a zátěže (factor loadings) jsou na jednotlivých dimenzích jednoznačně unikátní (pravidlo palce je >0,4 vždy jen na jedné dimenzi). Pokud ne, pak můžeme nejednoznačně korelující položky vypustit. U více dimenzí pozor na význam u ortogonálního rotovaného řešení (VARIMAX), které sice rozkrývá strukturu dat jednoznačněji, při tom ale minimalizuje vzájemnou korelaci dimenzí na nulu, což může být v některých situacích nepřirozené.
Konstrukce součtového (aditivního) indexu Příklad BSC (Bridging Social Capital) → suma COMPUTE BSC_4x = SUM(q27_b, q27_c, q27_d, q27_e). FORMATS BSC_4x (f8). VAR LAB BSC_4x "Přemosťující soc. kapitál - oslišnost přátel (q27b+c+d+e; CA 0,72)". FREQ BSC_4x /histo=norm. Šafr, J., J. Häuberer. 2007. „Měření přemosťujícího sociálního kapitálu: baterie PSK zjišťující odlišnosti v okruhu přátel“. Data a výzkum / SDA Info. 2007/2: 85-108. http://archiv.soc.cas.cz/download/622/DaV0702_p85_108.pdf
Literatura Totální úvod: Soukup, P. 2006. „Čím větší, tím lepší (aneb mýty o reliabilitě.“ Socioweb. č.7 http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112 Podrobně k měření pomocí položkových baterií - položkové reliabilitě, ověřování dimenzionality: Schubert, J. 2010. „Klasická testová teorie reliability v metodologii výběrových šetření“. Data a výzkum - SDA Info 4(2). http://archiv.soc.cas.cz/download/1082/DaV10_2_s77_104.pdf Vybrané kapitoly a pasáže z Meloun, M., J. Militklý, M. Hill. 2005. Počítačová analýza vícerozměrných dat v příkladech. Praha: Academia. (kapitoly 4, 8 a 10)