Jiří Šafr jiri.safr(zavináč)seznam.cz

Slides:



Advertisements
Podobné prezentace
Cíle a postupy empirického výzkumu
Advertisements

Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Sociologie – metody a techniky sociologického výzkumu
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat: 1. úvod do SPSS Jiří Šafr jiri.safr(zavináč)seznam.cz vytvořeno , poslední aktualizace UK FHS Historická.
SB029 Dodatek k přednáškám Základy analýzy dat a SPSS
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Analytické metody výzkumu
Statistika Vypracoval: Mgr. Lukáš Bičík
Teorie psychodiagnostiky a psychometrie
Varianty výzkumu Kroky výzkumu Výběrový soubor
Hypotézy ve výzkumu.
Analýza kvantitativních dat I.
Shluková analýza.
Sociologický výzkum.
Řízení a supervize v sociálních a zdravotnických organizacích
Vlastnosti motorických testů a baterií
Analytické metody výzkumu
VLASTNOSTI MOTORICKÝCH TESTŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2009 FTVS.
Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická.
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Diagnostické metody ve speciální pedagogice - úvod do diagnostiky
Lineární regrese.
Shluková analýza.
Korelace a elaborace aneb úvod do vztahů proměnných
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
Jiří Šafr jiri.safr(zavináč)seznam.cz
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Teorie psychodiagnostiky a psychometrie
Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.
Masarykova univerzita Fakulta sociálních studií PSY252 Statistická analýza dat II Seminář 7 - Reliabilita.
Kvantitativní metody výzkumu v praxi
Biostatistika 1. přednáška Aneta Hybšová
Marketingový průzkum Milan Mrázek Matematika & Business
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Teorie psychodiagnostiky a psychometrie
Analýza kvantitativních dat I. Vstupní test ze znalostí designu kvantitativního sociologického výzkumu Jiří Šafr jiri.safr(at)seznam.cz poslední aktualizace.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Inferenční statistika - úvod
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Opakování – přehled metod
Varianty výzkumu Kroky výzkumu Výběrový soubor
Kritéria kvality metod a výzkumného šetření
Induktivní statistika
Induktivní statistika
Mixed methods design (MMD)
Induktivní statistika
Principy testování a měření
4. cvičení
Úlohy o podobnosti objektů, mnohorozměrné škálování
Faktorová analýza cíl faktorové analýzy základní pojmy, postup
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Kvantitativní metody výzkumu v praxi PRAKTIKUM
Sociologický výzkum II.
Parciální korelace Regresní analýza
Metodologie pro ISK 2 Úvod do práce s daty
PSY252 Statistická analýza dat v psychologii II
ANALÝZA A KLASIFIKACE DAT
Lineární regrese.
Metody sociologického výzkumu kvantitativní. MSV-KVANT Výuka v LS 2018
Induktivní statistika
Transkript prezentace:

Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2011+) Analýza kvantitativních dat II./III. Redukce ve struktuře dat a vytváření aditivních indexů Odhalení struktury a vazeb mezi promennými a objekty Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 18.4.2016 (8.4.2015; vytvořeno 23.4. 2011)

Nepřímé pozorování a kovariance/korelace Až dosud jsme se zabývali vztahy mezi jednou závislou a jednou či více nezávislými proměnnými (v SEM terminologii kauzální model) Nyní budeme uvažovat struktury skryté v datech → vztah mezi několika proměnnými (bez určení závislá/nezávislá), cílem je nalézt nepřímo měřenou latentní proměnnou →jeden znak je (lineární či jinou) kombinací vícero znaků (a k tomu potřebujeme nejprve osvěžit znalosti o korelacích – viz presentace)

Možné důvody k analýze struktur v datech Analýza struktur v datech jako taková, cílem je rozkrytí, popis a pochopení struktur (např. postojů) Vytváření reliabilních a validních škál (tj. latentních proměnných) Postupů/metod je vícero, mezi hlavní patří: PCA (obecně explorační faktorová analýza) – pro kardinální znaky Pro matice nepodobnosti či podobnosti: Klastrová „shluková“ analýza (kardinální i kategoriální) MDS - vícerozměrné škálování

Analýza hlavních komponent (PCA) Umožňuje extrahovat hlavní vztahy ve vícerozměrných datech.* Cílem metody Principal Component Analysis (PCA) je transformace dat z původních proměnných do menšího poctu latentních proměnných Tyto nové proměnné mají vhodnější vlastnosti, je jich výrazně méně, vystihují téměř celou proměnlivost původních proměnných - jsou vzájemné nekorelované Latentní proměnné - hlavní komponenty → lineární kombinace původních proměnných, kdy: první hlavní komponenta y1 vystihuje největší část proměnlivosti (rozptylu) původních dat, druhá hlavní komponenta y2 zase největší část rozptylu neobsaženého v y1 , atd. Vstupními daty je většinou korelační matice (případně kovarianční) Obvyklým způsobem nalezení hlavních komponent v datové množině je výpočet tzv. vlastních čísel korelační matice (eigenvalues).* Pro kategoriální data lze použít analýzu hlavních komponent s optimálním škálováním. Zdroj: http://meloun.upce.cz/docs/research/chemometrics/methodology/4pca.pdf * Zdroj: [Húsek a kol. 2002]

Faktorová rotace Otočení přerozdělí vysvětlený rozptyl pro jednotlivé dimenze. Cílem natočení je získání jednodušší struktury: vyšší zátěže pro typické položky. Metoda ortogonální rotace Varimax: minimalizuje počet položek, které vykazují vysokou zátěž. Zdroj: [Meloun, Militklý, Hill 2005: 99]

Vstupní matice podobností souboru proměnných (korelační matice)

Metoda hlavních komponent (PCA) Dimenzionalita heterogenity okruhu přátel? (12 položek)

Metoda hlavních komponent (PCA) v SPSS Pozor: Předpokladem je že znaky jsou kardinální a s přibližně normálním rozložením. Existuje varianta CPCA pro ordinální znaky (nemá ale rotaci). Proměnné mohou mít odlišné škály – vstupem ale musí být korelační matice (nikoliv kovariance).

PCA - SYNTAX SPSS FACTOR /VARIABLES q27_a q27_b q27_c q27_d q27_e q27_f q27_g q27_h q27_i q27_j q27_k q27_l /MISSING LISTWISE /ANALYSIS q27_a q27_b q27_c q27_d q27_e q27_f q27_g q27_h q27_i q27_j q27_k q27_l /PRINT INITIAL EXTRACTION ROTATION /FORMAT SORT /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION.

Faktorové zátěže – rotované řešení (VARIMAX)

Jiné metody „rozkrývání“ a redukce struktury v datech Multidimenzionální škálování (MDS) Většinou je vstupní maticí nějaká míra nepodobnosti – distance (např. Euklidovská vzdálenost) Výhodou je možnost zkoumat binární proměnné (v klasické PCA/faktorové analýze v SPSS to nelze, ale je zde CPCPA) Nelze ale rotované řešení, ani uložení hodnot latentních proměnných (lze pouze pomocí součtových indexů) Shluková analýza (nejčastěji Hierarchická klastrová analýza) Tyto metody vychází z (stejné) matice nepodobností a jejich výsledky se navzájem doplňují. Shlukovat a MDS lze provádět jak pro proměnné (analogie k předchozímu příkladu s PCA), tak i pro případy (tj. respondenty, používáme pro agregovaná data)

Konstrukce souhrnné škály/indexu v klasické teorii měření Homogenita/dimenzionalita a Položková reliabilita

Postup konstrukce souhrnné škály/indexu – klasická teorie měření (CCT) Cíl: chceme z několika odpovědí na otázky (položek testu) konstruovat souhrnnou škálu (nejčastěji jako jejich sumu/průměr hodnot, také lze použít faktorové skóry) položky by měly měřit různé odrazy přitom ovšem jednoho společného konstruktu. (1.) Ověření homogenity/ jednodimenzionality např. exploračně pomocí PCA (nebo deduktivně v konfirmační fakt. anl. CFA) 2. Ověření vnitřní konzistence indexu - položkové reliability, např. pomocí koeficientu Cronbachovo alfa nebo Split-Half Coefficients

1. Homogenita/dimenzionalita

1. Dimenzionalita (5 vybraných položek pro BSC)? → PCA

2. Reliabilita (položková) → Konzistence měření

Význam reliability měření (obecně) pro velikost chyby, kterou do měření vnáší měřicí nástroj Chceme změřit určitý znak u jedince, který není přímo pozorovatelný (například znalost „něčeho“ → test) Pokud navrhneme takovéto testy dva a necháme osobu, aby na všechny otázky odpověděla dvakrát, a poté sečteme zvlášť výsledky obou testů, dojdeme nejspíše ke dvěma odlišným hodnotám, ačkoliv se vlastnost, kterou hodláme měřit (znalost), nezměnila. Rozdíly budou nejspíše způsobeny chybami v  měřicím nástroji (testu). Chyba nastává při každém měření a užitečnost měřicí techniky spočívá do značné míry v  její schopnosti přinášet přesné (stabilní) hodnoty. To má mj. dopad na zkreslení odhadu velikosti regresních koeficientů. Potřeba kvantifikovat chybu měřicího nástroje (dotazníku, testu) Reliabilita vyjadřuje, do jaké míry je měření konzistentní. Dostává-li výzkumník při každém použití měřicí metody velmi odlišné výsledky, je zřejmé, že je pro něj takto nepřesné měření nepoužitelné, neboť nemůže vědět, který výsledek se nejvíce blíží skutečné hodnotě. Neodhadnutí reliability měření může mít fatální následky pro další analýzy. Zdroj: [Schubert 2010]

Vnitřní konzistence měření (testu) – položková reliabilita Vnitřní konzistence (internal consistency): „jak moc tvoří vícero vzájemně podobných položek jednotnou skupinu“? Pomocí např. koeficientu Cronbachova Alfa zjišťujeme stupeň vnitřní konzistence položek ve škále, čímž odhadujeme reliabilitu (spolehlivost) škály jako celku.

Položková reliabilita: koeficient Cronbachovo alfa V principu jde o funkci počtu položek a průměru jejich vzájemných korelací (kovariancí). K počet položek, var (Yj) rozptyl j-té položky, var (Y) rozptyl celkových skóre Cronbachovo alfa (CA) má hodnoty 0 až 1 > 0,7 představuje vysokou konzistenci a reliabilitu škály ale záleží na počtu položek! CA = 1 → položky jsou svázány lineárně. Naopak nízké hodnoty vypovídají o nízké vnitřní konzistenci položek (tj. nízké spolehlivosti testu). Pro dichotomické proměnné (ano/ne) existuje zjednodušená varianta Kuder-Richardsonův vzorec 20 Zdroj: http://www.wikiskripta.eu

Vnitřní konzistence → položková reliabilita pomocí koeficientu Cronbachovo alfa doporučená hodnota CA je > 0,7 ale záleží na počtu položek! Vysoká hodnota CA nezaručuje, že měření je jednodimenzionální. Tato reliabilita vychází z předpokladu, že by všechny položky měřící jednu vlastnost měly mít mezi sebou kladné, dostatečně vysoké korelace. Ale čím vyšší je vnitřní konzistence, tím nižší je validita metody. To proto, že při měření latentních proměnných chceme zachytit celou šíři aspektů daného faktoru, avšak při vysoké vnitřní konzistenci všechny položky měří zhruba to stejné - jde tedy o neustálé vyvažování reliability a validity. Vnitřní konzistence také z principu roste s počtem položek. Více info viz [Soukup 2006] na http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112

Položková reliabilita výpočet v SPSS Příklad index Přemosťujícího sociálního kapitálu

Položková reliabilita v SPSS Příklad index Přemosťujícího sociálního kapitálu

Položková reliabilita v SPSS Příklad index Přemosťujícího sociálního kapitálu Vyřazení položky A – jiná generace

Položková reliabilita: Syntax RELIABILITY /VARIABLES=q27_a q27_b q27_c q27_d q27_e /SCALE ('Přemostující soc.kapitál') ALL /MODEL=ALPHA /STATISTICS=SCALE /SUMMARY=TOTAL.

3. Konstrukce indexu

Možnosti konstrukce indexu Při samotné konstrukci indexu (tj. latentní proměnné) máme v klasické teorii měření zásadě 3-4 možnosti: 1. zprůměrování (průměr odpovědí) 2. prostý součet (suma odpovědí, ale pouze listwise missing) 3. vážený součet (vážená suma odpovědí např. v testu znalostí dle obtížnosti položek) 4. faktorové skóry z (odladěné) PCA V praxi přináší tyto postupy většinou podobný* výsledek. Sofistikovanější alternativou je tzv. Model měření ve strukturním modelování (SEM), což je vlastně (odladěný) model konfirmační faktorové analýzy. Ta zohledňuje i chyby měření jednotlivých položek. Zcela jiný přístup pak nabízí teorie měření na položku IRT (item response theory).

Konstrukce indexu: zprůměrování položek (průměr odpovědí) zprůměrování odpovědí/položek Lze pouze u položek se stejnými hodnotami-kategoriemi odpovědí. Průměr z odpovědí je výhodnější strategií něž jejich prostý součet-sumace, protože nemusíme počítat jen s těmi případy (respondenty), kteří dopověděli na všechny otázky/položky (listwise missing), ale můžeme připustit, že na některé respondent nedopověděl. Musíme ale určit max. počet chybějících odpovědí-položek (na kolik otázek v baterii musel odpovědět, aby skóre bylo platné).

Konstrukce indexu: faktorové skóry z (odladěné) PCA Využijeme výsledky PCA. Toto řešení zohledňuje váhy jednotlivých položek, ale zohledňuje pouze všechny validní odpovědi (listwise missing). Pokud použijeme jako vstup korelační matici, tak dokonce nemusí být položky měřeny na stejných škálách. Nejprve je třeba ověřit jednodimenzionalitu, což platí i pro ostatní postupy řešení. Ideální je jen jedna hlavní komponenta. Ale lze souběžně i pro více dimenzí, pokud k nim máme teoreticko-interpretační odůvodnění, a zátěže (factor loadings) jsou na jednotlivých dimenzích jednoznačně unikátní (pravidlo palce je >0,4 vždy jen na jedné dimenzi). Pokud ne, pak můžeme nejednoznačně korelující položky vypustit. U více dimenzí pozor na význam u ortogonálního rotovaného řešení (VARIMAX), které sice rozkrývá strukturu dat jednoznačněji, při tom ale minimalizuje vzájemnou korelaci dimenzí na nulu, což může být v některých situacích nepřirozené.

Konstrukce součtového (aditivního) indexu Příklad BSC (Bridging Social Capital) → suma COMPUTE BSC_4x = SUM(q27_b, q27_c, q27_d, q27_e). FORMATS BSC_4x (f8). VAR LAB BSC_4x "Přemosťující soc. kapitál - oslišnost přátel (q27b+c+d+e; CA 0,72)". FREQ BSC_4x /histo=norm. Šafr, J., J. Häuberer. 2007. „Měření přemosťujícího sociálního kapitálu: baterie PSK zjišťující odlišnosti v okruhu přátel“. Data a výzkum / SDA Info. 2007/2: 85-108. http://archiv.soc.cas.cz/download/622/DaV0702_p85_108.pdf

Literatura Totální úvod: Soukup, P. 2006. „Čím větší, tím lepší (aneb mýty o reliabilitě.“ Socioweb. č.7 http://www.socioweb.cz/index.php?disp=teorie&shw=242&lst=112 Podrobně k měření pomocí položkových baterií - položkové reliabilitě, ověřování dimenzionality: Schubert, J. 2010. „Klasická testová teorie reliability v metodologii výběrových šetření“. Data a výzkum - SDA Info 4(2). http://archiv.soc.cas.cz/download/1082/DaV10_2_s77_104.pdf Vybrané kapitoly a pasáže z Meloun, M., J. Militklý, M. Hill. 2005. Počítačová analýza vícerozměrných dat v příkladech. Praha: Academia. (kapitoly 4, 8 a 10)