Nové statistické techniky v kvantitativním výzkumu

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

ANALÝZA LATENTNÍCH TŘÍD
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
SEM J.Hendl a P. Soukup.
SEM 12. Přednáška Petr Soukup.
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Analýza variance (Analysis of variance)
Regresní analýza a korelační analýza
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Fakulty informatiky a statistiky
Analýza dat.
Základy ekonometrie Cvičení září 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Mnohonásobné imputace chybějících hodnot
Lineární regrese.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
Metrologie   Přednáška č. 5 Nejistoty měření.
Korelace a elaborace aneb úvod do vztahů proměnných
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Základy ekonometrie 4EK211
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Statistická významnost a její problémy
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Biostatistika 1. přednáška Aneta Hybšová
LOGLINEÁRNÍ ANALÝZA 1.
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Víceúrovňové modely Aneb kontextuální analýza v současnosti.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
IV..
Aplikovaná statistika 2.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Základy zpracování geologických dat R. Čopjaková.
Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
ANALÝZA LATENTNÍCH TŘÍD
Co se dá změřit v psychologii a pedagogice?
Neparametrické testy parametrické a neparametrické testy
SEM J.Hendl a P. Soukup.
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
PSY252 Statistická analýza dat v psychologii II
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Nové statistické techniky v kvantitativním výzkumu

Možné zdroje informací Kaplan (ed.). 2004. The Sage of handbook of quantitative methodology for the social sciences. London : Sage. Řada Quantitive applications in the social sciences. Sage (cca 180 sešitků) Řada Advanced quantitative techniques in the social sciences. Sage (10 knih) Řada Wiley probability and statistics. Wiley (cca 280 knih) Řada Introducing statistical methods. Sage (cca 10 knih) Další nakladatelství Erlbaum associates, Springer Verlag, Oxford university press, Cambridge university press, Harvard university press

3 části statistické analýzy Popisná (deskripce) Průzkumová (explorační) Úsudková (Inferenční) Na třetí je dáván největší důraz, méně se provádí generování smysluplných hypotéz a prozkoumání dat

Základní problémy (přibližování realitě) Chybějící data Chyby měření a nemožnost měření některých fenoménů Lidé v dlouhodobých výzkumech přestávají spolupracovat Lidé jsou ovlivněni kontexty (hierarchiemi), v nichž žijí Normální rozdělení je v sociálních vědách nenormální Lineární vztahy nepopisují věrně realitu Hypotézy věcně vhodné nelze vždy pomocí statistiky zachytit a zkoumat

Základní oblasti rozvoje Víceúrovňová analýza Kategoriální data Latentní proměnné Oblast měření v sociálních vědách

Základní techniky řešící problémy 1. Od regrese k hierarchickým lineárním modelům 2. Od faktorové analýzy k analýze latentních tříd 3. Od chi-kvadrát testu k loglineárním (logitovým) modelům 4. Latentní proměnné a strukturní modelování 5. Problémy statistické významnosti 6. Oblast měření v sociálních vědách-mimo přednášku

1. hierarchické lineární modely

Možné zdroje informací Kreft, I. G., J. de Leeuw. 1998. Introducing multilevel modeling. London : Sage. Snijders, Tom A.B., Roel J.Bosker. 1999. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publisher. Hox, J. 2002. Applied Multilevel Analysis: Techniques and Applications. Erlbaum associates. Raudenbush, S. W., A.S. Bryk. 2002. Hierarchical Linear Models 2nd edition. London: Sage Publications.

!!!Regrese předpoklady!!! Normalita reziduí resp. náhodné složky viz např procedura Explore v Analyze-Descriptives) Nekorelovanost nezávislých proměnných (opak multikolinearita) Nezávislost jednotlivých pozorování - tedy prostý náhodný výběr Homoskedasticita a nekorelovanost náhodné složky

Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má v průměru o 3800 Kč více

Víceúrovňové modely-jazyk V angličtině se využívá několik ekvivalentů multilevel modeling (nejužívanější) ML, random-coefficient modeling, hierarchical modeling, mixed-effects modeling, covariance components models

Obrázek (Různé konstanty, různé směrnice)

Problém různého vztahu ve skupinách - pokračování Velmi často (vždy?) se setkáváme s případem na obrázku. Co se stane, pokud v těchto případech ignorujeme různý vztah pro muže a ženy, naznačují opět slabší nepřerušované regresní přímky. V realitě je běžně sledovaných skupin více a problém se jen komplikuje a volá po víceúrovňové analýze

Problém jednoúrovňové analýzy rozptylu Skupiny, v nichž se vztahy liší, jsou náhodně vybrány ze základního souboru. Příkladem může být náhodný výběr několika škol, ve kterých jsou potom náhodně vybráni žáci Chceme-li ale zobecnit závěry na všechny školy v ČR a hledat faktory které způsobují odlišnost škol, nevystačíme již s klasickou analýzou rozptylu. Opět nám úlohu může pomoci vyřešit víceúrovňové modelování, které se zaměřuje na modelování vztahů na úrovni jedinců (mikroúrovni) i na modelování rozdílů mezi jednotlivými skupinami

Ukázka – čten. gramotnost Parametr Odhad S.E. df t Sig. 95% Interval spol. Dolní Horní Intercept ######## 7.0400 664.166 72.739 0.000 Status ind 12.01 .9307 3520.980 12.907 .000 10.188752 13.838571 sebepojetí 20.5 .8447 3676.556 24.273 18.847527 22.159891 rodice ctou 2.45 .4249 3667.964 5.770 1.618690 3.284870 Status tř. 19.04 3.0555 260.613 6.232 13.026450 25.059684 jazykovka 6.9 3.9853 185.045 1.736 .084 -.944225 14.781046 veltridy .64 .2526 275.954 2.544 .012 .145261 1.139881 Závislá proměnná-čtenářská gramotnost, data PIRLS 2011, n=4800; Vysvětlení na úrovni tříd 76 %, na úrovni žáků 21 %

Další problémy řešitelné víceúrovňově Modely růstu (growth models) U modelu růstu máme změřenou určitou vlastnost ve více časových okamžicích u různých jedinců. Měření v různých časových okamžicích můžeme považovat za první úroveň (stejně tak jako jednotlivé žáky ve škole) a jedince za druhou úroveň, tak jako školy. Výsledkem modelů růstu může být jednak zjištění, zda obecně dochází k nárůstu či poklesu sledované vlastnosti, zda se jedinci liší v růstových křivkách mezi sebou Metaanalýza (pozor v SPSS nelze nejsou-li data z původních studií) 1. úroveň data z jednotlivých studií 2. úroveň jednotlivé studie Cíle: 1. najít společný („průměrný“) výsledek všech nalezených studií a 2. odhalit příčiny rozdílů mezi studiemi Modely se smíšenými hierarchiemi (cross classified models) Obecné statistické pakety: jedinec není zařazen jen do jedné skupiny která ho výrazněji ovlivňuje, ale do mnoha skupin a vlivy jednotlivých skupin se kříží

2. Analýza latentních tříd (LCA)

Možné zdroje informací Lazarsfeld, Henry. 1968. Latent structure analysis. Boston McCutcheon. 1987. Latent class analysis. Sage. Hagenaars, McCutcheon (eds.). 2002. Applied latent class analysis. Cambridge university press.

Základní myšlenky LCA (obdoba FA) FA – cíl najít několik málo faktorů (latentních proměnných), které nelze přímo měřit a nepřímo měříme jen jejich odraz v několika zachycených proměnných Měřené proměnné kardinální, analýza založena na korelacích, původ v psychologii inteligence (Spearman, 1906) LCA-vychází z Latent structure analysis (Lazarsfeld, Henry, 1968)-snaha najít latentní struktury, které se projevují v odpovědích na sadu dichotomických otázek

Základní myšlenky LCA (obdoba FA) LCA-rozšíření Latent structure analysis na nominální proměnné s více kategoriemi a ordinální proměnné-snaha najít latentní třídy, které se projevují v odpovědích na sadu dichotomických otázek Na rozdíl od FA se vychází z pravděpodobností (členství v příslušné třídě při určitých hodnotách odpovědí)

LCA výstupy /čeština Třída 1 (???) Třída 2 (???) Třída 3 (???) Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi Třída 1 (???) Třída 2 (???) Třída 3 (???) P třídní příslušnosti 0,68 0,13 0,19 Musím se učit 0,23 0,28 0,79 Bavím se o kn. 0,76 0,36 0,20 Kniha obl. dar 0,99 0,71 0,47 Nudné 0,04 0,07 0,78 Chci více 0,87 0,40 0,22 Užívám si 1,00 0,86 0,10

LCA výstupy / matika Třída 1 (???) Třída 2 (???) Třída 3 (???) Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi Třída 1 (???) Třída 2 (???) Třída 3 (???) P třídní příslušnosti 0,12 0,74 0,14 Užívám si 0,08 0,98 0,28 Nechci se učit 1,00 0,17 0,42 Nudné 0,06 0,45 Zajímavé věci 0,60 0,97 0,68 Mám rád 0,11 0,18 Důležité pro další život 0,93 0,99 0,91

3. Loglineární modely

Možné zdroje informací Agresti. 2002. Categorical data analysis. New York : Wiley-Interscience. Simonoff. 2003. Analyzing categorical data. New York : Springer. Knoke, Burke. 1980. Log-linear models . Newbury Park, California : SAGE Publications. DeMaris. 1992. Logit modeling: practical applications.  Newbury Park : Sage Publications. Česky: Hebák a kol. 2005. Vícerozměrné stat. metody s aplikacemi, 3. díl, kapitola 1

Chí-kvadrát test o nezávislosti Připomínka: Řeší problém závislosti kategoriální (nominální či ordinální) proměnné v řádku a sloupci v kontingenční tabulce Postoje k náboženství a k gender otázkám (souvisí spolu?) Count GENDER Total tradiční střed liberální Náboženský postoj věřící 458 311 202 971 ani, ani 132 191 182 505 nevěřící 51 119 159 329 Total 641 621 543 1805 Χ2=160, P=1,14 e-33 Pouze dvourozměrný vztah

Omezení chí-kvadrát testu, důvod pro loglineární modely Řeší problém závislosti jen mezi dvěmi proměnnými. Co když je ale vztah klamný a způsobuje ho jiná proměnná (elaborace) – loglineární modely Zde například postoje k genderu i náboženské ovlivňuje rasa jedince To ale za pomoci chí-kvadrát testu současně nepoznáme. Loglineární model - není závislá a nezávislá proměnná a řeší vztahy mezi více kategoriálními proměnnými Matematicky: Modelování četností ve vícerozměrné kontingenční tabulce za pomoci kategorií jednotlivých proměnných Logitový model – jedna proměnná považována za závislou, mdoelují se podíly četností (tzv. šance) Poznámka: Matematicky je jeden model převoditelný na druhý, jedná se tedy o dvě různá vyjádření téhož

Loglineární modely Loglineární analýzy jsou přístupy konfirmatorní, umožňují nám testovat existenci závislosti, významnost zařazení nezávislých proměnných do modelu, celkovou kvalitu modelu atd. Složitější modely pracují s proměnnými jako s ordinálními, případně využívají jejich součiny (interakce) Obdobou loglineárních modelů jsou logistické regrese (binární, odinální a polytomická) Aplikace v ČR: Řeháková, B.2001.Změny hodnot v České republice a Inglehartova hodnotová typologie.Sociální studia ,6:47-71 resp. Řeháková, B.2001.Who are the Czech Materialists, Post-Materialists and Those Who Are "Mixed".Czech Sociological Review,1:35-52

Loglineární modely - ukázka Model-kromě vztahu náboženského postoje a genderu zavedena ještě proměnná měřící z jaké etnické skupiny je jedinec (kontrola) Ukázka koeficientů: Parameter Odhad SE Z-value CI- L CI – U Exp(b) Naboz*gender trad 1,9640 ,1855 10,59 1,60 2,33 7,1 naboz*genderstred ,7723 ,1543 5,01 ,47 1,07 2,2 nabozstred*gendertrad ,7915 ,1998 3,96 ,40 1,18 2,2 nabozstred*genderstred ,3532 ,1604 2,20 ,04 ,67 1,4 ……atd. Vyhodnocení modelu: Chi-Square DF Sig. Likelihood Ratio 9,8112 8 ,2785 Pearson 9,8791 8 ,2736 Model elaborace kontrola vlivu 3. proměnné, vztah odolal.

4. Latentní proměnné, strukturní modely (SEM)

Možné zdroje informací Bollen, K. A. 1989. Structural equations with latent variables. Wiley MacDonald, R.. 1991, Faktorová analýza a příbuzné metody v psychologii. Academia Urbánek, T. 2000. Strukturní modely. Brno : AV ČR. Psychologický ústav. Časopis Structural Equation Modeling

Podstata metody SEM 2 části modelů Model měření Strukturní model Celkem tzv. modely kovariančních struktur Latentní a manifestní proměnné, endo a exogenní proměnné

Podstata metody SEM Cíl – zjistit zda navržený model a data se shodují resp. zda kovarianční matice generovaná modelem a napozorovaná jsou obdobné Možnosti různých testů, ale i desítky statistických kritérií (AGFI, RMSEA, AIC, BIC atd.) Většina algoritmů vhodných jen pro kardinální proměnné, teprve v poslední době i algoritmy pro ordinální proměnné – omezen aplikovatelnosti v sociálních vědách V poslední době i víceúrovňové strukturní modely

Strukturní model – ukázka

Strukturní model – popis

Závěrem

Obecně o software Speciální pakety: HLM, MLWin pro víceúrovňové modely Mplus-víceúrovňové modely, analýza lat. tříd LISREL, AMOS, EQS-strukturní modely Latent gold, MLLSA, Lem - LCA Atd. Obecné statistické pakety: SAS- umí ML, SEM, LOGLIN SPSS – umí ML, LOGLIN STATA – umí ML, LOGLIN STATISTICA – umí SEM, LOGLIN, ML

Stačí software? Problém: Software je téměř na vše, ale ne na vše jsou data. Ne vždy je třeba užívat novou techniku, mnohdy stačí jednoduchá běžná technika nebo není třeba statistiky vůbec :).