Víceúrovňové modely Aneb kontextuální analýza v současnosti
3 možné strategie práce s kontextuáními daty 1) Klasická jednoúrovňová analýza – regrese, ANOVA, ANCOVA atd. na úrovni jedinců 2) Analýza na úrovni vyšších celků – Ecological inference 3) víceúrovňová analýza pracující s daty z jedince i kontext
Základní otázky v lineární regresi Lze nalézt lineární vztah mezi proměnnými? Jak velký vliv má nezávisle proměnná X na proměnnou závislou Y? Jak moc ji vysvětluje? Jakou konkrétní hodnotu bude mít závisle proměnná Y, když budeme vědět, jakou hodnotu má proměnná X – dokáže tedy z hodnot nezávisle proměnné predikovat hodnoty závisle proměnné. U více nezávislých proměnných se nabízí i další otázky
Regresní úkol a interpretace parametrů snaha graficky vystihnout závislost a příslušnou regresní křivku vyjádřit rovnicí význam parametrů u lineární regrese-konstanta - průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné-pozor někdy pro tuto interpretaci není z logického hlediska prostor), regresní koeficient-sklon křivky (o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku)
!!!Regrese předpoklady!!! Normalita závislé i nezávislých proměnných viz např procedura Explore v Analyze-Descriptives), nezávislá proměnná může být i dichotomická (nikdy ale ne ordinální či nominální) Nekorelovanost nezávislých proměnných (opak multikolinearita) Nezávislost jednotlivých pozorování - tedy prostý náhodný výběr Homoskedasticita a nekorelovanost náhodné složky
Metody odhadu parametrů metoda nejmenších čtverců MNČ (resp. OLS)-napozorované hodnoty prokládáme námi zvolenou křivkou tak, aby součet čtvercových odchylek regresní křivky od napozorovaných hodnot byl minimální
Regrese v SPSS výsledkem procedury v SPSS je regresní rovnice, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů F-test Ho: Model není dobrý (požadujeme Sig<0.05) T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) R2 (R-Square) po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné
Regrese v SPSS-závislost příjmu na počtu let vzdělání RSquare- po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné
Regrese v SPSS-závislost příjmu na počtu let vzdělání F-test Ho: Model není dobrý H1: Lze ho použít (požadujeme tedy Sig<0.05)
Regrese v SPSS-závislost příjmu na počtu let vzdělání T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) Z hodnot v tabulce lze napsat rovnici: Příjem= 1612 + 624* roky vzdělání Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více
Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má v průměru o 3800 Kč více
Kontextuální analýza Proměnné na úrovni jednotlivců: absolutní (absolute), vztahové (relational), porovnávací (comparative) a kontextuální (contextual)
Kontextuální analýza Proměnné na úrovni vyšších celků: Analytické (analytical) Strukturní (structural) a Globální (global)
Kontexty běžné pro analýzu dat Příklad Člen kolektivity (úroveň 1) Kolektivita (úroveň 2) Kolektivita vyššího řádu (úroveň 3) Školy žák třída škola Sousedé jedinec sousedství Region Náboženství náboženské společenství Církev Regiony okres kraj
Vznik jednotlivých typů proměnných (úroveň 1) (úroveň 2) (úroveň 3) Absolutní A→ Analytická Vztahová Strukturní Porovnávací Globální ←D Kontextuální A→ znamená, že z proměnné umístěné vlevo vzniká proměnná vpravo agregací ←D znamená, že proměnná umístěná vpravo se užívá na nižší úrovni za pomoci procesu opačnému k agregaci (desagregace).
Víceúrovňové modely-motivace a) teoretickometodologická (Kontextuální analýza) [Lazarsfeld, Menzel 1961] členění proměnných do těchto typů: globální (global), vztahové (relational), kontextuální (contextual), analytické a strukturní na první úrovni (u jednotlivců) má smysl se zabývat prvními třemi typy proměnných, na druhé (a vyšších úrovních) již všemi uvedenými typy Přehlížení kontextu např. Robinsův efekt [Robinson 1950], který vzniká při izolované práci s agregovanými daty ale i známý Simpsonův paradox popsaný ve většině učebnic věnovaných analýze kategoriálních dat, česky například u Hendla [Hendl 2004: 330-4].
Víceúrovňové modely-jazyk V angličtině se využívá několik ekvivalentů multilevel modeling (nejužívanější), random-coefficient modeling, hierarchical modeling, mixed-effects modeling, covariance components models
Obrázek 1 (Stejné konstanty, stejné směrnice)
Obrázek 2 (Různé konstanty, stejné směrnice)
Obrázek 3 (Stejné konstanty, různé směrnice)
Obrázek 4 (Různé konstanty, různé směrnice)
Víceúrovňové modely-motivace Problém různého vztahu ve skupinách a jeho regresního modelování Pokud chceme za pomoci jedné (agregované) regresní rovnice řešit vztah proměnných (při existenci dvou skupin), potom v případech na obrázcích 1 a 2 s klasickou regresí vystačíme. V případě zachyceném na druhém obrázku je třeba dát do modelu dichotomickou proměnnou zachycující pohlaví
Problém různého vztahu ve skupinách - pokračování Velmi často (vždy?) se setkáváme s případy na obrázcích 3 a 4 (resp. nejčastěji s případy na obrázku 4). Co se stane, pokud v těchto případech ignorujeme různý vztah pro muže a ženy, naznačují opět slabší nepřerušované regresní přímky. V realitě je běžně sledovaných skupin více a problém se jen komplikuje a volá po víceúrovňové analýze
Problém jednoúrovňové analýzy rozptylu Skupiny, v nichž se vztahy liší, jsou náhodně vybrány ze základního souboru. Příkladem může být náhodný výběr několika škol, ve kterých jsou potom náhodně vybráni žáci Chceme-li ale zobecnit závěry na všechny školy v ČR a hledat faktory které způsobují odlišnost škol, nevystačíme již s klasickou analýzou rozptylu. Opět nám úlohu může pomoci vyřešit víceúrovňové modelování, které se zaměřuje na modelování vztahů na úrovni jedinců (mikroúrovni) i na modelování rozdílů mezi jednotlivými skupinami
Jak poznat kdy má víceúrovňové modelování smysl? Pokud byl výběr vícestupňový pak bychom měli již díky narušení předpokladu nezávislosti pozorování použít víceúrovňové modely téměř automaticky Pomůcka, která nám napoví je ICC (vnitrotřídní korelační koeficient) ICC je založen na rozkladu rozptylu na první a druhou (třetí atd.) úroveň, tedy jako v analýze rozptylu na vnitro a meziskupinový rozptyl
Stručná poznámka o tříúrovňových modelech Obecně lze modelovat více úrovní než pouze dvě V případě tří úrovní můžeme vysvětlovat změny v proměnných druhé úrovně za pomoci proměnných na třetí úrovni Lze nechat náhodně variovat nejen proměnné první ale i druhé úrovně Je zřejmé, že narůstá složitost modelu a bohužel také klesá stabilita nelezeného řešení Navíc rostou požadavky na velikost výběrového souboru-na každé úrovni musíme mít dostatečný počet pozorování (jednotek) V praxi převažují dvouúrovňové modely, v případě speciálních studií s mnohatisícovými vzorky tříúrovňové, více úrovní se nepoužívá, ač teoreticky to samozřejmě není vyloučeno (a existují i software pro takovéto modely)
Problémy řešitelné víceúrovňově Modely růstu (growth models) U modelu růstu máme změřenou určitou vlastnost ve více časových okamžicích u různých jedinců. Měření v různých časových okamžicích můžeme považovat za první úroveň (stejně tak jako jednotlivé žáky ve škole) a jedince za druhou úroveň, tak jako školy. Výsledkem modelů růstu může být jednak zjištění, zda obecně dochází k nárůstu či poklesu sledované vlastnosti, zda se jedinci liší v růstových křivkách mezi sebou Metaanalýza 1. úroveň data z jednotlivých studií 2. úroveň jednotlivé studie Cíle: 1. najít společný („průměrný“) výsledek všech nalezených studií a 2. odhalit příčiny rozdílů mezi studiemi
Další problémy řešitelné víceúrovňově Modely se smíšenými hierarchiemi (Cross classified models) jedinec není zařazen jen do jedné skupiny která ho výrazněji ovlivňuje, ale do mnoha skupin a vlivy jednotlivých skupin se kříží Víceúrovňové strukturní modely Modely s latentními a manifestními proměnnými Víceúrovňové modely IRT (psychologie)
Možné zdroje informací Kreft, I. G., J. de Leeuw. 1998. Introducing multilevel modeling. London : Sage. Snijders, Tom A.B., Roel J.Bosker. 1999. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publisher. Hox, J. 2002. Applied Multilevel Analysis: Techniques and Applications. Erlbaum associates. Raudenbush, S. W., A.S. Bryk. 2002. Hierarchical Linear Models 2nd edition. London: Sage Publications.
Poznámky o software Speciální pakety: HLM –existuje zdarma studentská verze MLWin Mplus MIXOR/MIXREG Obecné statistické pakety: SAS-zřejmě nejlepší SPSS (od verze 11)-jen lineární modely STATA-pouze dvě úrovně