Víceúrovňové modely Aneb kontextuální analýza v současnosti.

Slides:



Advertisements
Podobné prezentace
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
Advertisements

kvantitativních znaků
EDA pro časové řady.
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Analýza variance (Analysis of variance)
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Testování hypotéz vymezení důležitých pojmů
Fakulty informatiky a statistiky
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
Praktické využití regresní analýzy Struktura národního hospodářství a znečištění ovzduší v tranzitivních ekonomikách: Případ České republiky Gabriela Jandová.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
V. Analýza rozptylu ANOVA.
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Struktura přednášky Analýza poptávky
Statistická významnost a její problémy
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Nové statistické techniky v kvantitativním výzkumu
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
IV..
Aplikovaná statistika 2.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Základy zpracování geologických dat R. Čopjaková.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
SEM J.Hendl a P. Soukup.
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Parciální korelace Regresní analýza
Metodologie pro ISK 2 Úvod do práce s daty
Lineární regrese.
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

Víceúrovňové modely Aneb kontextuální analýza v současnosti

3 možné strategie práce s kontextuáními daty 1) Klasická jednoúrovňová analýza – regrese, ANOVA, ANCOVA atd. na úrovni jedinců 2) Analýza na úrovni vyšších celků – Ecological inference 3) víceúrovňová analýza pracující s daty z jedince i kontext

Základní otázky v lineární regresi Lze nalézt lineární vztah mezi proměnnými? Jak velký vliv má nezávisle proměnná X na proměnnou závislou Y? Jak moc ji vysvětluje? Jakou konkrétní hodnotu bude mít závisle proměnná Y, když budeme vědět, jakou hodnotu má proměnná X – dokáže tedy z hodnot nezávisle proměnné predikovat hodnoty závisle proměnné. U více nezávislých proměnných se nabízí i další otázky

Regresní úkol a interpretace parametrů snaha graficky vystihnout závislost a příslušnou regresní křivku vyjádřit rovnicí význam parametrů u lineární regrese-konstanta - průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné-pozor někdy pro tuto interpretaci není z logického hlediska prostor), regresní koeficient-sklon křivky (o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku)

!!!Regrese předpoklady!!! Normalita závislé i nezávislých proměnných viz např procedura Explore v Analyze-Descriptives), nezávislá proměnná může být i dichotomická (nikdy ale ne ordinální či nominální) Nekorelovanost nezávislých proměnných (opak multikolinearita) Nezávislost jednotlivých pozorování - tedy prostý náhodný výběr Homoskedasticita a nekorelovanost náhodné složky

Metody odhadu parametrů metoda nejmenších čtverců MNČ (resp. OLS)-napozorované hodnoty prokládáme námi zvolenou křivkou tak, aby součet čtvercových odchylek regresní křivky od napozorovaných hodnot byl minimální

Regrese v SPSS výsledkem procedury v SPSS je regresní rovnice, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů F-test Ho: Model není dobrý (požadujeme Sig<0.05) T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) R2 (R-Square) po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné

Regrese v SPSS-závislost příjmu na počtu let vzdělání RSquare- po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné

Regrese v SPSS-závislost příjmu na počtu let vzdělání F-test Ho: Model není dobrý H1: Lze ho použít (požadujeme tedy Sig<0.05)

Regrese v SPSS-závislost příjmu na počtu let vzdělání T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) Z hodnot v tabulce lze napsat rovnici: Příjem= 1612 + 624* roky vzdělání Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více

Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má v průměru o 3800 Kč více

Kontextuální analýza Proměnné na úrovni jednotlivců: absolutní (absolute), vztahové (relational), porovnávací (comparative) a kontextuální (contextual)

Kontextuální analýza Proměnné na úrovni vyšších celků: Analytické (analytical) Strukturní (structural) a Globální (global)

Kontexty běžné pro analýzu dat Příklad Člen kolektivity (úroveň 1) Kolektivita (úroveň 2) Kolektivita vyššího řádu (úroveň 3) Školy žák třída škola Sousedé jedinec sousedství Region Náboženství náboženské společenství Církev Regiony okres kraj

Vznik jednotlivých typů proměnných (úroveň 1) (úroveň 2) (úroveň 3) Absolutní A→ Analytická Vztahová Strukturní Porovnávací Globální ←D Kontextuální A→ znamená, že z proměnné umístěné vlevo vzniká proměnná vpravo agregací ←D znamená, že proměnná umístěná vpravo se užívá na nižší úrovni za pomoci procesu opačnému k agregaci (desagregace).

Víceúrovňové modely-motivace a) teoretickometodologická (Kontextuální analýza) [Lazarsfeld, Menzel 1961] členění proměnných do těchto typů: globální (global), vztahové (relational), kontextuální (contextual), analytické a strukturní na první úrovni (u jednotlivců) má smysl se zabývat prvními třemi typy proměnných, na druhé (a vyšších úrovních) již všemi uvedenými typy Přehlížení kontextu např. Robinsův efekt [Robinson 1950], který vzniká při izolované práci s agregovanými daty ale i známý Simpsonův paradox popsaný ve většině učebnic věnovaných analýze kategoriálních dat, česky například u Hendla [Hendl 2004: 330-4].

Víceúrovňové modely-jazyk V angličtině se využívá několik ekvivalentů multilevel modeling (nejužívanější), random-coefficient modeling, hierarchical modeling, mixed-effects modeling, covariance components models

Obrázek 1 (Stejné konstanty, stejné směrnice)

Obrázek 2 (Různé konstanty, stejné směrnice)

Obrázek 3 (Stejné konstanty, různé směrnice)

Obrázek 4 (Různé konstanty, různé směrnice)

Víceúrovňové modely-motivace Problém různého vztahu ve skupinách a jeho regresního modelování Pokud chceme za pomoci jedné (agregované) regresní rovnice řešit vztah proměnných (při existenci dvou skupin), potom v případech na obrázcích 1 a 2 s klasickou regresí vystačíme. V případě zachyceném na druhém obrázku je třeba dát do modelu dichotomickou proměnnou zachycující pohlaví

Problém různého vztahu ve skupinách - pokračování Velmi často (vždy?) se setkáváme s případy na obrázcích 3 a 4 (resp. nejčastěji s případy na obrázku 4). Co se stane, pokud v těchto případech ignorujeme různý vztah pro muže a ženy, naznačují opět slabší nepřerušované regresní přímky. V realitě je běžně sledovaných skupin více a problém se jen komplikuje a volá po víceúrovňové analýze

Problém jednoúrovňové analýzy rozptylu Skupiny, v nichž se vztahy liší, jsou náhodně vybrány ze základního souboru. Příkladem může být náhodný výběr několika škol, ve kterých jsou potom náhodně vybráni žáci Chceme-li ale zobecnit závěry na všechny školy v ČR a hledat faktory které způsobují odlišnost škol, nevystačíme již s klasickou analýzou rozptylu. Opět nám úlohu může pomoci vyřešit víceúrovňové modelování, které se zaměřuje na modelování vztahů na úrovni jedinců (mikroúrovni) i na modelování rozdílů mezi jednotlivými skupinami

Jak poznat kdy má víceúrovňové modelování smysl? Pokud byl výběr vícestupňový pak bychom měli již díky narušení předpokladu nezávislosti pozorování použít víceúrovňové modely téměř automaticky Pomůcka, která nám napoví je ICC (vnitrotřídní korelační koeficient) ICC je založen na rozkladu rozptylu na první a druhou (třetí atd.) úroveň, tedy jako v analýze rozptylu na vnitro a meziskupinový rozptyl

Stručná poznámka o tříúrovňových modelech Obecně lze modelovat více úrovní než pouze dvě V případě tří úrovní můžeme vysvětlovat změny v proměnných druhé úrovně za pomoci proměnných na třetí úrovni Lze nechat náhodně variovat nejen proměnné první ale i druhé úrovně Je zřejmé, že narůstá složitost modelu a bohužel také klesá stabilita nelezeného řešení Navíc rostou požadavky na velikost výběrového souboru-na každé úrovni musíme mít dostatečný počet pozorování (jednotek) V praxi převažují dvouúrovňové modely, v případě speciálních studií s mnohatisícovými vzorky tříúrovňové, více úrovní se nepoužívá, ač teoreticky to samozřejmě není vyloučeno (a existují i software pro takovéto modely)

Problémy řešitelné víceúrovňově Modely růstu (growth models) U modelu růstu máme změřenou určitou vlastnost ve více časových okamžicích u různých jedinců. Měření v různých časových okamžicích můžeme považovat za první úroveň (stejně tak jako jednotlivé žáky ve škole) a jedince za druhou úroveň, tak jako školy. Výsledkem modelů růstu může být jednak zjištění, zda obecně dochází k nárůstu či poklesu sledované vlastnosti, zda se jedinci liší v růstových křivkách mezi sebou Metaanalýza 1. úroveň data z jednotlivých studií 2. úroveň jednotlivé studie Cíle: 1. najít společný („průměrný“) výsledek všech nalezených studií a 2. odhalit příčiny rozdílů mezi studiemi

Další problémy řešitelné víceúrovňově Modely se smíšenými hierarchiemi (Cross classified models) jedinec není zařazen jen do jedné skupiny která ho výrazněji ovlivňuje, ale do mnoha skupin a vlivy jednotlivých skupin se kříží Víceúrovňové strukturní modely Modely s latentními a manifestními proměnnými Víceúrovňové modely IRT (psychologie)

Možné zdroje informací Kreft, I. G., J. de Leeuw. 1998. Introducing multilevel modeling. London : Sage. Snijders, Tom A.B., Roel J.Bosker. 1999. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publisher. Hox, J. 2002. Applied Multilevel Analysis: Techniques and Applications. Erlbaum associates. Raudenbush, S. W., A.S. Bryk. 2002. Hierarchical Linear Models 2nd edition. London: Sage Publications.

Poznámky o software Speciální pakety: HLM –existuje zdarma studentská verze MLWin Mplus MIXOR/MIXREG Obecné statistické pakety: SAS-zřejmě nejlepší SPSS (od verze 11)-jen lineární modely STATA-pouze dvě úrovně