ALIAS ANALÝZA DAT – PSY028 – SOC932 – FSS928

Slides:



Advertisements
Podobné prezentace
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Advertisements

Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Testování hypotéz vymezení důležitých pojmů
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
VLASTNOSTI MOTORICKÝCH TESTŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2009 FTVS.
Lineární regrese.
PSY252 Statistická analýza dat v psychologii II Seminář 3
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Lineární regrese kalibrační přímky
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Práce s výsledky statistických studií
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Lineární regrese FSS928.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Inferenční statistika - úvod
PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8
IV..
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
… jsou bohatší lidé šťastnější?
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Opakování – přehled metod
Statistické testování – základní pojmy
PSY117 Statistická analýza dat v psychologii Přednáška
Historická sociologie, Řízení a supervize
- váhy jednotlivých studií
PSY117 Statistická analýza dat v psychologii Přednáška
Proč statistika ? Dva důvody Popis Inference
PSY252 Statistická analýza dat v psychologii II Seminář 5-6
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Parciální korelace Regresní analýza
PSY117 Statistická analýza dat v psychologii Přednáška
PSY117 Statistická analýza dat v psychologii Přednáška
PSY252 Statistická analýza dat v psychologii II Seminář 3
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Transkript prezentace:

ALIAS ANALÝZA DAT – PSY028 – SOC932 – FSS928 Opáčko ze statistiky ALIAS ANALÝZA DAT – PSY028 – SOC932 – FSS928 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression

Základy lineární regrese Jednoduchá lineární regrese Účel použití Funkční vyjádření vztahu mezi 2 proměnnými – interpretace koeficientů, centrování (možná transformace) Kvalita modelu – R2 a s2res (MSR), R2 shrinkage Předpoklady a důsledky jejich porušení Nelinearita vztahu, heteroscedascita Omezení variability Třetí proměnná Odlehlé a vlivné hodnoty Vícenásobná (multiple) lineární regrese Parciální a semiparciální korelace Interpretace koeficientů – B, Beta Kvalita modelu, outlieři a kolinearita Způsoby vkládání prediktorů – stepwise metody a hierarchická regrese. Síla testu v MR

Použití lineární regrese Jak pro konfirmačně zaměřené projekty (experimenty, vypointované hypotézy), tak pro exploraci. Součást obecného lineárního modelu Pro většinu běžných použití shodná s analýzou rozptylu (liší se jen jazykem) Vstupní bod do „dospělé“ statistiky Modelování, podpora kauzálního usuzování velká část pokročilé statistiky jen rozvíjí a zobecňuje myšlenku regrese Mutilevel, zobecněné LM, SEM

Dhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 Lidé, kteří poslouchají osobní přehrávač na vysokou hlasitost [% z maxima přehrávače], vydrží nepříjemný hlasitý zvuk déle?

Jakou čarou tvar proložit

Lineární regrese I. - MODEL Je-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí Y ’ = a +bX b – směrnice, a – průsečík Y = Y’ + e Y = a + bX + e Odhad metodou nejmenších čtverců b = rxy(sy/sx) a = my – bmx Jsou-li X a Y vyjádřeny v z-skórech, pak b = rxy AJ: slope, intercept, least squares (estimation), regression coefficents (a,b)

výdrž’ = 0,43.hlasitost − 4,15 mh=39,6 sh = 10,7 mv=13,0 sv = 4,9 Namalovat pár bodů výdrž’ = 0,43.hlasitost − 4,15

Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 7,99 2,01

Lineární regrese III. – úspěšnost predikce sy2 = sreg2 + sres2 (ssy=ssres+ssreg) R 2 = sreg2 / sy2 Koeficient determinace (R2) Podíl rozptylu vysvětleného modelem Je ukazatelem kvality, úspěšnosti regrese Vyjadřuje shodu modelu s daty Pro jednoduchou lin. regr. platí R2 = r2 AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square)

Lineární regrese IV. – předpoklady, platnost Předpoklady oprávněnosti použití lineárního modelu jako u Pearsonovy korelace konceptuální předpoklad: vztah je ve skutečnosti lineární rezidua mají normální rozložení s průměrem 0 (a SD= sres) homoskedascita =rozptyl reziduí (chyb odhadu) se s rostoucím X nemění Platnost modelu je omezena daty, z nichž byl získán, a teorií. Extrapolace, neoprávněná extrapolace (jako generalizace nad rámec empirických dat) Pozor na odlehlé hodnoty – jako u všech ostatních momentových statistik AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity,

Pauza a úkol Zvolte si vhodnou závislou proměnnou a vyberte prediktory (čím lépe vyargumentované, tím větší šance na smysluplný výsledek). Ověřte předpoklady smysluplného využití LR Odhadněte parametry regrese a interpretujte, co vyšlo

Mnohonásobná lineární regrese K čemu je? Jak moc přispívá proměnná X k predikci jevu Y? Inkrementální validita Liší se muži a ženy v proměnné Y, i když zohledníme intervenující proměnnou Z? Statistická kontrola Je měřítko A lepším prediktorem než B? (lépe pomocí r) Jak velká část vztahu mezi X a Y je způsobená proměnnou W? Predikuje sada prediktorů stejně proměnnou Y i W? Zformulujete hypotézu ze své disertace. Poslední 5.2.3.net regression: nejprve predikujeme Y, potom (W-Y‘). Sig R2 znamená rozdíl, a sig B rozdíly u jednotlivých prediktorů.

MLR Y = b0 +b1X1 + b2X2 + … + bmXm + e Počet prediktorů není omezen, každý má svůj vliv Y = b0 +b1X1 + b2X2 + … + bmXm + e Problémy plynoucí z většího množství prediktorů Výpočetní komplikace Korelace mezi prediktory komplikují interpretaci – (multi)kolinearita Otázka „pořadí“ prediktorů Možnost neintuitivních výsledků – př. suprese Více příležitostí k rybaření Méně příležitostí si uvědomit omezenost modelu Množství dat více motivuje k přeskočení detailního se seznamování s daty a prozkoumávání naplnění předpokladů

VZTAH MEZI TŘEMI PROMĚNNÝMI PARCIÁLNÍ A SEMIPARCIÁLNÍ KORELACE Zjistili jsme, že účastníci našeho experimentu se nám opili. To nám vadí, protože opilost snižuje citlivost na podněty a zvyšuje obě naše proměnné. Bylo by možné zjistit korelaci mezi hlasitostí a výdrží, bez vlivu alkoholu? H A 0,95? V

A H V Korelace Parciální korelace rHV.A ≈ or/(or+žl+čer) (oranžová+hnědá)/(žlutá+červená+ oranžová+hnědá) ≈ rHV (zelená+hnědá)/(modrá+žlutá+ zelená+hnědá) ≈ rAH (fialová+hnědá)/(modrá+červená+ fialová+hnědá) ≈ rAV Parciální korelace rHV.A ≈ or/(or+žl+čer) Semiparciální korelace rH(V.A) ≈ or/(or+žl+čer+zel) V

Jak ale rozdělovat ty rozptyly? Regrese dělí proměnnou na sdílený rozptyl a reziduální rozptyl…. Parciální korelace rHV.A Uděláme regresi výdrže na alkohol – reziduum výdrže bez alkoholu Uděláme regresi hlasitosti na alkohol – reziduum hlasitosti bez alkoholu Korelace dvou reziduí je PARCIÁLNÍ KORELACE Semiparciální korelace rH(V.A) Korelace rezidua (V.A) se závislou proměnnou (H) AJ: zero-order correlation, partial correlation, part (semi-partial) correlation

* Též, „pokud by alkohol byl konstantní“ KORELACE MEZI HLASTIOSTÍ A VÝDRŽÍ , KONTROLUJEME-LI STATISTICKY* ALKOHOL JE… hlasitost vydrz alkohol 1,000 ,949** ,864** ,902** A H V rHV.A = 0,78 * Též, „pokud by alkohol byl konstantní“

MLR: Interpretace regresních koeficientů Y = b0 +b1X1 + b2X2 + … + bmXm + e Bi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos K porovnání síly prediktoru v různých skupinách, modelech, vzorcích bi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos k porovnání prediktorů mezi sebou v rámci jednoho modelu k porovnání různě operacionalizovaného prediktoru v různých modelech ukazatel velikosti účinku b0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované V různých modelech nemusí být vliv prediktoru stejný

Hrátky s prediktory Prediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách Porovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. Vše najednou = ENTER Postupně po jednom = FORWARD (pozor na supresi!) Vše a postupně ubírat = BACKWARD Po blocích, blockwise = ENTER + další blok

Suprese Tady z grafu odečíst b 

MLR: Shoda modelu s daty: R2 X1 Část rozptylu Y vysvětleného dohromady všemi prediktory Predikční síla sady prediktorů Ukazatel velikosti účinku R: Mnohonásobná (mutiple) korelace Vždy nadhodnocuje >> při replikaci vychází nižší R2 shrinkage correction – Adjusted (upravené) R2 Wherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat cross-validation Stein (Field) – očekávané R2 při replikaci split-sample analýza Y X2 X3

MLR Diagnostika 1: Outliery a vlivné případy Nemají některé případy příliš velký vliv na výsledky regrese? Outliery – mohou zvyšovat i snižovat b Rezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 Vlivné případy – případy, které nejvíc ovlivňují parametry Co se stane s parametry regrese, když případ odstraníme? Ostraněná (deleted) rezidua – jaké by bylo reziduum pro tento případ, kdybychom parametry regrese odhadli bez něj? Cookova vzdálenost – index efektu odstranění případu (> 1, popř. > 4/N) Multidimenzionální outliery – Mahalanobisova vzdálenost Případy s vysokými rezidui či vlivné případy NEODSTRAŇUJEME …leda by šlo o zjevnou chybu v datech či vzorku …leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici).

MLR Diagnostika 2: Kolinearita Když 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný Komplikuje porovnávání síly prediktorů Snižuje stabilitu odhadu parametrů V extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje Korelace mezi jednotlivými prediktory nad 0,9 Tolerance (= 1/VIF) cca pod 0,1 Ve Statistice Redundance nezávislých proměnných

Diagnostika 3: Předpoklady regrese Závislá alespoň intervalová, prediktory intervalové i kategorické Nenulový rozptyl prediktorů Linearita vztahu Absence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1) Neexistence intervenující proměnné, která by korelovala se závislou i prediktory (kterou nemáme v modelu) Homoscedascita (scatterplot ZRESID x ZPRED, parciální scatter) Nezávislost jednotlivých případů, nezávislost reziduí (Durbin-Watson = 2) Normálně rozložená rezidua (histogram, P-P)

Síla testu a velikost vzorku v MLR Přibývá nový faktor síly testu: množství prediktorů minimum (Green) pro R2: 50+8k pro Bi: 104+k po zohlednění velikosti účinku: R2; f2= R2 /(1- R2) Kalkulačky např: G*Power nebo Analýza síly testu ve Statistica Kalkulačka např: http://www.danielsoper.com/statcalc3/calc.aspx?id=1 Hair at al., 7th edition

Reportování MLR Základ Popisné statistiky Y a Xi často s korelační maticí Ujištění o naplnění předpokladů Popis shody modelu s daty – R2 , p (někdy i s Ftestem) Tabulkový přehled regresních koeficientů, b, b s jejich SE, popř. s intervaly spolehlivosti, nebo p

Libbrecht, N. , Lievens, F. , Carette, B. , & Côté, S. (2014) Libbrecht, N., Lievens, F., Carette, B., & Côté, S. (2014). Emotional intelligence predicts success in medical school. Emotion, 14(1), 64-73. doi:10.1037/a0034392

Úkol Zvolte si vhodnou závislou proměnnou a vyberte prediktory (čím lépe vyargumentované, tím větší šance na smysluplný výsledek). Ověřte předpoklady smysluplného využití MLR Odhadněte parametry regrese Prezentujete výsledky

pauza

Hierarchická lineární regrese Bloková, se sadami (sets) prediktorů Prediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí Teoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) Změna pořadí prediktorů změní velikost těch částí Zajímá nás schopnost sady prediktorů vylepšit model Srovnání různých oblastí vlivu na zkoumaný jev Zkoumání inkrementální validity Odlišit HLM – hierarchické lineární modely – mutilevel/random coefficients models

Obvyklá řazení bloků Dle času, kauzální priority Př. od dispozičním k situačním… Od známých k neznámým vlivům kontrola intervenujících proměnných Minimalizace chyby 1. typu Podle výzkumné relevance Od ústředních po „co kdyby“; maximalizace síly

Srovnávání modelů po blocích Po vložení bloku sledujeme, zda došlo k nárůstu R2 Test signifikance nárůstu Je-li A první blok prediktorů a B druhý H0: R2Y.AB – R2Y.A = 0 Testová statistika dfčitatel=kB (počet proměnných v sadě B) dfjmenovatel=n-kA-kB-1

OBVYKLÝ POSTUP REGRESNÍ ANALÝZY Na základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé Nejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího – to umožňuje testovat inkrement R2 Až v druhé řadě se zabýváme jednotlivými regresními koeficienty v modelu, který je nejúplnější/nejlepší

Úkol Pokuste se elaborovat model, který již jste odhadovali, aby odpovídal hierarchické regresní analýze Prezentuje příběh, který postupně rozšiřující se modely sdělují Nezapomeňte – tady není moc statistiky, hodně teorie

pauza

ZAPOJENÍ KATEGORICKÝCH PREDIKTORŮ Dummy coding ->dummy variables Pomocí k−1 kategorických proměnných Indikátorové kódování (indicator coding) Referenční kategorie = 0 Efektové kódování (effect coding) Referenční kategorie = -1 Příklad očekávané vzdělání (proti třeba optoimismu) Člen rodiny Původní proměnná Indikátorové kódování Efektové kódování Matka Otec 1 2 Dítě 3 -1

INTERPRETACE VAH DUMMY PROMĚNNÝCH Y = b0 +bA1XA1 + bA2XA2 + … + bmXm + e Po dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). Indikátorové kódování bAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu bAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině b0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině Efektové kódování bAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem b0 udává (při absenci jiných prediktorů) celkový průměr

Př. Závislá je ŽIVOTNÍ SPOKOJENOST Prediktor: Pohlaví a pak třeba Národnost

Moderace a Mediace Postup popsaný na předchozím snímku je zároveň testem MODERACE MODERACE je vedle MEDIACE prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými Terminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny, http://davidakenny.net/kenny.htm MODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu mezi X a Y MEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Moderátor a Moderátor následně ovlivňuje Y.

MODERACE A MEDIACE Var1 Var2 Mediator Var1 Var2 Moderator

Mediace X Y Mediator X signifikantně predikuje Y (! r může být při plné mediaci malá) X signifikantně predikuje Mediátor M signifikantně predikuje Y, je-li X kontrolována Původně signifikantní vztah mezi X a Y po zařazení mediátoru klesne (ideálně na 0) Nepřímý efekt X na Y (přes M) se statisticky významně liší od 0 – Sobelův test (a=BM.X, b=BY.M)

Př. Důvěrnost s rodiči predikuje depresivitu Př. Důvěrnost s rodiči predikuje depresivitu. Není to ale pouze nárůstem neshod spojeným s poklesem důvěrnosti?

MODERACe = Interakce Liší se vliv X na Y např. pro muže a ženy? http://www.jeremydawson.co.uk/slopes.htm

Interakce se realizuje násobením Interagovat mohou kategorické i intervalové proměnné Vytvoříme novou proměnnou, která je násobkem interagujících proměnných Př. depBYpoh=Deprese*pohlaví Vložíme do regrese tuto proměnnou vedle hlavních efektů Př. ŽS=b0 + b1*D + b2*P + b3*depBYpoh + e Regr. koeficient vyjadřuje rozdíl vlivů jedné interagující proměnné pro různé hodnoty druhé interagující proměnné

Nelineární vztah Př. Vztah mezi ročním příjmem a wellbeingem Řešíme: transformací X, Y nebo obou Mocninné transformace, ln, 1/x … ladder of powers zařazením nelineárního členu do regrese X2, ln(X) apod. Interakce je vlastně také nelineárním členem…

záv: deprese pred: selfe, effi3, duv_r, duv_v