Historická sociologie, Řízení a supervize UK FHS Historická sociologie, Řízení a supervize (LS 2014+) Analýza kvantitativních dat III. Interakce v regresním modelu Umožňuje mnohem flexibilnější specifikaci modelu – testování hypotéz Jiří Šafr FHS UK, SOÚ AV ČR, v.v.i. jiri.safr(zavináč)seznam.cz Prozatímní nehotová verze 1 poslední aktualizace 22.5. 2017
Možnosti v modelu a postup Interakce mezi vysvětlujícími proměnnými
K čemu jsou interakce? Pomocí modelování interakcí X1 a X2 (či dalších) můžeme efektivně testovat rozdíly mezi skupinami či ve vícerozměrné regresi dokonce zda se odhadnuté parametry modelu ve skupinách liší. Zařazením interakce (interakční člen) do modelu v principu ověřujeme, zda se efekt jedné nezávislé proměnné liší podél hodnot jiné nezávislé proměnné.
Interakce Koeficienty (slopes) se mohou ve skupinách nezávislé X-kateg. lišit
Pouze konstanty se liší mezi skupinami (tj Pouze konstanty se liší mezi skupinami (tj. ne interakce) → aditivní efekt dummy pro Xkateg. (např. pohlaví-muz) → liší se konstanta pro skupiny (muži/ženy)? Test rozdílu: Zde jsou jen 2 skupiny, proto stačí t-statistika, ale pro více skupin musíme Wald test Interpretace: nulová hyp.: „X má stejný efekt tj. směrnici, pro obě skupiny“. Koeficient „muz“ říká „o kolik“. Pokud je koef. „muz“ stat. významný, pak hovoříme o aditivním efektu (zde pohlaví) Tento model ukazuje na „vyrovnané zne/výhodnění“ mezi skupinami. reg Y x1 x2kat reg income educ VEK i.POHL
Jen směrnice (slope) se liší mezi skupinami = interakce číselné a kategoriální nez.pr.; konstanta je stejná dummy pro X2kat (pohlaví-muz) v násobku se spojitou X1; konstanta je pro skupiny X2 stejná → jak se efekt mění ve skupinách? Interpretace: kladný koef. X1*X2kat znamená, že má X1 má větší efekt (kladný nebo záporný) ve skupině A než v B Koeficient X1 je efektem pro skupinu B (referenční kateg.) Reg Y X1 X2dummy X1*X2dummy Test: T-test pro interakční člen
Konstatnta i směrnice se mohou měnit mezi skupinami Konstanta = rozdíl v počáteční hodnotě pro pro X2kateg Směrnice = jak se mění efekt mezi skupinami
Terminologie Hlavní efekt (main effect / term) = bez interakcí (X1, X2) Interakční efekt / člen (interaction effects / term) = interakce Pokud máme v modelu více nezávislých proměnných než dvě (X1, X2, X3 …), pak lze také jejich kombinace (+ hlavní efekty: X1, X2, X3): all 2-way effects „každá s každou“ (X1*X2, X1*X3, X2*X3) all 3-way effects (X1*X2, X1*X3, X2*X3 a X1*X2*X3) atd. jednodušší/redukovaný model (restricted model) vs. plný/bez omezení model (full/ unconstrained model) Jde o obecné odlišení zahnízděných modelů (s/bez určitého parametru). Omezený model může být např. bez X2kateg dummy proměnné pro rozdíl mezi skupinami, anebo pokračujeme dále: pak je omezený bez interakce a plný s interakcí.
Jak ověříme rozdíly mezi modely? Postupujeme pomocí testování v celkové síle (model fit) zahnízděných modelů. Obecně máme hypotézu H0: Výsledky omezeného=jednoduššího modelu (M1) a rozšířeného modelu (M2) jsou stejné. Alternativní hypotéza: Vysvětlující schopnost modelu M1 je menší než M2. M2 může být rozšířením M1 právě o interakční člen. F-test přidání parametrů (incremental F-test) Likelihood ratio test
Jak prezentovat interakce? Predicted values – modelem odhadnuté hodnoty do grafu. Vhodné pro X1-spojitá/číselná a X2 kategoriální proměnná. Příklad: Y= Příjem (log), X1= periférnost území (generel) dle kvalifikace, X2= gender X3= počet obyvatel (>/<5tis. v generelu)
Další stupeň interpretace: Marginální efekty Jiná možnost než v grafu ukazovat paralelní přímky predikovaných hodnot pro kategorie X2 můžeme spočítat a ukazovat rozdíl mezi predikovanými hodnotami → marginální efekt Pokud intervaly spolehlivosti neprochází 0, pak je rozdíl statisticky významný. např. pro kategorie pohlaví V lineárním (OLS) modelu a kateg. X2 je to rozdíl v adjustované predikované hodnotě mezi kategoriemi X2 podél hodnot spojité X1. Velký význam ale pro interpretaci nelineárních modelů, např. logistické regrese.
Predikované hodnoty a marginální efekty v lineárním modelu Predikované hodnoty pro specifické hodnoty Xi Specifické hodnoty X1 Periférnost: 1._at: kvalif_dim~A =-4.62 2._at: kvalif_dim~A =-3.62 3._at: kvalif_dim~A =-2.62 4._at: kvalif_dim~A =-1.62 5._at: kvalif_dim~A =-0.62 6._at: kvalif_dim~A = 0.38 7._at: kvalif_dim~A = 1.38 (hodnoty pokrývají spektrum od min do max) Marginální efekty pro specifické hodnoty Xi
Interakce: užitečné rady X1 (spojitou číselnou) je vhodné nejprve vycentrovat, např. na průměr (tj. odečteme u každého případu průměrnou hodnotu). Místo centrování na průměr, lze použít i jinou věcně zajímavou hodnotu, která bude přínosná pro interpretaci (např. pokud bychom odhadovali v modelu efekt vzdělání (měřený v letech školní docházky) na příjem, může jít o hodnotu „13 let“, což v ČR odpovídá „SŠ s maturitou“.) Celkově se výsledky modelu ani predikce nezmění, ale často nám to umožní smysluplnější intepretaci interakce. Interakční člen X1*X2 v modelu by měl být statisticky významný (f-test), ale hlavní efekty, tj. samostatné proměnné X1, X2 nemusí; ostatně do modelu s interakcemi je z principu vnesena extrémní multikolinearita. Jakmile přidáme interakční člen, pak nás již při interpretaci tolik nezajímají hlavní efekty (hodnota koeficientů).
Marginální efekty v logistickém modelu DOPLNIT