Jiří Šafr jiri.safr(zavináč)seznam.cz

Jiří Šafr jiri.safr(zavináč)seznam.cz
UK FHS Historická sociologie (LS ) Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace ,

Princip, cíle regresní analýzy
Cílem je určit statistický vztah jedné nebo několika nezávislých-vysvětlujících kardinálních (číselných) proměnných [X1, X2,…] (prediktor, regresor) k jedné kardinální (číselné) závislé proměnné [Y]. Predikce hodnot Y pomocí regresní rovnice Model explanace Y Testování hypotéz pomocí odlišných „ne/zahnízděných“ modelů X Nejpoužívanější vícerozměrná metoda v sociálních vědách

Mezigenerační vzdělanostní mobilita – lineárně regresní přímka (metoda nejmenších čtverců)
Zdroj: [Treiman 2009: 88]

OLS: Chyba predikce (residual)
Zdroj: [Treiman 2009: 90]

http://metodykv.wz.cz/ VzdOtecSyn.xls
DATA pro předchozí příklad VzdOtecSyn.xls

Lineární regrese Metoda nejmenších čtverců (OLS)
Regresní koeficient (slope) Konstanta (intercept) OLS (Ordinary Least Squares) Přímka minimalizuje součet ploch čtverců vzdáleností naměřených hodnot od predikované přímky. Kritériem je nejmenší čtverec chyby odhadu. y = a + b *x

Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….). y = a + bx y = hodnota závislé proměnné, a = konstanta (typická závislé při nejnižší hodnotě nezávislé proměnné), b = regresní koeficient „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

Vícenásobná lineární regrese
Třídimenzionální zobrazení: závislá proměnná a dvě nezávislé-vysvětlující Řešení pomocí OLS zde představuje plocha, která minimalizuje sumu kvadrátů vertikálních vzdáleností mezi jednotlivými pozorováními a touto plochou. Zdroj: James et al. 2015: 73

Vícenásobná lineární regrese
Y = α + γ1 x1 + γ2 x2 + … γn xn + ξ y = a + b1 *x1 + b2 * x2 … ξ – chyba, suma vlivu všech proměnných na Y neobsažených v modelu α či a – konstanta γ1 či b1 – regresní koeficienty (parciální) x1 – hodnoty nezávislých proměnných R2 – koeficient determinace = mocnina vícenásobného korelačního koeficientu. R2 = Variabilita vysvětlená modelem / celková variabilita Vyjadřuje podíl variance závislé proměnné vysvětlené uvažovanými závislými proměnnými („jak dobře rovnice vyjadřuje varianci v Y“).

Korelace a regrese Korelace je symetrická X ↔ Y
Regrese je asymetrická X → Y Vysvětlujeme závislost Y na X V jednoduché regresi s jednou nezávislou proměnnou jsou standardizované regresní koeficienty = korelační koeficienty Hodnoty koeficientu: kladný=pozitivní; záporný=negativní vztah

Regresní koeficienty Nestandardizované B - metrické „o kolik se změní hodnota závislé proměnné při jednotkové změně nezávislé proměnné X“→ predikce hodnot Y Standardizované β (Beta) = o kolik jednotek standardních odchylek se změní závislá proměnná Y při jednotkové změně standardní odchylky nezávislé proměnné X → určujeme tak relativní sílu vlivu jednotlivých proměnných X na proměnnou závislou Y. Můžeme porovnávat jejich vliv i pokud mají odlišnou metriku (jiné škály měření) Ve vícerozměrné regresi platí, že regresní koeficienty ukazují vliv proměnné nezávislé na proměnnou závislou očištěnou od vlivu působení ostatních nezávislých proměnných. Standardizace → od proměnné se odečte průměr

Lineární regresní analýza (OLS) v SPSS
Závislá VYSVĚTLOVÁ proměnná (Y) Závislá proměnná Y musí být kardinální (číselná) s přibližně normálním rozložením Nezávislé(á) – VYSVĚTLUJÍCÍ proměnné(á) (X1, X2, …) Nezávislé proměnné (X1, X2, …) jsou kardinální (číselné). V případě kategoriálního znaku jej můžeme rozložit na sadu dichotomických znaků (0/1) s jednou vynechanou – referenční kategorií (tzv. dummy variables)

Lineární regresní analýza (OLS) SYNTAX SPSS (základní zadání)
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT HDP /METHOD=ENTER PracSila Kapital Cas.

V příkladech jsou případy- pozorování: 1. roky (čas) 2. země LA
Dva příklady pro HiSo: uplatnění regresní analýzy v historické komparativní analýze kde máme data za celou populaci V příkladech jsou případy- pozorování: 1. roky (čas) 2. země LA

Vícerozměrná regresní analýza, Příklad 1: HDP, 1929-55, USA
Rok HDP Pracov.síla (mil.človek-rok) Kapitál (USD mld.) Čas 1929 142 47 54 1 1930 127 43 59 2 1931 118 39 57 3 1932 98 34 48 4 1933 94 36 5 1934 102 24 6 1935 116 38 19 7 1936 128 41 18 8 1937 140 42 22 9 1938 131 37 10 1939 143 40 23 11 1940 157 27 12 1941 182 13 1946 209 51 1947 214 53 25 1948 225 20 1949 221 50 21 1950 243 52 62 1951 257 75 1952 265 1953 276 55 108 1954 271 26 1955 291 124 Zde nemáme výběrová data (jako v běžných sociologických šetřeních) → testování statistické významnosti regresních koeficientů nedává smysl Pozor, malý počet případů → citlivost na extrémní hodnoty (outliers) Zdroj: Goldberger 1964, in Jöreskog/Sörbom/SPSS Inc. 1989

Vícerozměrná regresní analýza, Příklad 1: HDP, 1929-55, USA grafické znázornění v SEM
Nestandardizované regresní koef. B → jednotkový přírůstek Odhad parametru (estimates) Standardizované regresní koef. Β (Beta) → porovnání vlivu X s rozdílnými metrikami (škálami)

Příklad 2 pro HiSo: Latinskoamerické země a demokracie
country Takeoff Year In Energy Consumption Per Capita (1965) Literacy (1965) Political Democracy (1965) Argentina 1924 7,20 91,00 52,60 Bolivia 1958 5,22 32,00 36,20 Brazil 1946 5,85 61,00 60,90 Chile 1922 6,99 84,00 97,00 Colombia 1953 6,28 65,00 71,40 Costa Rica 1948 5,72 84,30 90,10 Dominican Republic 5,27 64,50 38,80 Ecuador 1963 5,36 67,00 44,60 El Salvador 1960 5,12 49,00 72,10 Guatemala 1964 5,20 38,00 39,50 Honduras 1968 5,02 45,00 50,00 Jamaica 1962 6,79 85,00 Mexico 1934 6,88 74,50 Nicaragua 5,46 49,60 55,40 Panama 1950 7,16 73,00 76,90 Paraguay 1973 4,84 68,00 44,70 Peru 6,38 87,00 Trinidad and Tobago 8,16 80,00 84,70 Uruguay 1938 6,82 90,30 99,60 Venezuela 8,00 73,40 Data: DemocLatAmer.sav Zdroj: [Bollen, Stine 1990]

Příklad 2: Latinskoamerické země a demokracie Hypotézy k otestování
Hypotéza 1: Včasný politický převrat (takeoff) je asociován s vyšší mírou společenské industrializace (energy consumption). Hypotéza 2: Gramotnost (literacy) závisí na míře industrializace (energy consumption). Hypotéza 3: Gramotnost (literacy) je podmínkou politické demokracie. Cvičení: Odhadněte odpovídající regresní modely a určete míru vlivu při kontrole efektu ostatních proměnných.

Příklad 2: Latinskoamerické země a demokracie

Výběrová data a zobecnění modelu na celou populaci

Statistická významnost regresního modelu – platí pro výběrová data (náhodný vzorek z populace)
Platnost modelu jako celku: Testujeme nulovou hypotézu, že všechny γ jsou rovny 0. → F test Statistická významnost jednotlivých koeficientů γ → t-hodnoty, s.e., Sig. Dosažená signifikance p > 0,05 koeficient je statisticky nevýznamný (tzn. v populaci je nulový) → v základním souboru vztah pravděpodobně není. t-hodnota = koef./SE hodnota > 1,96 odpovídá sig. < 0,05 pak je regresní koeficient statisticky významný na hladině α 5% (viz odvození z-hodnot z normální rozložení). neboli aby byl regresní koeficient statist. signifikantní musí být jeho standardizovaná chyba (Std.Error) cca 2x menší než jeho vlastní hodnota. Z SE lze spočítat Interval spolehlivosti (Confidence Interval pro B) pro daný regresní koeficient → porovnání rozdílů různých koeficientů (pokud se CfI nepřekrývají → rozdíl)

Poznámky k OLS Pozor na:
Nikdy nevstupujte do lineárně regresního modelu (OLS) s nominálním znakem → u nezávislých znaků je možná transformace na sérii „dummy“ proměnných. Pokud jde o ordinální, tak min 5 kategorií a přibližně normální rozložení nebo alespoň symetrické → ověřit. Nezávislé proměnné spolu nesmí (silně) korelovat (R > 0,8 → velký problém). Důsledkem tzv. multikolinearita autokorelace může být deficit vydatnosti odhadu regresních parametrů (model nebude mít nejmenší možný rozptyl), vychýlení standardních chyb a nadhodnocení R2. → vybrat buď jen jednu nebo obě/všechny spojit do latentní proměnné (např. sečtení nebo pokud nemají stejnou metriku hl. komponenta v PCA) nebo jednu jako kardinální a druhou jako dummy.

Předpoklady a problémy lineární regrese (OLS)
Proměnné mají normální rozložení (pozor na extrémní hodnoty) → vizuální kontrola v grafech (histogram, Q-Q, bodový X-Y) Řešení: provést transformaci (sq, log) Jde o lineární souvislost, což ale nemusí být jediná forma závislosti Y na X, vliv X je konstantní pro všechny hodnoty Y Řešení: sledovat nepřímo úměrné vztahy pomocí např. bodového X-Y grafu a případně navrhnout modifikaci funkce (např. kvadrátový efekt). Chyba ξ má konstantní rozptyl (Homoscedasticita) Chyba ξ je normálně rozložená Chyba ξ nesmí být korelována s žádným X V datech nesmí být extrémní - odlehlé hodnoty (outliers) Multikolinearita – nezávislé proměnné by neměly být navzájem vysoce korelované, jinak jsou nestabilní a citlivé i na malé změny v rozložení hodnot, které změní regresní koeficienty i jejich standardní chyby. (→ koeficienty VIF) Model obsahuje všechny relevantní X (a naopak žádné redundantní)

Vysvětlený podíl variance v regresním modelu
Koeficient determinace R2 = proporce variance závislé proměnné, která je vysvětlena všemi modelem uvažovanými závislými proměnnými. Smyslem analýzy v sociologii není vysoké R2 Vždyť vysvětlit nekonečnou plastičnost sociální reality je nereálné, navíc by to znamenalo, že žijeme v „dokonale předpověditelném světě“ (což si jistě nepřejeme). Spíše srovnáváme, zda/a jak se regresní rovnice lišší v různých podskupinách populace a modely (% variance) pro různé společnosti/historická období…

Lineární regrese: postup budování modelu
Je lineární kvantifikace dostatečně úsporným a efektivním vyjádřením vztahu Y a X? → vizualizace v bodovém X-Y grafu Budování optimálního modelu: Přidávání vysvětlujících proměnných – porovnávání modelů s odlišnou sadou proměnných → Cílem je testování teorie nikoliv nahodilé testování–zkoušení Další přidané proměnné zvýší procento vysvětlené variance jen potud, pokud nejsou již korelované se zahrnutými proměnnými. S přidáváním proměnných do modelů opatrně! Začít se základním modelem. A vždy testovat (změnu Rsq) oproti jednoduššímu modelu. Nadřazený model má vždy lepší (nebo stejné) Rsq a menší počet parametrů (vysvětlujících znaků X) Lze také testovat nelinearitu vlivu (parabolický vztah, modely se „zalamující“ se křivkou (linear splines models) atd.)

Otázky na něž hledáme v modelu vícenásobné regrese odpověď
Existuje vztah mezi závislou Y a nezávislou/ými proměnnou/ými? Je alespoň jedna z nezávislých proměnných (prediktorů X1, X2, Xn) užitečná při predikci závislé proměnné? Napomáhají k vysvětlení Y všechny nezávislé proměnné (prediktory) a nebo je užitečná jen část z nich? Jak dobře model odpovídá datům? Given a set of predictor values, what response value should we predict, and how accurate is our prediction? Zdroj: [James et al. 2015: 73]

Nepravý / zprostředkovaný vztah
Nepravý / zprostředkovaný vztah → efekt jedné proměnné je zprostředkován jinou proměnnou nebo je způsoben společnou závislostí vysvětlované a nezávislé proměnné na třetí proměnné. → odhadneme sérii regresních rovnic (modelů) a zjistíme, jak se mění efekty (regresní koeficienty) Příklad: vliv čtení knížek v dětství na příjem v dospělosti – při mediaci vzděláním. Očekáváme, že čtení zvyšuje vědění a tedy později i příjem (=uplatnění na trhu práce). Ale není to proto, že ti kdo více četli knížky v dětství získali vyšší vzdělání (které vede i tak k vyššímu příjmu)? Model 1: čtení → příjem, Model 2: čtení a vzdělání → příjem → Došlo k redukci velikosti regres. koeficientu mezi modely (u čtení)? Pokud ano (a výrazně) pak je vztah zprostředkován.

ISEI = a + b1*četl + b2*roky vzdělání

Kategoriální znaky → možná řešení
Nezávislé „kategoriální“ proměnné → kategorie znaku rozložíme na umělé - indikátorové proměnné (dummy variables) (a jednu kategorii vynecháme) nebo použijeme analýzu rozptylu (ANOVA) - pouze pro kategoriální nezávislé znaky, případně analýzu kovariance (ANCOVA) kombinující OLS regresi a ANOVA; Zastřešuje je tzv. Zobecněný lineární model General linear model – GLM (v SPSS → GLM) Ale v OLS závislá proměnná Y vždy musí být kardinální číselná (minimálně s 5 kategoriemi a min symetrické rozložení) Co když není? V sociologii jde o poměrně běžný jev, např.: postoje, rodinný stav, volba politické strany, stupeň vzdělání. → Logistická regrese: bivariátní (0/1), polynomická-ordinální (1/2/3), multinominální (F/P/K)

Ve vícerozměrné analýze obecně
Na co si dát pozor Ve vícerozměrné analýze obecně

Odlehlá pozorování (outliers)
Téměř všech rozptyl byl vnesen pouze jedním pozorováním. Outliers mohou významně ovlivnit vztah dvou (a více) znaků! Vždy nejprve zjistit odlehlá pozorování → Scatterplot

Konfigurace v datech na základě podskupin
[Disman 1993: ]

Jiří Šafr jiri.safr(zavináč)seznam.cz

Podobné prezentace

Prezentace na téma: "Jiří Šafr jiri.safr(zavináč)seznam.cz"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Jiří Šafr jiri.safr(zavináč)seznam.cz

Podobné prezentace

Prezentace na téma: "Jiří Šafr jiri.safr(zavináč)seznam.cz"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář