Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední."— Transkript prezentace:

1 Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace , UK FHS Historická sociologie (LS )

2 Princip, cíle regresní analýzy Cílem je určit statistický vztah jedné nebo několika nezávislých-vysvětlujících kardinálních (číselných) proměnných [X 1, X 2,…] (prediktor, regresor) k jedné kardinální (číselné) závislé proměnné [Y]. Predikce hodnot Y pomocí regresní rovnice Model explanace Y Testování hypotéz pomocí odlišných „ne/zahnízděných“ modelů X Nejpoužívanější vícerozměrná metoda v sociálních vědách

3 Mezigenerační vzdělanostní mobilita – lineárně regresní přímka (metoda nejmenších čtverců) Zdroj: [Treiman 2009: 88]

4 OLS: Chyba predikce (residual) Zdroj: [Treiman 2009: 90]

5 VzdOtecSyn.xls DATA pro předchozí příklad

6 Lineární regrese Metoda nejmenších čtverců (OLS) y = a + b * x OLS (Ordinary Least Squares) Přímka minimalizuje součet ploch čtverců vzdáleností naměřených hodnot od predikované přímky. Kritériem je nejmenší čtverec chyby odhadu. Konstanta (intercept) Regresní koeficient (slope)

7 Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….). y = a + bx y = hodnota závislé proměnné, a = konstanta (typická závislé při nejnižší hodnotě nezávislé proměnné), b = regresní koeficient „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

8 Vícenásobná lineární regrese Třídimenzionální zobrazení: závislá proměnná a dvě nezávislé-vysvětlující Řešení pomocí OLS zde představuje plocha, která minimalizuje sumu kvadrátů vertikálních vzdáleností mezi jednotlivými pozorováními a touto plochou. Zdroj: James et al. 2015: 73

9 Vícenásobná lineární regrese Y = α + γ 1 x 1 + γ 2 x 2 + … γ n x n + ξ y = a + b 1 * x 1 + b 2 * x 2 … ξ – chyba, suma vlivu všech proměnných na Y neobsažených v modelu α či a – konstanta γ 1 či b 1 – regresní koeficienty (parciální) x 1 – hodnoty nezávislých proměnných R 2 – koeficient determinace = mocnina vícenásobného korelačního koeficientu. R 2 = Variabilita vysvětlená modelem / celková variabilita Vyjadřuje podíl variance závislé proměnné vysvětlené uvažovanými závislými proměnnými („jak dobře rovnice vyjadřuje varianci v Y“).

10 Korelace a regrese Korelace je symetrická X ↔ Y Regrese je asymetrická X → Y Vysvětlujeme závislost Y na X V jednoduché regresi s jednou nezávislou proměnnou jsou standardizované regresní koeficienty = korelační koeficienty Hodnoty koeficientu: kladný=pozitivní; záporný=negativní vztah

11 Regresní koeficienty Nestandardizované B - metrické „o kolik se změní hodnota závislé proměnné při jednotkové změně nezávislé proměnné X“→ predikce hodnot Y Standardizované β (Beta) = o kolik jednotek standardních odchylek se změní závislá proměnná Y při jednotkové změně standardní odchylky nezávislé proměnné X → určujeme tak relativní sílu vlivu jednotlivých proměnných X na proměnnou závislou Y. Můžeme porovnávat jejich vliv i pokud mají odlišnou metriku (jiné škály měření) Ve vícerozměrné regresi platí, že regresní koeficienty ukazují vliv proměnné nezávislé na proměnnou závislou očištěnou od vlivu působení ostatních nezávislých proměnných. Standardizace → od proměnné se odečte průměr

12 Lineární regresní analýza (OLS) v SPSS Závislá VYSVĚTLOVÁ proměnná (Y) Nezávislé(á) – VYSVĚTLUJÍCÍ proměnné(á) (X 1, X 2, …) Závislá proměnná Y musí být kardinální (číselná) s přibližně normálním rozložením Nezávislé proměnné (X 1, X 2, …) jsou kardinální (číselné). V případě kategoriálního znaku jej můžeme rozložit na sadu dichotomických znaků (0/1) s jednou vynechanou – referenční kategorií (tzv. dummy variables)

13 Lineární regresní analýza (OLS) SYNTAX SPSS (základní zadání) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT HDP /METHOD=ENTER PracSila Kapital Cas.

14 Dva příklady pro HiSo: uplatnění regresní analýzy v historické komparativní analýze kde máme data za celou populaci V příkladech jsou případy- pozorování: 1. roky (čas) 2. země LA

15 Vícerozměrná regresní analýza, Příklad 1: HDP, , USA Zde nemáme výběrová data (jako v běžných sociologických šetřeních) → testování statistické významnosti regresních koeficientů nedává smysl Pozor, malý počet případů → citlivost na extrémní hodnoty (outliers) RokHDP Pracov.síla (mil.človek- rok) Kapitál (USD mld.) Čas Zdroj: Goldberger 1964, in Jöreskog/Sörbom/SPSS Inc. 1989

16 Vícerozměrná regresní analýza, Příklad 1: HDP, , USA grafické znázornění v SEM Nestandardizované regresní koef. B → jednotkový přírůstek Odhad parametru (estimates) Standardizované regresní koef. Β (Beta) → porovnání vlivu X s rozdílnými metrikami (škálami)

17 Příklad 2 pro HiSo: Latinskoamerické země a demokracie Data: DemocLatAmer.sav country Takeoff Year In Energy Consumption Per Capita (1965) Literacy (1965) Political Democracy (1965) Argentina1924 7,2091,0052,60 Bolivia1958 5,2232,0036,20 Brazil1946 5,8561,0060,90 Chile1922 6,9984,0097,00 Colombia1953 6,2865,0071,40 Costa Rica1948 5,7284,3090,10 Dominican Republic1958 5,2764,5038,80 Ecuador1963 5,3667,0044,60 El Salvador1960 5,1249,0072,10 Guatemala1964 5,2038,0039,50 Honduras1968 5,0245,0050,00 Jamaica1962 6,7985,0090,10 Mexico1934 6,8865,0074,50 Nicaragua1958 5,4649,6055,40 Panama1950 7,1673,0076,90 Paraguay1973 4,8468,0044,70 Peru1950 6,3861,0087,00 Trinidad and Tobago1962 8,1680,0084,70 Uruguay1938 6,8290,3099,60 Venezuela1950 8,0080,0073,40 Zdroj: [Bollen, Stine 1990]

18 Příklad 2: Latinskoamerické země a demokracie Hypotézy k otestování Hypotéza 1: Včasný politický převrat (takeoff) je asociován s vyšší mírou společenské industrializace (energy consumption). Hypotéza 2: Gramotnost (literacy) závisí na míře industrializace (energy consumption). Hypotéza 3: Gramotnost (literacy) je podmínkou politické demokracie. Cvičení: Odhadněte odpovídající regresní modely a určete míru vlivu při kontrole efektu ostatních proměnných.

19 Příklad 2: Latinskoamerické země a demokracie

20

21

22 Výběrová data a zobecnění modelu na celou populaci

23 Statistická významnost regresního modelu – platí pro výběrová data (náhodný vzorek z populace) Platnost modelu jako celku: Testujeme nulovou hypotézu, že všechny γ jsou rovny 0. → F test Statistická významnost jednotlivých koeficientů γ → t-hodnoty, s.e., Sig. Dosažená signifikance p > 0,05 koeficient je statisticky nevýznamný (tzn. v populaci je nulový) → v základním souboru vztah pravděpodobně není. t-hodnota = koef./SE hodnota > 1,96 odpovídá sig. < 0,05 pak je regresní koeficient statisticky významný na hladině α 5% (viz odvození z-hodnot z normální rozložení). neboli aby byl regresní koeficient statist. signifikantní musí být jeho standardizovaná chyba (Std.Error) cca 2x menší než jeho vlastní hodnota. Z SE lze spočítat Interval spolehlivosti (Confidence Interval pro B) pro daný regresní koeficient → porovnání rozdílů různých koeficientů (pokud se CfI nepřekrývají → rozdíl)

24 Poznámky k OLS Pozor na: Nikdy nevstupujte do lineárně regresního modelu (OLS) s nominálním znakem → u nezávislých znaků je možná transformace na sérii „dummy“ proměnných. Pokud jde o ordinální, tak min 5 kategorií a přibližně normální rozložení nebo alespoň symetrické → ověřit. Nezávislé proměnné spolu nesmí (silně) korelovat (R > 0,8 → velký problém). Důsledkem tzv. multikolinearita autokorelace může být deficit vydatnosti odhadu regresních parametrů (model nebude mít nejmenší možný rozptyl), vychýlení standardních chyb a nadhodnocení R2. → vybrat buď jen jednu nebo obě/všechny spojit do latentní proměnné (např. sečtení nebo pokud nemají stejnou metriku hl. komponenta v PCA) nebo jednu jako kardinální a druhou jako dummy.

25 Předpoklady a problémy lineární regrese (OLS) Proměnné mají normální rozložení (pozor na extrémní hodnoty) → vizuální kontrola v grafech (histogram, Q-Q, bodový X-Y) Řešení: provést transformaci (sq, log) Jde o lineární souvislost, což ale nemusí být jediná forma závislosti Y na X, vliv X je konstantní pro všechny hodnoty Y Řešení: sledovat nepřímo úměrné vztahy pomocí např. bodového X-Y grafu a případně navrhnout modifikaci funkce (např. kvadrátový efekt). Chyba ξ má konstantní rozptyl (Homoscedasticita) Chyba ξ je normálně rozložená Chyba ξ nesmí být korelována s žádným X V datech nesmí být extrémní - odlehlé hodnoty (outliers) Multikolinearita – nezávislé proměnné by neměly být navzájem vysoce korelované, jinak jsou nestabilní a citlivé i na malé změny v rozložení hodnot, které změní regresní koeficienty i jejich standardní chyby. (→ koeficienty VIF) Model obsahuje všechny relevantní X (a naopak žádné redundantní)

26 Vysvětlený podíl variance v regresním modelu Koeficient determinace R 2 = proporce variance závislé proměnné, která je vysvětlena všemi modelem uvažovanými závislými proměnnými. Smyslem analýzy v sociologii není vysoké R 2 Vždyť vysvětlit nekonečnou plastičnost sociální reality je nereálné, navíc by to znamenalo, že žijeme v „dokonale předpověditelném světě“ (což si jistě nepřejeme). Spíše srovnáváme, zda/a jak se regresní rovnice lišší v různých podskupinách populace a modely (% variance) pro různé společnosti/historická období…

27 Lineární regrese: postup budování modelu Je lineární kvantifikace dostatečně úsporným a efektivním vyjádřením vztahu Y a X? → vizualizace v bodovém X-Y grafu Budování optimálního modelu: Přidávání vysvětlujících proměnných – porovnávání modelů s odlišnou sadou proměnných → Cílem je testování teorie nikoliv nahodilé testování–zkoušení Další přidané proměnné zvýší procento vysvětlené variance jen potud, pokud nejsou již korelované se zahrnutými proměnnými. S přidáváním proměnných do modelů opatrně! Začít se základním modelem. A vždy testovat (změnu Rsq) oproti jednoduššímu modelu. Nadřazený model má vždy lepší (nebo stejné) Rsq a menší počet parametrů (vysvětlujících znaků X) Lze také testovat nelinearitu vlivu (parabolický vztah, modely se „zalamující“ se křivkou (linear splines models) atd.)

28 Otázky na něž hledáme v modelu vícenásobné regrese odpověď Existuje vztah mezi závislou Y a nezávislou/ými proměnnou/ými? Je alespoň jedna z nezávislých proměnných (prediktorů X1, X2, Xn) užitečná při predikci závislé proměnné? Napomáhají k vysvětlení Y všechny nezávislé proměnné (prediktory) a nebo je užitečná jen část z nich? Jak dobře model odpovídá datům? Given a set of predictor values, what response value should we predict, and how accurate is our prediction? Zdroj: [James et al. 2015: 73]

29 Nepravý / zprostředkovaný vztah Nepravý / zprostředkovaný vztah → efekt jedné proměnné je zprostředkován jinou proměnnou nebo je způsoben společnou závislostí vysvětlované a nezávislé proměnné na třetí proměnné. → odhadneme sérii regresních rovnic (modelů) a zjistíme, jak se mění efekty (regresní koeficienty) Příklad: vliv čtení knížek v dětství na příjem v dospělosti – při mediaci vzděláním. Očekáváme, že čtení zvyšuje vědění a tedy později i příjem (=uplatnění na trhu práce). Ale není to proto, že ti kdo více četli knížky v dětství získali vyšší vzdělání (které vede i tak k vyššímu příjmu)? Model 1: čtení → příjem, Model 2: čtení a vzdělání → příjem → Došlo k redukci velikosti regres. koeficientu mezi modely (u čtení)? Pokud ano (a výrazně) pak je vztah zprostředkován.

30 ISEI = a + b 1 *četl + b 2 *roky vzdělání ISEI = a + b 1 *četl

31 Kategoriální znaky → možná řešení Nezávislé „kategoriální“ proměnné → kategorie znaku rozložíme na umělé - indikátorové proměnné (dummy variables) (a jednu kategorii vynecháme) nebo použijeme analýzu rozptylu (ANOVA) - pouze pro kategoriální nezávislé znaky, případně analýzu kovariance (ANCOVA) kombinující OLS regresi a ANOVA; Zastřešuje je tzv. Zobecněný lineární model General linear model – GLM (v SPSS → GLM) Ale v OLS závislá proměnná Y vždy musí být kardinální číselná (minimálně s 5 kategoriemi a min symetrické rozložení) Co když není? V sociologii jde o poměrně běžný jev, např.: postoje, rodinný stav, volba politické strany, stupeň vzdělání. → Logistická regrese: bivariátní (0/1), polynomická- ordinální (1/2/3), multinominální (F/P/K)

32 Na co si dát pozor Ve vícerozměrné analýze obecně

33 Odlehlá pozorování (outliers) Téměř všech rozptyl byl vnesen pouze jedním pozorováním. Outliers mohou významně ovlivnit vztah dvou (a více) znaků! Vždy nejprve zjistit odlehlá pozorování → Scatterplot R = 0,88R = 0,08

34 Konfigurace v datech na základě podskupin [Disman 1993: ]


Stáhnout ppt "Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední."

Podobné prezentace


Reklamy Google