Jiří Šafr jiri.safr(zavináč)seznam.cz

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
Použité statistické metody
Testování statistických hypotéz
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
ZÁKLADY EKONOMETRIE 4. cvičení PREDIKCE MULTIKOLINEARITA
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Lineární regrese FSS928.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
PSY717 – statistická analýza dat
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
IV..
Základy zpracování geologických dat R. Čopjaková.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Statistické testování – základní pojmy
Historická sociologie, Řízení a supervize
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Základy statistiky.
Transkript prezentace:

Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie (LS 2011-14+) Analýza kvantitativních dat II a III. Regresní analýza lineární regrese – metoda nejmenších čtverců (OLS) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 13.2. 2015, 13.5. 2014

Princip, cíle regresní analýzy Cílem je určit statistický vztah jedné nebo několika nezávislých-vysvětlujících kardinálních (číselných) proměnných [X1, X2,…] (prediktor, regresor) k jedné kardinální (číselné) závislé proměnné [Y]. Predikce hodnot Y pomocí regresní rovnice Model explanace Y Testování hypotéz pomocí odlišných „ne/zahnízděných“ modelů X Nejpoužívanější vícerozměrná metoda v sociálních vědách

Mezigenerační vzdělanostní mobilita – lineárně regresní přímka (metoda nejmenších čtverců) Zdroj: [Treiman 2009: 88]

OLS: Chyba predikce (residual) Zdroj: [Treiman 2009: 90]

http://metodykv.wz.cz/ VzdOtecSyn.xls DATA pro předchozí příklad http://metodykv.wz.cz/ VzdOtecSyn.xls

Lineární regrese Metoda nejmenších čtverců (OLS) Regresní koeficient (slope) Konstanta (intercept) OLS (Ordinary Least Squares) Přímka minimalizuje součet ploch čtverců vzdáleností naměřených hodnot od predikované přímky. Kritériem je nejmenší čtverec chyby odhadu. y = a + b *x

Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….). y = a + bx y = hodnota závislé proměnné, a = konstanta (typická závislé při nejnižší hodnotě nezávislé proměnné), b = regresní koeficient „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

Vícenásobná lineární regrese Třídimenzionální zobrazení: závislá proměnná a dvě nezávislé-vysvětlující Řešení pomocí OLS zde představuje plocha, která minimalizuje sumu kvadrátů vertikálních vzdáleností mezi jednotlivými pozorováními a touto plochou. Zdroj: James et al. 2015: 73

Vícenásobná lineární regrese Y = α + γ1 x1 + γ2 x2 + … γn xn + ξ y = a + b1 *x1 + b2 * x2 … ξ – chyba, suma vlivu všech proměnných na Y neobsažených v modelu α či a – konstanta γ1 či b1 – regresní koeficienty (parciální) x1 – hodnoty nezávislých proměnných R2 – koeficient determinace = mocnina vícenásobného korelačního koeficientu. R2 = Variabilita vysvětlená modelem / celková variabilita Vyjadřuje podíl variance závislé proměnné vysvětlené uvažovanými závislými proměnnými („jak dobře rovnice vyjadřuje varianci v Y“).

Korelace a regrese Korelace je symetrická X ↔ Y Regrese je asymetrická X → Y Vysvětlujeme závislost Y na X V jednoduché regresi s jednou nezávislou proměnnou jsou standardizované regresní koeficienty = korelační koeficienty Hodnoty koeficientu: kladný=pozitivní; záporný=negativní vztah

Regresní koeficienty Nestandardizované B - metrické „o kolik se změní hodnota závislé proměnné při jednotkové změně nezávislé proměnné X“→ predikce hodnot Y Standardizované β (Beta) = o kolik jednotek standardních odchylek se změní závislá proměnná Y při jednotkové změně standardní odchylky nezávislé proměnné X → určujeme tak relativní sílu vlivu jednotlivých proměnných X na proměnnou závislou Y. Můžeme porovnávat jejich vliv i pokud mají odlišnou metriku (jiné škály měření) Ve vícerozměrné regresi platí, že regresní koeficienty ukazují vliv proměnné nezávislé na proměnnou závislou očištěnou od vlivu působení ostatních nezávislých proměnných. Standardizace → od proměnné se odečte průměr

Lineární regresní analýza (OLS) v SPSS Závislá VYSVĚTLOVÁ proměnná (Y) Závislá proměnná Y musí být kardinální (číselná) s přibližně normálním rozložením Nezávislé(á) – VYSVĚTLUJÍCÍ proměnné(á) (X1, X2, …) Nezávislé proměnné (X1, X2, …) jsou kardinální (číselné). V případě kategoriálního znaku jej můžeme rozložit na sadu dichotomických znaků (0/1) s jednou vynechanou – referenční kategorií (tzv. dummy variables)

Lineární regresní analýza (OLS) SYNTAX SPSS (základní zadání) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT HDP /METHOD=ENTER PracSila Kapital Cas.

V příkladech jsou případy- pozorování: 1. roky (čas) 2. země LA Dva příklady pro HiSo: uplatnění regresní analýzy v historické komparativní analýze kde máme data za celou populaci V příkladech jsou případy- pozorování: 1. roky (čas) 2. země LA

Vícerozměrná regresní analýza, Příklad 1: HDP, 1929-55, USA Rok HDP Pracov.síla (mil.človek-rok) Kapitál (USD mld.) Čas 1929 142 47 54 1 1930 127 43 59 2 1931 118 39 57 3 1932 98 34 48 4 1933 94 36 5 1934 102 24 6 1935 116 38 19 7 1936 128 41 18 8 1937 140 42 22 9 1938 131 37 10 1939 143 40 23 11 1940 157 27 12 1941 182 13 1946 209 51 1947 214 53 25 1948 225 20 1949 221 50 21 1950 243 52 62 1951 257 75 1952 265 1953 276 55 108 1954 271 26 1955 291 124 Zde nemáme výběrová data (jako v běžných sociologických šetřeních) → testování statistické významnosti regresních koeficientů nedává smysl Pozor, malý počet případů → citlivost na extrémní hodnoty (outliers) Zdroj: Goldberger 1964, in Jöreskog/Sörbom/SPSS Inc. 1989

Vícerozměrná regresní analýza, Příklad 1: HDP, 1929-55, USA grafické znázornění v SEM Nestandardizované regresní koef. B → jednotkový přírůstek Odhad parametru (estimates) Standardizované regresní koef. Β (Beta) → porovnání vlivu X s rozdílnými metrikami (škálami)

Příklad 2 pro HiSo: Latinskoamerické země a demokracie country Takeoff Year In Energy Consumption Per Capita (1965) Literacy (1965) Political Democracy (1965) Argentina 1924 7,20 91,00 52,60 Bolivia 1958 5,22 32,00 36,20 Brazil 1946 5,85 61,00 60,90 Chile 1922 6,99 84,00 97,00 Colombia 1953 6,28 65,00 71,40 Costa Rica 1948 5,72 84,30 90,10 Dominican Republic 5,27 64,50 38,80 Ecuador 1963 5,36 67,00 44,60 El Salvador 1960 5,12 49,00 72,10 Guatemala 1964 5,20 38,00 39,50 Honduras 1968 5,02 45,00 50,00 Jamaica 1962 6,79 85,00 Mexico 1934 6,88 74,50 Nicaragua 5,46 49,60 55,40 Panama 1950 7,16 73,00 76,90 Paraguay 1973 4,84 68,00 44,70 Peru 6,38 87,00 Trinidad and Tobago 8,16 80,00 84,70 Uruguay 1938 6,82 90,30 99,60 Venezuela 8,00 73,40 Data: DemocLatAmer.sav Zdroj: [Bollen, Stine 1990]

Příklad 2: Latinskoamerické země a demokracie Hypotézy k otestování Hypotéza 1: Včasný politický převrat (takeoff) je asociován s vyšší mírou společenské industrializace (energy consumption). Hypotéza 2: Gramotnost (literacy) závisí na míře industrializace (energy consumption). Hypotéza 3: Gramotnost (literacy) je podmínkou politické demokracie. Cvičení: Odhadněte odpovídající regresní modely a určete míru vlivu při kontrole efektu ostatních proměnných.

Příklad 2: Latinskoamerické země a demokracie

Příklad 2: Latinskoamerické země a demokracie

Příklad 2: Latinskoamerické země a demokracie

Výběrová data a zobecnění modelu na celou populaci

Statistická významnost regresního modelu – platí pro výběrová data (náhodný vzorek z populace) Platnost modelu jako celku: Testujeme nulovou hypotézu, že všechny γ jsou rovny 0. → F test Statistická významnost jednotlivých koeficientů γ → t-hodnoty, s.e., Sig. Dosažená signifikance p > 0,05 koeficient je statisticky nevýznamný (tzn. v populaci je nulový) → v základním souboru vztah pravděpodobně není. t-hodnota = koef./SE hodnota > 1,96 odpovídá sig. < 0,05 pak je regresní koeficient statisticky významný na hladině α 5% (viz odvození z-hodnot z normální rozložení). neboli aby byl regresní koeficient statist. signifikantní musí být jeho standardizovaná chyba (Std.Error) cca 2x menší než jeho vlastní hodnota. Z SE lze spočítat Interval spolehlivosti (Confidence Interval pro B) pro daný regresní koeficient → porovnání rozdílů různých koeficientů (pokud se CfI nepřekrývají → rozdíl)

Poznámky k OLS Pozor na: Nikdy nevstupujte do lineárně regresního modelu (OLS) s nominálním znakem → u nezávislých znaků je možná transformace na sérii „dummy“ proměnných. Pokud jde o ordinální, tak min 5 kategorií a přibližně normální rozložení nebo alespoň symetrické → ověřit. Nezávislé proměnné spolu nesmí (silně) korelovat (R > 0,8 → velký problém). Důsledkem tzv. multikolinearita autokorelace může být deficit vydatnosti odhadu regresních parametrů (model nebude mít nejmenší možný rozptyl), vychýlení standardních chyb a nadhodnocení R2. → vybrat buď jen jednu nebo obě/všechny spojit do latentní proměnné (např. sečtení nebo pokud nemají stejnou metriku hl. komponenta v PCA) nebo jednu jako kardinální a druhou jako dummy.

Předpoklady a problémy lineární regrese (OLS) Proměnné mají normální rozložení (pozor na extrémní hodnoty) → vizuální kontrola v grafech (histogram, Q-Q, bodový X-Y) Řešení: provést transformaci (sq, log) Jde o lineární souvislost, což ale nemusí být jediná forma závislosti Y na X, vliv X je konstantní pro všechny hodnoty Y Řešení: sledovat nepřímo úměrné vztahy pomocí např. bodového X-Y grafu a případně navrhnout modifikaci funkce (např. kvadrátový efekt). Chyba ξ má konstantní rozptyl (Homoscedasticita) Chyba ξ je normálně rozložená Chyba ξ nesmí být korelována s žádným X V datech nesmí být extrémní - odlehlé hodnoty (outliers) Multikolinearita – nezávislé proměnné by neměly být navzájem vysoce korelované, jinak jsou nestabilní a citlivé i na malé změny v rozložení hodnot, které změní regresní koeficienty i jejich standardní chyby. (→ koeficienty VIF) Model obsahuje všechny relevantní X (a naopak žádné redundantní)

Vysvětlený podíl variance v regresním modelu Koeficient determinace R2 = proporce variance závislé proměnné, která je vysvětlena všemi modelem uvažovanými závislými proměnnými. Smyslem analýzy v sociologii není vysoké R2 Vždyť vysvětlit nekonečnou plastičnost sociální reality je nereálné, navíc by to znamenalo, že žijeme v „dokonale předpověditelném světě“ (což si jistě nepřejeme). Spíše srovnáváme, zda/a jak se regresní rovnice lišší v různých podskupinách populace a modely (% variance) pro různé společnosti/historická období…

Lineární regrese: postup budování modelu Je lineární kvantifikace dostatečně úsporným a efektivním vyjádřením vztahu Y a X? → vizualizace v bodovém X-Y grafu Budování optimálního modelu: Přidávání vysvětlujících proměnných – porovnávání modelů s odlišnou sadou proměnných → Cílem je testování teorie nikoliv nahodilé testování–zkoušení Další přidané proměnné zvýší procento vysvětlené variance jen potud, pokud nejsou již korelované se zahrnutými proměnnými. S přidáváním proměnných do modelů opatrně! Začít se základním modelem. A vždy testovat (změnu Rsq) oproti jednoduššímu modelu. Nadřazený model má vždy lepší (nebo stejné) Rsq a menší počet parametrů (vysvětlujících znaků X) Lze také testovat nelinearitu vlivu (parabolický vztah, modely se „zalamující“ se křivkou (linear splines models) atd.)

Otázky na něž hledáme v modelu vícenásobné regrese odpověď Existuje vztah mezi závislou Y a nezávislou/ými proměnnou/ými? Je alespoň jedna z nezávislých proměnných (prediktorů X1, X2, Xn) užitečná při predikci závislé proměnné? Napomáhají k vysvětlení Y všechny nezávislé proměnné (prediktory) a nebo je užitečná jen část z nich? Jak dobře model odpovídá datům? Given a set of predictor values, what response value should we predict, and how accurate is our prediction? Zdroj: [James et al. 2015: 73]

Nepravý / zprostředkovaný vztah Nepravý / zprostředkovaný vztah → efekt jedné proměnné je zprostředkován jinou proměnnou nebo je způsoben společnou závislostí vysvětlované a nezávislé proměnné na třetí proměnné. → odhadneme sérii regresních rovnic (modelů) a zjistíme, jak se mění efekty (regresní koeficienty) Příklad: vliv čtení knížek v dětství na příjem v dospělosti – při mediaci vzděláním. Očekáváme, že čtení zvyšuje vědění a tedy později i příjem (=uplatnění na trhu práce). Ale není to proto, že ti kdo více četli knížky v dětství získali vyšší vzdělání (které vede i tak k vyššímu příjmu)? Model 1: čtení → příjem, Model 2: čtení a vzdělání → příjem → Došlo k redukci velikosti regres. koeficientu mezi modely (u čtení)? Pokud ano (a výrazně) pak je vztah zprostředkován.

ISEI = a + b1*četl + b2*roky vzdělání

Kategoriální znaky → možná řešení Nezávislé „kategoriální“ proměnné → kategorie znaku rozložíme na umělé - indikátorové proměnné (dummy variables) (a jednu kategorii vynecháme) nebo použijeme analýzu rozptylu (ANOVA) - pouze pro kategoriální nezávislé znaky, případně analýzu kovariance (ANCOVA) kombinující OLS regresi a ANOVA; Zastřešuje je tzv. Zobecněný lineární model General linear model – GLM (v SPSS → GLM) Ale v OLS závislá proměnná Y vždy musí být kardinální číselná (minimálně s 5 kategoriemi a min symetrické rozložení) Co když není? V sociologii jde o poměrně běžný jev, např.: postoje, rodinný stav, volba politické strany, stupeň vzdělání. → Logistická regrese: bivariátní (0/1), polynomická-ordinální (1/2/3), multinominální (F/P/K)

Ve vícerozměrné analýze obecně Na co si dát pozor Ve vícerozměrné analýze obecně

Odlehlá pozorování (outliers) Téměř všech rozptyl byl vnesen pouze jedním pozorováním. Outliers mohou významně ovlivnit vztah dvou (a více) znaků! Vždy nejprve zjistit odlehlá pozorování → Scatterplot

Konfigurace v datech na základě podskupin [Disman 1993: 210-211]