VÍCENÁSOBNÁ REGRESE 1.

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

KORELACE A REGRESE Karel Drápela
Analýza experimentu pro robustní návrh
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
Testování statistických hypotéz
Monte Carlo permutační testy & Postupný výběr
Cvičení 6 – 25. října 2010 Heteroskedasticita
Predikce Zobecněná MNČ
Cvičení října 2010.
4EK211 Základy ekonometrie Autokorelace Cvičení /
4EK211 Základy ekonometrie Heteroskedasticita Cvičení – 8
SB029 Dodatek k přednáškám Základy analýzy dat a SPSS
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
ZÁKLADY EKONOMETRIE 4. cvičení PREDIKCE MULTIKOLINEARITA
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
ZÁKLADY EKONOMETRIE 8. cvičení MZNČ
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Lineární algebra.
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Základy ekonometrie Cvičení 3 4. října 2010.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Obecný lineární model Fitované hodnoty and regresní residuály
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Princip maximální entropie
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Lineární regrese FSS928.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Korelace a elaborace aneb úvod do vztahů proměnných
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Základy ekonometrie 4EK211
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
1. cvičení
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
IV..
Aplikovaná statistika 2.
Základy zpracování geologických dat R. Čopjaková.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Základy statistiky.
Transkript prezentace:

VÍCENÁSOBNÁ REGRESE 1

Vícenásobná regrese Datová matice X X1 X2 X3 X4 ATD. ANO 204 M 1,2 NE 180 F 4,3 NE 178 F 2,3 NE 187 M 3,8 ANO 192 M 2,6 . ATD.

Vícenásobná regrese Vektor y 135 112 187 189 ATD.

Vícenásobná regrese Vektor β β0 β1 β2 β3 ATD.

Model vícenásobné lineární regrese y = 0 + 1x1 + 2x2 + . . . + pxp +  Regresní rovnice E(y) = 0 + 1x1 + 2x2 + . . . + pxp Odhad regresní rovnice y = b0 + b1x1 + b2x2 + . . . + bpxp

Model vícenásobné lineární regrese Maticově vyjádřeno: y = βX + ε

Vícenásobná lineární regrese-MNČ Co je za tímto vzorcem? Trošku vektorové algebry nikomu neuškodí Nebo ano

Vícenásobná regrese v SPSS výsledkem procedury v SPSS je regresní rovnice roviny či nadroviny, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů zadání pomocí nabídky-jednotlivé důležité volby

Regrese v SPSS-syntax zadání pomocí příkazu (pro stupňovitou regresi a vybrané výstupy) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD= STEPWISE X1 X2 X3.

Regrese v SPSS-výstupy ukázky použití regresní analýzy v SPSS komentář k výstupům z procedury regresní analýzy ANOVA,T-testy -vztah mezi nimi a co to značí, R, R2, R2Adj. interpretace regresních koeficientů a konstanty ve vícenásobné regresi aneb ceteris paribus ve statistice (tedy proměnnou o jejíž vliv chci očistit musím mít v modelu) beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)

Regrese v SPSS-výstupy typy metod výběru proměnných - forward, backward, stepwise (základní principy) zejm. stepwise poměrně vhodná k nalezení "nejlepšího" modelu-vysvětlení podstaty sekvenčních F-testů a vazba k parciálním korelačním koeficientům predikce z regresního modelu rezidua a jejich ukládání

EXKURZ: REGRESE A EXCEL 12

MS EXCEL a statistika Co umíme v MS Excel ze statistiky? Co umí v MS Excel ze statistiky? Jak na regresi v MS Excel (aneb co dělat, když vyprší licence SPSS)

MS EXCEL a regrese Základní funkce pro výpočet regrese Grafické možnosti regrese v Excelu Analytický modul aneb regrese jak z SPSS Více viz text Statistika v Excelu.doc

UMĚLÉ PROMĚNNÉ 15

Regrese-umělé proměnné jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné Proč? "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání v SPSS (vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat. vzdelSS a VŠ vzdelVS z proměnné s02) Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS Upozornění: Při metodě Stepwise může být zahrnuta jen některá(é) z umělých proměnných, co to znamená z hlediska interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici) Jak lze toto řešit?

Regrese-umělé proměnné a skupiny Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy), které by mělo smysl analyzovat samostatně, ale my je analyzujeme dohromady-Co se v takovém případě může stát? (grafické zobrazení 4 možných situací) Jak tuto situaci řešit? Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté dohromady, je-li pro toto důvod (test o shodě hodnot regresních koeficientů- v SPSS není obsažen) Lze užít i víceúrovňové/hierarchické modely Obecně je problém často složitější a skupin může být více a i zde platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je naprosto neodůvodnitelné!!!!)

Umělé proměnné - závěr Princip umělých proměnných je obecně použitelný v analýzách, kde se vyžadují jen dichotomie nebo kardinální proměnné (např. logistická regrese v pátek) Princip vynechávání poslední (první) kategorie se zpravidla užívá v analýze kategoriálních dat (loglineární modely, logitové modely apod.) Některé procedury SPSS utvoří umělé proměnné za nás (např. procedury logistické regrese)

INTERAKCE 19

Regrese-Interakce Kombinace hodnot vysvětlujících proměnných Nutno si vytvořit v datech K čemu je to dobré? Řeší tyto situace: A) spolupůsobení proměnných (synergické efekty) B) Řeší problém skupin, resp. odlišností směrnic ve skupinách Ukázka – interakce dvou proměnných, jedna dichotomie

REGRESNÍ DIAGNOSTIKA 21

Regrese a její problémy Regresní problémy Vlivná (influentials-pozor tato nejsou od P.F.L.) a odlehlá pozorování (outliers-viz explorační analýza) heteroskedasticita - rozptyl náhodné složky není konstantní, způsobuje problémy při testování významnosti jednotlivých proměnných autokorelace -závislost mezi náhodnými složkami, obvyklé v časových řadách, působí obdobné problémy jako heteroskedasticita

Regrese a její problémy multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců, (Důvod: matice X’X je singulární a nelze k ní najít inverzní-toto vyjádření je pro nestatistiky lehce perverzní)

REZIDUA A JEJICH VÝZNAM 24

Rezidua - přehled Klasická rezidua H = projekční matice Predikovaná rezidua

Rezidua - přehled Normovaná rezidua Jackknife rezidua

Vlivná pozorování Důležité jsou diagonální prvky projekční matice hii - měří vzdálenost i-tého bodu od centra ostatních bodů. Pozorování s velkou hodnotou h prvku může nebo nemusí mít velký vliv na regresní odhady. Vlivné body jsou takové, kdy jejich vynecháním dochází k velké změně regresních parametrů (často neobvyklá kombinace hodnot vysvětlujících proměnných). Nutno diagnostikovat a případně vyřadit.

Vlivná pozorování -diagnostika DFBETA(-i)=b-b(-i) Rule of thumb: Indikace problému NDFBETA>2/√n Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101) , indikace problému NDFFIT>2/√(n/p)

Heteroskedasticita Předpokladem obyčejné regrese je konstantní rozptyl chybové složky pro všechny hodnoty nezávisle proměnných. Vizuálně lze prověřit: Graf reziduí oproti hodnotám nezávisle proměnných Testy - Glejser, Goldfeld-Quandt Řešení: vážená MNČ, měření dáme váhu, která je nepřímo úměrná odhadnutému rozptylu chyb

Glejserův test Modeluje závislost velikosti reziduí na nezávislé(-ých) proměnné (-ých) :

Multikolinearita Odhad: Existují silné závislosti mezi nezávislými proměnnými : X´X je singulární matice nebo téměř singulární Důsledky: standardní chyby odhadů beta jsou veliké, nevíme, tedy jak prediktory vlastně působí, na regresi mají pak také větší vliv vychýlené hodnoty, nahodnocen součet čtverců beta, nestabilita odhadů

Multikolinearita Odhalení: Korelace Xj na ostatních Xs, tedy průzkum korelační matice (měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8) Další možnosti: a) Tolerance (1-R2j) b) VIF = 1/(1-R2j) VIF jsou diagonální prvky R-1 c) poměr: max lambda/min lambda (v SPSS tzv. Condition index) ROT*= nad 30 → problém *ROT=Rules of thumb

Multikolinearita Řešení Ignorovat Vypustit proměnnou Získat další data Použít FA (s rotací) a regrese s faktory Ridge regrese Ridge regrese má zkreslené odhady ale menší standardní chyby (změníme trochu diagonálu)

Poučky k regresi AIC, BIC atd. jsou dostupné jen přes syntax, v nabídce je nenajdeme, lze zapsat za slovo STATISTICS slovo SELECTION (výstup viz Model Summary) Regrese na rozdíl od korelace umí modelovat i nelineární vztah (tzv. nelineární regrese, viz později). Vychází-li korelace nízká, může tedy být možné budovat regresní model nelineární. Tvar modelu nám může poradit grafické zobrazení dat (to platí vždy aneb grafická analýza by měla být první) Poznámka: Nevíme-li o vztazích jakého jsou druhu (lineární, kvadratické, logaritmické atd.) je rozumné volit lineární vztahy jsou přípustným zjednodušením a zároveň se nejlépe interpretují

Poučky k regresi Linearitu je také možno dosáhnout vhodnou transformací dat, nesmíme pak ale zapomenout „odtransformovat“ výsledky (viz dále) Nízký koeficient determinace neznamená nutně, že proměnné v modelu nevysvětlují změny závislé proměnné, ale důvodem může být chybná volba modelu (lineárního místo kvadratického apod.) Pro „slušný“ výpočet regresní analýzy se vyžaduje mít na každou proměnnou zařazenou v modelu cca 100 pozorování (rozhodně nikdy méně než 10 pozorování na 1 proměnnou!!!). Pamatujme na to jak rychle narůstá počet umělých proměnných u nominálních/ordinálních proměnných

Exkurz: Transformace dat Jaké známe transformace dat Centrování Standardizace Co dalšího? Linearizující transformace (viz např. příjem – původně logaritmicko normální rozdělění) Základní transformace – logaritmická, odmocninná, mocninná, exponenciální

Transformace dat a regrese Jak postupovat? Nejdříve transformujeme příslušnou proměnnou Vypočítáme lineární regresi vypočtené koeficienty musíme odtransformovat Upozornění: Při použití tohoto postupu nejsou již nalezené odhady nezkreslené (ztrácíme tedy jednu z výhod MNČ)

Nelineární regrese v SPSS Grafické řešení Výpočetní řešení Statistické složitosti

Nelineární regrese v Excelu Grafické řešení Výpočetní řešení v analytickém modulu