Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

VÍCENÁSOBNÁ REGRESE. Vícenásobná regrese Datová matice X X1X2X3X4ATD. ANO204M1,2 NE180F4,3 NE178F2,3 NE187M3,8 ANO192M2,6. ATD.

Podobné prezentace


Prezentace na téma: "VÍCENÁSOBNÁ REGRESE. Vícenásobná regrese Datová matice X X1X2X3X4ATD. ANO204M1,2 NE180F4,3 NE178F2,3 NE187M3,8 ANO192M2,6. ATD."— Transkript prezentace:

1 VÍCENÁSOBNÁ REGRESE

2 Vícenásobná regrese Datová matice X X1X2X3X4ATD. ANO204M1,2 NE180F4,3 NE178F2,3 NE187M3,8 ANO192M2,6. ATD.

3 Vícenásobná regrese Vektor y Y ATD.

4 Vícenásobná regrese Vektor β β 0 β 1 β 2 β 3 ATD.

5 Model vícenásobné lineární regrese y =  0 +  1 x 1 +  2 x  p x p +  Regresní rovnice E(y) =  0 +  1 x 1 +  2 x  p x p Odhad regresní rovnice y = b 0 + b 1 x 1 + b 2 x b p x p Model vícenásobné lineární regrese

6 Maticově vyjádřeno: y = βX + ε Model vícenásobné lineární regrese

7 Vícenásobná lineární regrese-MNČ Co je za tímto vzorcem? Trošku vektorové algebry nikomu neuškodí Nebo ano 

8 Vícenásobná regrese v SPSS výsledkem procedury v SPSS je regresní rovnice roviny či nadroviny, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů zadání pomocí nabídky-jednotlivé důležité volby

9 Regrese v SPSS-syntax zadání pomocí příkazu (pro stupňovitou regresi a vybrané výstupy) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Y /METHOD= STEPWISE X1 X2 X3.

10 Regrese v SPSS-výstupy ukázky použití regresní analýzy v SPSS komentář k výstupům z procedury regresní analýzy ANOVA,T- testy -vztah mezi nimi a co to značí, R, R2, R2Adj. interpretace regresních koeficientů a konstanty ve vícenásobné regresi aneb ceteris paribus ve statistice (tedy proměnnou o jejíž vliv chci očistit musím mít v modelu) beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)

11 Regrese v SPSS-výstupy typy metod výběru proměnných - forward, backward, stepwise (základní principy) zejm. stepwise poměrně vhodná k nalezení "nejlepšího" modelu-vysvětlení podstaty sekvenčních F-testů a vazba k parciálním korelačním koeficientům predikce z regresního modelu rezidua a jejich ukládání

12 EXKURZ: REGRESE A EXCEL

13 MS EXCEL a statistika Co umíme v MS Excel ze statistiky? Co umí v MS Excel ze statistiky? Jak na regresi v MS Excel (aneb co dělat, když vyprší licence SPSS )

14 MS EXCEL a regrese Základní funkce pro výpočet regrese Grafické možnosti regrese v Excelu Analytický modul aneb regrese jak z SPSS Více viz text Statistika v Excelu.doc

15 UMĚLÉ PROMĚNNÉ

16 Regrese-umělé proměnné jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné Proč? "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání v SPSS (vytvořte 3umělé proměnné-SŠ bez vzdelSSB, SŠ s mat. vzdelSS a VŠ vzdelVS z proměnné s02) Ukažme si smysl kódování na proměnné vzdel, vyuc, SS a VS Upozornění: Při metodě Stepwise může být zahrnuta jen některá(é) z umělých proměnných, co to znamená z hlediska interpretace? (př. Jen VŠ při závislé proměnné příjem v rovnici) Jak lze toto řešit?

17 Regrese-umělé proměnné a skupiny Dichotomie může dělit soubor na dvě skupiny (př.muži/ženy), které by mělo smysl analyzovat samostatně, ale my je analyzujeme dohromady-Co se v takovém případě může stát? (grafické zobrazení 4 možných situací) Jak tuto situaci řešit? Analýzy provést zvlášť (TEMP nebo SPLIT FILE) a teprve poté dohromady, je-li pro toto důvod (test o shodě hodnot regresních koeficientů- v SPSS není obsažen) Lze užít i víceúrovňové/hierarchické modely Obecně je problém často složitější a skupin může být více a i zde platí: Nejdříve zkoumejme, jak vypadá vztah v jednotlivých skupinách a je-li podobný, lze analyzovat dohromady (Nikdy ale neanalyzujme prvotně dohromady ČR+Chile+Austrálie, to je naprosto neodůvodnitelné!!!!)

18 Umělé proměnné - závěr Princip umělých proměnných je obecně použitelný v analýzách, kde se vyžadují jen dichotomie nebo kardinální proměnné (např. logistická regrese v pátek) Princip vynechávání poslední (první) kategorie se zpravidla užívá v analýze kategoriálních dat (loglineární modely, logitové modely apod.) Některé procedury SPSS utvoří umělé proměnné za nás (např. procedury logistické regrese)

19 INTERAKCE

20 Regrese-Interakce Kombinace hodnot vysvětlujících proměnných Nutno si vytvořit v datech K čemu je to dobré? Řeší tyto situace: A) spolupůsobení proměnných (synergické efekty) B) Řeší problém skupin, resp. odlišností směrnic ve skupinách Ukázka – interakce dvou proměnných, jedna dichotomie

21 REGRESNÍ DIAGNOSTIKA

22 Regrese a její problémy Regresní problémy Vlivná (influentials-pozor tato nejsou od P.F.L.) a odlehlá pozorování (outliers-viz explorační analýza) heteroskedasticita - rozptyl náhodné složky není konstantní, způsobuje problémy při testování významnosti jednotlivých proměnných autokorelace -závislost mezi náhodnými složkami, obvyklé v časových řadách, působí obdobné problémy jako heteroskedasticita

23 Regrese a její problémy multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců, (Důvod: matice X’X je singulární a nelze k ní najít inverzní-toto vyjádření je pro nestatistiky lehce perverzní )

24 REZIDUA A JEJICH VÝZNAM

25 Rezidua - přehled Klasická rezidua H = projekční matice Predikovaná rezidua

26 Rezidua - přehled Normovaná rezidua Jackknife rezidua

27 Vlivná pozorování Důležité jsou diagonální prvky projekční matice h ii - měří vzdálenost i-tého bodu od centra ostatních bodů. Pozorování s velkou hodnotou h prvku může nebo nemusí mít velký vliv na regresní odhady. Vlivné body jsou takové, kdy jejich vynecháním dochází k velké změně regresních parametrů (často neobvyklá kombinace hodnot vysvětlujících proměnných). Nutno diagnostikovat a případně vyřadit.

28 Vlivná pozorování -diagnostika DFBETA (-i) =b-b (-i) Rule of thumb: Indikace problému NDFBETA>2/√n Poznámka. Obdobný indikátor DFFIT a NDFFIT (Hebák, 2. díl, str. 101), indikace problému NDFFIT>2/√(n/p)

29 Heteroskedasticita Předpokladem obyčejné regrese je konstantní rozptyl chybové složky pro všechny hodnoty nezávisle proměnných. Vizuálně lze prověřit: Graf reziduí oproti hodnotám nezávisle proměnných Testy - Glejser, Goldfeld-Quandt Řešení: vážená MNČ, měření dáme váhu, která je nepřímo úměrná odhadnutému rozptylu chyb

30 Glejserův test Modeluje závislost velikosti reziduí na nezávislé(-ých) proměnné (-ých) :

31 Multikolinearita Odhad: Existují silné závislosti mezi nezávislými proměnnými : X´X je singulární matice nebo téměř singulární Důsledky: standardní chyby odhadů beta jsou veliké, nevíme, tedy jak prediktory vlastně působí, na regresi mají pak také větší vliv vychýlené hodnoty, nahodnocen součet čtverců beta, nestabilita odhadů

32 Multikolinearita Odhalení: Korelace Xj na ostatních Xs, tedy průzkum korelační matice (měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8) Další možnosti: a) Tolerance (1-R 2 j ) b) VIF = 1/(1-R 2 j ) VIF jsou diagonální prvky R -1 c) poměr: max lambda/min lambda (v SPSS tzv. Condition index) ROT*= nad 30 → problém *ROT=Rules of thumb

33 Multikolinearita Řešení Ignorovat Vypustit proměnnou Získat další data Použít FA (s rotací) a regrese s faktory Ridge regrese Ridge regrese má zkreslené odhady ale menší standardní chyby (změníme trochu diagonálu)

34 Poučky k regresi AIC, BIC atd. jsou dostupné jen přes syntax, v nabídce je nenajdeme, lze zapsat za slovo STATISTICS slovo SELECTION (výstup viz Model Summary) Regrese na rozdíl od korelace umí modelovat i nelineární vztah (tzv. nelineární regrese, viz později). Vychází-li korelace nízká, může tedy být možné budovat regresní model nelineární. Tvar modelu nám může poradit grafické zobrazení dat (to platí vždy aneb grafická analýza by měla být první) Poznámka: Nevíme-li o vztazích jakého jsou druhu (lineární, kvadratické, logaritmické atd.) je rozumné volit lineární vztahy jsou přípustným zjednodušením a zároveň se nejlépe interpretují

35 Poučky k regresi Linearitu je také možno dosáhnout vhodnou transformací dat, nesmíme pak ale zapomenout „odtransformovat“ výsledky (viz dále) Nízký koeficient determinace neznamená nutně, že proměnné v modelu nevysvětlují změny závislé proměnné, ale důvodem může být chybná volba modelu (lineárního místo kvadratického apod.) Pro „slušný“ výpočet regresní analýzy se vyžaduje mít na každou proměnnou zařazenou v modelu cca 100 pozorování (rozhodně nikdy méně než 10 pozorování na 1 proměnnou!!!). Pamatujme na to jak rychle narůstá počet umělých proměnných u nominálních/ordinálních proměnných

36 Exkurz: Transformace dat Jaké známe transformace dat Centrování Standardizace Co dalšího? Linearizující transformace (viz např. příjem – původně logaritmicko normální rozdělění) Základní transformace – logaritmická, odmocninná, mocninná, exponenciální

37 Transformace dat a regrese Jak postupovat? Nejdříve transformujeme příslušnou proměnnou Vypočítáme lineární regresi vypočtené koeficienty musíme odtransformovat Upozornění: Při použití tohoto postupu nejsou již nalezené odhady nezkreslené (ztrácíme tedy jednu z výhod MNČ)

38 Nelineární regrese v SPSS Grafické řešení Výpočetní řešení Statistické složitosti

39 Nelineární regrese v Excelu Grafické řešení Výpočetní řešení v analytickém modulu


Stáhnout ppt "VÍCENÁSOBNÁ REGRESE. Vícenásobná regrese Datová matice X X1X2X3X4ATD. ANO204M1,2 NE180F4,3 NE178F2,3 NE187M3,8 ANO192M2,6. ATD."

Podobné prezentace


Reklamy Google