Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Regrese – jednoduchá regrese

Podobné prezentace


Prezentace na téma: "Regrese – jednoduchá regrese"— Transkript prezentace:

1 Regrese – jednoduchá regrese
Cíl jednoduché (simple) regrese: najít model funkční závislosti (spojité) veličiny Y na jedné (spojité) veličině (na tzv. regresoru) X model lineární Y=b0+b1X kvadratický Y=b0+b1X+b2X 2 (tvar často napoví bodový graf dat) Příklad: závislost hmotnosti výlisku na jeho délce

2 Regrese – vícenásobná regrese
Cíl vícenásobné (multiple) regrese: najít model funkční závislosti (spojité) veličiny Y na více (spojitých) veličinách (regresorech) např. model lineární se 2 regresory: Y = b0+b1X+b2Z Příklad: závislost platu (Y) na věku zaměstnance (X) a délce jeho praxe v oboru (Z)

3 ei = yi−Yi i=1,…,n reziduum
Jednoduchá regrese Značení: (xi ; yi) i=1,…,n data Yi i=1,…,n model ei = yi−Yi i=1,…,n reziduum

4 Regrese – bodový graf

5 Jednoduchá lineární regrese
y1 = Y1+e1 = (b0 + b1·x1) + e1 y2 = Y2+e2 = (b0 + b1·x2) + e2 yn = Yn+en = (b0 + b1·xn) + en b0 parametr – prostý člen (průsečík grafu přímky s oY) b1 parametr – lineární člen (směrnice grafu přímky)

6 Jednoduchá lineární regrese
aneb MATICOVĚ: y = F·b + e kde

7 Jednoduchá lineární regrese
Odhad neznámých parametrů b0,b1? Zjednodušení: e je „nulový“ vektor; takto nalezené odhady budeme značit b0,b1, vektorově jako vektor b; řešíme tedy maticovou rovnici: y = F·b aneb F·b = y (kde y, F známe) s cílem určit b.

8 Jednoduchá lineární regrese
F·b = y → b = ? Pozor – F je matice, nelze s ní dělit! „Trikové“ úpravy (vlastnosti matic): FTF·b = FTy (FTF)-1FTF·b = (FTF)-1FTy b = (FTF)-1FTy

9 Jednoduchá lineární regrese
b = (FTF)-1FTy u modelu jednoduché lineární regrese:

10 Regrese b = (FTF)-1FTy jde o univerzální (pro každý regresní model!) vzorec odhadu parametrů b, modely se liší jen konkr. tvarem b a F; jde o tzv. odhad metodou nejmenších čtverců (MNČ) - zaručuje minS(ei)2 součet reziduálních čtverců

11 Jednoduchá lineární regrese-MNČ
odvození b0, b1: Qe=S(ei )2 =S(yi−Yi )2 =S(yi−b0−b1·xi)2 b0, b1 bude značit řešení problému najít hodnoty pro b0, b1 tak, aby hodnota Qe byla (při daných xi, yi) MINIMÁLNÍ, aneb řešení soustavy rovnic: dQe /db0 = 0 dQe /db1 = 0

12 Jednoduchá lineární regrese-MNČ
Derivace mají tvar: dQe /db0 = 2·S(yi−b0−b1·xi)·(−1) dQe /db1 = 2·S(yi−b0−b1·xi)·(−xi) tj. po dosazení do soustavy: 2·S(yi−b0−b1·xi)·(−1) = 0 |:2 2·S(yi−b0−b1·xi)·(−xi) = 0 |:2; roznásobit

13 Jednoduchá lineární regrese-MNČ
S (−yi + b0 + b1·xi) = 0 S (−xiyi + b0·xi + b1·xi2) = 0 aneb po rozdělení S na 3 sumy, využití, že Sb0=n·b0 a po převedení vždy první sumy (se znaménkem −) zleva doprava: n·b0 + b1·Sxi = Syi b0·Sxi + b1·Sxi2 = Sxiyi

14 Jednoduchá lineární regrese-MNČ
Řešením této soustavy je opět: b1 = (nΣxiyi −ΣxiΣyi) / [nΣxi2 −(Σxi)2] b0 = (Σyi−b1Σxi) / n

15 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company (Neter-Wasserman-Kutner, USA, 1990) X…velikost staveniště Y…počet hodin, odpracovaných dělníky xi 30 20 60 80 40 50 70 yi 73 128 170 87 108 135 69 148 132

16 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company

17 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company _ _ __ __ x=50, y=110, x2=2840, y2=13466, __ xy=(30·73+…+60·132)/10=6180 b1=(6180−50·110)/(2840−502)=2,0 b0=110−2·50=10,0 (ne vždy celočíselně) Nalezený model: Y=10+2X

18 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company

19 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company Interpretace výsledku (konkr. b1): Při jednotkovém nárůstu velikosti staveniště vzrůstá potřebný počet odpracovaných hodin (v průměru) o (Pozn.: Co když b1<0?) Ad b0: Při X=0 (co to je?)…Y=10.

20 Jednoduchá lineární regrese- příklad
Př: Data - Westwood Company Určete pro nalezený model Qe: Y1=10+2·30=70, e1=73−70=3 Y10=10+2·60=130, e10=132−130=2 Qe=32+02+(-2)2+…+22=60 A k čemu dál využít tuto hodnotu?

21 I2 = 1− Qe/QY Korelovanost je obecně míra lineární závislosti
V každém typu regresního modelu lze určit tzv. index determinace: I2 = 1− Qe/QY _ kde QY=Σ(yi−y)2

22 Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 :
Korelovanost Př: Data - Westwood Company Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 : QY=(73−110)2+…+(132−110)2= =1369+…+484 =13660; I2 = 1−60/13660 = 1−0,004 = 0,996

23 jde o model velmi silné závislosti proměnné Y na proměnné X.
Korelovanost Př: Data - Westwood Company Interpretace: Nalezený model (Y=10+2X) vysvětluje z 99,6 % variabilitu proměnné Y ANEB jde o model velmi silné závislosti proměnné Y na proměnné X.

24 Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního modelu lze použít index determinace I2 (0 až 1, resp. 0 % až 100 %); vyjadřuje, z kolika % je variabilita závisle proměnné (Y) vysvětlena daným modelem

25 Korelace spec. pro model jednoduché lineární regrese
Korelační koeficient (verze se sumami): r = (nΣxiyi −ΣxiΣyi) / ___________________________________________________________________________________________________ √ [nΣxi2−(Σxi)2]·[nΣyi2 −(Σyi)2]

26 Korelace spec. pro model jednoduché lineární regrese
Korelační koeficient vždy v rozmezí -1 až +1 (NE v % !) záporný při “klesající regresní přímce” kladný při “rostoucí regresní přímce” čím DÁL od 0, tím silnější je lineární závislost („korelovanost“) mezi X a Y platí: r2 = I2

27 Korelace spec. pro model jednoduché lineární regrese
Př: Data - Westwood Company r = (6180−50·110)/ ________________________________________________________________________________________________________________ √ (2840−502)·(13466−1102) = = 0, (platí: 0,9982=I2=0,996) Silná přímá* lineární závislost počtu prac. hodin na velikosti staveniště. * tj. dle „rostoucí přímky“ (nepřímá=?)

28 Korelace spec. pro model jednoduché lineární regrese
Př: Data Westwood Company (r=0,998)

29 Korelace spec. pro model jednoduché lineární regrese
Př: Jiná data (r = -0,946)

30 Korelace spec. pro model jednoduché lineární regrese
Př: Jiná data (r = -0,098)

31 Korelace spec. pro model jednoduché lineární regrese
Př: Jiná data (r = 0,075)

32 Korelace spec. pro model jednoduché nelineární regrese
Př: Stejná data, ale jiný, kvadratický model (kde už tedy nepočítáme r, jen I2 !)

33 Jednoduchá regrese – různé modely
Ad model kvadratický Y=b0+b1X+b2X 2 Vektor b odhadů (b0, b1, b2) pro parametry b0, b1, b2 je opět dán vzorcem (FTF)-1FTy, přičemž matice F má zde tvar:

34 Jednoduchá regrese – různé modely
Pro jedna data lze tedy najít jak model lineární (L), tak kvadratický (K). Označme: * odhady parametrů v L: b0(L), b1(L) * odhady parametrů v K: b0(K), b1(K), b2(K) (pozor, obecně např. b0(L) ≠ b0(K))

35 Jednoduchá regrese – různé modely
Dále označme: * součet rez.čtverců pro L: Qe(L) * součet rez.čtverců pro K: Qe(K) * index determinace pro L: I2 (L) * index determinace pro K: I2 (K) Vždy (u modelů pro tatáž data): Qe(L) > Qe(K)

36 Jednoduchá regrese – různé modely
Hodnota QY je dána pouze y-ovými hodnotami, nezávisí na modelu (je tedy stejná u každého modelu pro tatáž data) => Vždy (u modelů pro tatáž data): I2 (L) < I2 (K) (Logické – parabola se dle potřeby může „prohnout“ a o trochu lépe vysvětlit data.)

37 Jednoduchá regrese – různé modely
? Lze tedy říct, že parabola je vždy LEPŠÍ model než přímka ? NE: Parabola je vždy VÝSTIŽNĚJŠÍ, ale výhodou přímky je její JEDNODUCHOST Každý model = kompromis mezi výstižností a jednoduchostí

38 Jednoduchá regrese – různé modely
Reziduální rozptyl se2 je míra kvality modelu, zohledňující jak jeho výstižnost (Qe), tak složitost (p značí počet parametrů): se2 = Qe /(n−p) /viz přehled vzorců/

39 Jednoduchá regrese – různé modely
Reziduální rozptyl se2 hodnotu nelze interpretovat, slouží pouze k porovnání různých modelů pro tatáž data, a to dle hesla „čím menší (je se2), tím lepší (je pro daná data příslušný model)“

40 Jednoduchá regrese – různé modely
Př: Data - Westwood Company (pokr.) Pro data: QY=13660 Pro lin.model: Qe(L)=60, (už víme) I2 (L)=0,995608 Pro kvadr.model: Qe(K)=59,958907 I2 (K)=0,995611

41 Jednoduchá regrese – různé modely
Př: Data - Westwood Company (pokr.) Kdybychom daty proložili místo přímky parabolu, znamenalo by to sice vylepšení výstižnosti modelu, ale zanedbatelné (z 99,5608 % na 99,5611 %); na grafu by nebyl průběh paraboly mezi daty k rozeznání od přímky

42 Jednoduchá regrese – různé modely
Př: Data - Westwood Company (pokr.) Pro lin.model: se2 (L) = 60/(10−2) = 7,5 Pro kvadr.model: se2 (K) = 59,958907/(10−3) = 8,6 Z obou modelů je přímka „vítězem“.

43 Testování regresních parametrů
Uvažujme model s p parametry, např. jednoduchá lineární regrese: Y = b0+b1X → p=2 např. jednoduchá kvadratická regrese: Y = b0+b1X+b2X → p=3 např. 2-násobná lineární regrese: Y = b0+b1X+b2Z → p=3

44 Testování regresních parametrů
H0: b1 = …= bp−1 =0 (model jako celek je nevýznamný) versus H1: non H0 (aspoň jeden parametr modelu je významný); v testu není zahrnut b0

45 jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0
Testování - možnosti jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 H0….místo lineární funkce by jako model „bývala stačila“ funkce konstantní (Y=b0) aneb „přímka s nulovou směrnicí“; H1….do vhodného modelu je potřeba zahrnout nenulovou „směrnici“

46 Testování - možnosti H0: b1=b2=0 versus H1: non H0
jednoduchá kvadratická regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo kvadratické funkce by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (lineární či kvadratický)

47 Testování - možnosti H0: b1=b2=0 versus H1: non H0
2-násobná lineární regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo lineární funkce 2 proměnných (X a Z) by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (aneb proměnnou X či Z)

48 Testování regresních parametrů
atd. (modely složitější, s více parametry). Provedení testu regresních modelů: ← = se2 W =  F1 (p1,np); ∞) viz vzorce

49 Testování regresních parametrů
Př: Data - Westwood Company (pokr.) Pomocí reziduálního rozptylu byl ze dvou modelů vybrán lineární. Jde ale o model VÝZNAMNÝ (tj. „dobrý“)? T = 1813,3 W =  F0,95 (1,8); ∞) =  5,32; ∞) zamítáme H0 → model JE VÝZNAMNÝ

50 koeficient mnohonásobné korelace
Korelace – poznámky Korelační koeficienty lze určovat i u lineárních modelů s více regresory → koeficient mnohonásobné korelace (míra závislosti Y na všech regresorech) parciální (dílčí) korelační koeficienty (míra závislosti Y vždy na jednom z regresorů při „zohlednění“ regresorů zbylých)

51 U modelů s více regresory lze vybrat
Regrese – poznámky U modelů s více regresory lze vybrat postupně model jen s významnými regresory - kroková regrese (stepwise) regrese typu forward (přidávání regresorů, dokud je model jako celek stále ještě významný) regrese typu backward (naopak ubírání regresorů)

52 Kroková regrese (stepwise)
Příklad (Statistical Thinking for Managers-4th edition: Hildebrand, Ott) Data – viz přiložený soubor v Excelu, záložka EX1350

53 Vícenásobná regrese Výsledek (podrobněji viz přiložený soubor, záložka multiple regression) Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Dolní 95,0% Horní 95,0% Hranice -10,0892 7,35341 -1,37204 0,176564 -24,8823 4,703954 Soubor X 1 0,449143 0,254122 1,767433 0,083648 -0,06208 0,960369 Soubor X 2 0,308356 0,185085 1,666026 0,10236 -0,06399 0,680699 Soubor X 3 0,069565 0,051102 1,361291 0,179913 -0,03324 0,172369 Soubor X 4 -0,0126 0,084952 -0,14833 0,882717 -0,1835 0,1583

54 Vícenásobná regrese Interpretace výsledku
Y=-10,0892+0,449143X1+0,308356X2+0,069565X3-0,0126X4 VŠECHNY P-HODNOTY JSOU ALE VĚTŠÍ NEŽ 0,05 A PROTO NEJSOU KOEFICIENTY SIGNIFIKANTNÍ KOEFICIENTY U X1 AŽ X3 VYŠLY KLADNÉ,TEDY DLE NAŠEHO PŘEDPOKLADU. PŘEDPOKLAD PRO KOEFICIENT U X4 NEVYŠEL. 95% INTERVAL PRO TITLES JE -0,06208 AŽ 0,960369, STANDARD. CHYBA JE 0,254122 0 V INTERVALU LEŽÍ, JE TEDY PŘÍPUSTNÁ HODNOTA MODEL NENÍ DOBRÝ – NENÍ VÝZNAMNÝ

55 Kroková regrese (stepwise)
Provede se jednoduchá lineární regrese pro všechny regresory Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu Ve sledovaném příkladu je tímto vybraným regresorem TITLES, do modelu vstupuje s koeficientem 0,8463 Podrobněji viz přiložený soubor, záložky 1.step…

56 Kroková regrese (stepwise)
Provede se vícenásobná lineární regrese pro všechny dvojice skládající se z regresoru vybraného v 1.kroku a jednoho ze zbývajících regresorů Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu vícenásobné regrese, a přináší zlepšení modelu oproti předchozímu kroku Ve sledovaném příkladu není žádný takovýto regresor Podrobněji viz přiložený soubor, záložky 2.step…

57 Kroková regrese (stepwise)
Následující kroky Pokud jsme v daném kroku vybrali nějaký regresor, který přinesl vylepšení kvality modelu, pokračujeme následujícím krokem Opět se pokoušíme vylepšit model přidáním nějakého ze zbylých regresorů

58 Kroková regrese (stepwise)
V ANI JEDNOM PŘÍPADĚ 2.KROKU NEDOŠLO KE ZLEPŠENÍ P-HODNOTY MODELU, TAKÉ V KAŽDÉM PŘÍPADĚ BYLA P-HODNOTA JEDNOHO Z KOEFICIENTŮ VĚTŠÍ NEŽ 0,05, COŽ UKAZUJE NA NESIGNIFIKANTNOST TOHOTO KOEFICIENTU, PROTO JIŽ ŽÁDNÁ Z DALŠÍCH PROMĚNNÝCH NEBUDE DO MODELU PŘIDÁNA VE VÝSLEDNÉM MODELU TEDY BUDE FIGUROVAT POUZE PROMĚNNÁ X1 - TITLES VÝSLEDNÝ MODEL JE Y=-10,8884+0,846334*X1


Stáhnout ppt "Regrese – jednoduchá regrese"

Podobné prezentace


Reklamy Google