Regrese – jednoduchá regrese Cíl jednoduché (simple) regrese: najít model funkční závislosti (spojité) veličiny Y na jedné (spojité) veličině (na tzv. regresoru) X model lineární Y=b0+b1X kvadratický Y=b0+b1X+b2X 2 (tvar často napoví bodový graf dat) Příklad: závislost hmotnosti výlisku na jeho délce
Regrese – vícenásobná regrese Cíl vícenásobné (multiple) regrese: najít model funkční závislosti (spojité) veličiny Y na více (spojitých) veličinách (regresorech) např. model lineární se 2 regresory: Y = b0+b1X+b2Z Příklad: závislost platu (Y) na věku zaměstnance (X) a délce jeho praxe v oboru (Z)
ei = yi−Yi i=1,…,n reziduum Jednoduchá regrese Značení: (xi ; yi) i=1,…,n data Yi i=1,…,n model ei = yi−Yi i=1,…,n reziduum
Regrese – bodový graf
Jednoduchá lineární regrese y1 = Y1+e1 = (b0 + b1·x1) + e1 y2 = Y2+e2 = (b0 + b1·x2) + e2 … yn = Yn+en = (b0 + b1·xn) + en b0 parametr – prostý člen (průsečík grafu přímky s oY) b1 parametr – lineární člen (směrnice grafu přímky)
Jednoduchá lineární regrese aneb MATICOVĚ: y = F·b + e kde
Jednoduchá lineární regrese Odhad neznámých parametrů b0,b1? Zjednodušení: e je „nulový“ vektor; takto nalezené odhady budeme značit b0,b1, vektorově jako vektor b; řešíme tedy maticovou rovnici: y = F·b aneb F·b = y (kde y, F známe) s cílem určit b.
Jednoduchá lineární regrese F·b = y → b = ? Pozor – F je matice, nelze s ní dělit! „Trikové“ úpravy (vlastnosti matic): FTF·b = FTy (FTF)-1FTF·b = (FTF)-1FTy b = (FTF)-1FTy
Jednoduchá lineární regrese b = (FTF)-1FTy u modelu jednoduché lineární regrese:
Regrese b = (FTF)-1FTy jde o univerzální (pro každý regresní model!) vzorec odhadu parametrů b, modely se liší jen konkr. tvarem b a F; jde o tzv. odhad metodou nejmenších čtverců (MNČ) - zaručuje minS(ei)2 součet reziduálních čtverců
Jednoduchá lineární regrese-MNČ odvození b0, b1: Qe=S(ei )2 =S(yi−Yi )2 =S(yi−b0−b1·xi)2 b0, b1 bude značit řešení problému najít hodnoty pro b0, b1 tak, aby hodnota Qe byla (při daných xi, yi) MINIMÁLNÍ, aneb řešení soustavy rovnic: dQe /db0 = 0 dQe /db1 = 0
Jednoduchá lineární regrese-MNČ Derivace mají tvar: dQe /db0 = 2·S(yi−b0−b1·xi)·(−1) dQe /db1 = 2·S(yi−b0−b1·xi)·(−xi) tj. po dosazení do soustavy: 2·S(yi−b0−b1·xi)·(−1) = 0 |:2 2·S(yi−b0−b1·xi)·(−xi) = 0 |:2; roznásobit
Jednoduchá lineární regrese-MNČ S (−yi + b0 + b1·xi) = 0 S (−xiyi + b0·xi + b1·xi2) = 0 aneb po rozdělení S na 3 sumy, využití, že Sb0=n·b0 a po převedení vždy první sumy (se znaménkem −) zleva doprava: n·b0 + b1·Sxi = Syi b0·Sxi + b1·Sxi2 = Sxiyi
Jednoduchá lineární regrese-MNČ Řešením této soustavy je opět: b1 = (nΣxiyi −ΣxiΣyi) / [nΣxi2 −(Σxi)2] b0 = (Σyi−b1Σxi) / n
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company (Neter-Wasserman-Kutner, USA, 1990) X…velikost staveniště Y…počet hodin, odpracovaných dělníky xi 30 20 60 80 40 50 70 yi 73 128 170 87 108 135 69 148 132
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company _ _ __ __ x=50, y=110, x2=2840, y2=13466, __ xy=(30·73+…+60·132)/10=6180 b1=(6180−50·110)/(2840−502)=2,0 b0=110−2·50=10,0 (ne vždy celočíselně) Nalezený model: Y=10+2X
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company Interpretace výsledku (konkr. b1): Při jednotkovém nárůstu velikosti staveniště vzrůstá potřebný počet odpracovaných hodin (v průměru) o 2. (Pozn.: Co když b1<0?) Ad b0: Při X=0 (co to je?)…Y=10.
Jednoduchá lineární regrese- příklad Př: Data - Westwood Company Určete pro nalezený model Qe: Y1=10+2·30=70, e1=73−70=3 … Y10=10+2·60=130, e10=132−130=2 Qe=32+02+(-2)2+…+22=60 A k čemu dál využít tuto hodnotu?
I2 = 1− Qe/QY Korelovanost je obecně míra lineární závislosti V každém typu regresního modelu lze určit tzv. index determinace: I2 = 1− Qe/QY _ kde QY=Σ(yi−y)2
Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 : Korelovanost Př: Data - Westwood Company Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 : QY=(73−110)2+…+(132−110)2= =1369+…+484 =13660; I2 = 1−60/13660 = 1−0,004 = 0,996
jde o model velmi silné závislosti proměnné Y na proměnné X. Korelovanost Př: Data - Westwood Company Interpretace: Nalezený model (Y=10+2X) vysvětluje z 99,6 % variabilitu proměnné Y ANEB jde o model velmi silné závislosti proměnné Y na proměnné X.
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního modelu lze použít index determinace I2 (0 až 1, resp. 0 % až 100 %); vyjadřuje, z kolika % je variabilita závisle proměnné (Y) vysvětlena daným modelem
Korelace spec. pro model jednoduché lineární regrese Korelační koeficient (verze se sumami): r = (nΣxiyi −ΣxiΣyi) / ___________________________________________________________________________________________________ √ [nΣxi2−(Σxi)2]·[nΣyi2 −(Σyi)2]
Korelace spec. pro model jednoduché lineární regrese Korelační koeficient vždy v rozmezí -1 až +1 (NE v % !) záporný při “klesající regresní přímce” kladný při “rostoucí regresní přímce” čím DÁL od 0, tím silnější je lineární závislost („korelovanost“) mezi X a Y platí: r2 = I2
Korelace spec. pro model jednoduché lineární regrese Př: Data - Westwood Company r = (6180−50·110)/ ________________________________________________________________________________________________________________ √ (2840−502)·(13466−1102) = = 0,998 (platí: 0,9982=I2=0,996) Silná přímá* lineární závislost počtu prac. hodin na velikosti staveniště. * tj. dle „rostoucí přímky“ (nepřímá=?)
Korelace spec. pro model jednoduché lineární regrese Př: Data Westwood Company (r=0,998)
Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = -0,946)
Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = -0,098)
Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = 0,075)
Korelace spec. pro model jednoduché nelineární regrese Př: Stejná data, ale jiný, kvadratický model (kde už tedy nepočítáme r, jen I2 !)
Jednoduchá regrese – různé modely Ad model kvadratický Y=b0+b1X+b2X 2 Vektor b odhadů (b0, b1, b2) pro parametry b0, b1, b2 je opět dán vzorcem (FTF)-1FTy, přičemž matice F má zde tvar:
Jednoduchá regrese – různé modely Pro jedna data lze tedy najít jak model lineární (L), tak kvadratický (K). Označme: * odhady parametrů v L: b0(L), b1(L) * odhady parametrů v K: b0(K), b1(K), b2(K) (pozor, obecně např. b0(L) ≠ b0(K))
Jednoduchá regrese – různé modely Dále označme: * součet rez.čtverců pro L: Qe(L) * součet rez.čtverců pro K: Qe(K) * index determinace pro L: I2 (L) * index determinace pro K: I2 (K) Vždy (u modelů pro tatáž data): Qe(L) > Qe(K)
Jednoduchá regrese – různé modely Hodnota QY je dána pouze y-ovými hodnotami, nezávisí na modelu (je tedy stejná u každého modelu pro tatáž data) => Vždy (u modelů pro tatáž data): I2 (L) < I2 (K) (Logické – parabola se dle potřeby může „prohnout“ a o trochu lépe vysvětlit data.)
Jednoduchá regrese – různé modely ? Lze tedy říct, že parabola je vždy LEPŠÍ model než přímka ? NE: Parabola je vždy VÝSTIŽNĚJŠÍ, ale výhodou přímky je její JEDNODUCHOST Každý model = kompromis mezi výstižností a jednoduchostí
Jednoduchá regrese – různé modely Reziduální rozptyl se2 je míra kvality modelu, zohledňující jak jeho výstižnost (Qe), tak složitost (p značí počet parametrů): se2 = Qe /(n−p) /viz přehled vzorců/
Jednoduchá regrese – různé modely Reziduální rozptyl se2 hodnotu nelze interpretovat, slouží pouze k porovnání různých modelů pro tatáž data, a to dle hesla „čím menší (je se2), tím lepší (je pro daná data příslušný model)“
Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Pro data: QY=13660 Pro lin.model: Qe(L)=60, (už víme) I2 (L)=0,995608 Pro kvadr.model: Qe(K)=59,958907 I2 (K)=0,995611
Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Kdybychom daty proložili místo přímky parabolu, znamenalo by to sice vylepšení výstižnosti modelu, ale zanedbatelné (z 99,5608 % na 99,5611 %); na grafu by nebyl průběh paraboly mezi daty k rozeznání od přímky
Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Pro lin.model: se2 (L) = 60/(10−2) = 7,5 Pro kvadr.model: se2 (K) = 59,958907/(10−3) = 8,6 Z obou modelů je přímka „vítězem“.
Testování regresních parametrů Uvažujme model s p parametry, např. jednoduchá lineární regrese: Y = b0+b1X → p=2 např. jednoduchá kvadratická regrese: Y = b0+b1X+b2X 2 → p=3 např. 2-násobná lineární regrese: Y = b0+b1X+b2Z → p=3
Testování regresních parametrů H0: b1 = …= bp−1 =0 (model jako celek je nevýznamný) versus H1: non H0 (aspoň jeden parametr modelu je významný); v testu není zahrnut b0
jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 Testování - možnosti jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 H0….místo lineární funkce by jako model „bývala stačila“ funkce konstantní (Y=b0) aneb „přímka s nulovou směrnicí“; H1….do vhodného modelu je potřeba zahrnout nenulovou „směrnici“
Testování - možnosti H0: b1=b2=0 versus H1: non H0 jednoduchá kvadratická regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo kvadratické funkce by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (lineární či kvadratický)
Testování - možnosti H0: b1=b2=0 versus H1: non H0 2-násobná lineární regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo lineární funkce 2 proměnných (X a Z) by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (aneb proměnnou X či Z)
Testování regresních parametrů atd. (modely složitější, s více parametry). Provedení testu regresních modelů: ← = se2 W = F1 (p1,np); ∞) viz vzorce
Testování regresních parametrů Př: Data - Westwood Company (pokr.) Pomocí reziduálního rozptylu byl ze dvou modelů vybrán lineární. Jde ale o model VÝZNAMNÝ (tj. „dobrý“)? T = 1813,3 W = F0,95 (1,8); ∞) = 5,32; ∞) zamítáme H0 → model JE VÝZNAMNÝ
koeficient mnohonásobné korelace Korelace – poznámky Korelační koeficienty lze určovat i u lineárních modelů s více regresory → koeficient mnohonásobné korelace (míra závislosti Y na všech regresorech) parciální (dílčí) korelační koeficienty (míra závislosti Y vždy na jednom z regresorů při „zohlednění“ regresorů zbylých)
U modelů s více regresory lze vybrat Regrese – poznámky U modelů s více regresory lze vybrat postupně model jen s významnými regresory - kroková regrese (stepwise) regrese typu forward (přidávání regresorů, dokud je model jako celek stále ještě významný) regrese typu backward (naopak ubírání regresorů)
Kroková regrese (stepwise) Příklad (Statistical Thinking for Managers-4th edition: Hildebrand, Ott) Data – viz přiložený soubor v Excelu, záložka EX1350
Vícenásobná regrese Výsledek (podrobněji viz přiložený soubor, záložka multiple regression) Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Dolní 95,0% Horní 95,0% Hranice -10,0892 7,35341 -1,37204 0,176564 -24,8823 4,703954 Soubor X 1 0,449143 0,254122 1,767433 0,083648 -0,06208 0,960369 Soubor X 2 0,308356 0,185085 1,666026 0,10236 -0,06399 0,680699 Soubor X 3 0,069565 0,051102 1,361291 0,179913 -0,03324 0,172369 Soubor X 4 -0,0126 0,084952 -0,14833 0,882717 -0,1835 0,1583
Vícenásobná regrese Interpretace výsledku Y=-10,0892+0,449143X1+0,308356X2+0,069565X3-0,0126X4 VŠECHNY P-HODNOTY JSOU ALE VĚTŠÍ NEŽ 0,05 A PROTO NEJSOU KOEFICIENTY SIGNIFIKANTNÍ KOEFICIENTY U X1 AŽ X3 VYŠLY KLADNÉ,TEDY DLE NAŠEHO PŘEDPOKLADU. PŘEDPOKLAD PRO KOEFICIENT U X4 NEVYŠEL. 95% INTERVAL PRO TITLES JE -0,06208 AŽ 0,960369, STANDARD. CHYBA JE 0,254122 0 V INTERVALU LEŽÍ, JE TEDY PŘÍPUSTNÁ HODNOTA MODEL NENÍ DOBRÝ – NENÍ VÝZNAMNÝ
Kroková regrese (stepwise) Provede se jednoduchá lineární regrese pro všechny regresory Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu Ve sledovaném příkladu je tímto vybraným regresorem TITLES, do modelu vstupuje s koeficientem 0,8463 Podrobněji viz přiložený soubor, záložky 1.step…
Kroková regrese (stepwise) Provede se vícenásobná lineární regrese pro všechny dvojice skládající se z regresoru vybraného v 1.kroku a jednoho ze zbývajících regresorů Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu vícenásobné regrese, a přináší zlepšení modelu oproti předchozímu kroku Ve sledovaném příkladu není žádný takovýto regresor Podrobněji viz přiložený soubor, záložky 2.step…
Kroková regrese (stepwise) Následující kroky Pokud jsme v daném kroku vybrali nějaký regresor, který přinesl vylepšení kvality modelu, pokračujeme následujícím krokem Opět se pokoušíme vylepšit model přidáním nějakého ze zbylých regresorů
Kroková regrese (stepwise) V ANI JEDNOM PŘÍPADĚ 2.KROKU NEDOŠLO KE ZLEPŠENÍ P-HODNOTY MODELU, TAKÉ V KAŽDÉM PŘÍPADĚ BYLA P-HODNOTA JEDNOHO Z KOEFICIENTŮ VĚTŠÍ NEŽ 0,05, COŽ UKAZUJE NA NESIGNIFIKANTNOST TOHOTO KOEFICIENTU, PROTO JIŽ ŽÁDNÁ Z DALŠÍCH PROMĚNNÝCH NEBUDE DO MODELU PŘIDÁNA VE VÝSLEDNÉM MODELU TEDY BUDE FIGUROVAT POUZE PROMĚNNÁ X1 - TITLES VÝSLEDNÝ MODEL JE Y=-10,8884+0,846334*X1