Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Cíl jednoduché (simple) regrese: najít model funkční závislosti (spojité) veličiny Y na jedné (spojité) veličině (na tzv. regresoru) X model lineární Y=b0+b1X kvadratický Y=b0+b1X+b2X 2 (tvar často napoví bodový graf dat) Příklad: závislost hmotnosti výlisku na jeho délce
2
vícenásobná regrese Cíl vícenásobné (multiple) regrese: najít model funkční závislosti (spojité) veličiny Y na více (spojitých) veličinách (regresorech) např. model lineární se 2 regresory: Y = b0+b1X+b2Z Příklad: závislost platu (Y) na věku zaměstnance (X) a délce jeho praxe v oboru (Z)
3
εi = yi−Yi i=1,…,n reziduum
Jednoduchá regrese Značení: (xi ; yi) i=1,…,n data Yi resp. ŷi i=1,…,n model εi = yi−Yi i=1,…,n reziduum
4
REGRESE – BODOVÝ GRAF
5
Jednoduchá lineární regrese
y1 = Y1+ ε1 = (b0 + b1·x1) + ε1 y2 = Y2+ ε2 = (b0 + b1·x2) + ε2 … yn = Yn+ εn = (b0 + b1·xn) + εn b0 parametr – prostý člen (průsečík grafu přímky s oY) b1 parametr – lineární člen (směrnice grafu přímky)
6
Jednoduchá lineární regrese
aneb MATICOVĚ: kde
7
Regrese b = (FTF)-1FTy jde o univerzální (pro každý regresní model!) vzorec odhadu parametrů b, modely se liší jen konkr. tvarem b a F; jde o tzv. odhad metodou nejmenších čtverců (MNČ) - zaručuje minS(ei)2 součet reziduálních čtverců
8
b = (FTF)-1FTy Regrese kde je vektor regresních koeficientů,
je vektor hodnot veličiny y, je regresní matice příslušná danému regresnímu modelu
9
Regrese b = (FTF)-1FTy Například pro lineární jednoduchou regresi má matice F následující tvar: pro kvadratický model pak: nebo pro logaritmický model:
10
Jednoduchá lineární regrese Metoda Nejmenších Čtverců
odvození b0, b1: Qe=S(ei )2 =S(yi−Yi )2 =S(yi−b0−b1·xi)2 b0, b1 bude značit řešení problému najít hodnoty pro b0, b1 tak, aby hodnota Qe byla (při daných xi, yi) MINIMÁLNÍ, aneb řešení soustavy rovnic: dQe /db0 = 0 dQe /db1 = 0
11
Jednoduchá lineární regrese Metoda Nejmenších Čtverců
Řešením této soustavy je opět: b1 = (nΣxiyi −ΣxiΣyi) / [nΣxi2 −(Σxi)2] b0 = (Σyi−b1Σxi) / n
12
míra kvality regresního modelu
V každém typu regresního modelu lze určit tzv. index determinace: I2 = 1− Qe/QY _ kde QY=Σ(yi−y)2
13
míra kvality regresního modelu
vždy v rozmezí 0 až 1, resp. 0 % až 100 %; čím vyšší, tím vyšší závislost vyjadřuje, z kolika % je variabilita závislé veličiny y vysvětlena variabilitou nezávislé veličiny x, respektive daným modelem
14
Korelace spec. pro model jednoduché lineární regrese
Korelační koeficient a
15
Korelace spec. pro model jednoduché lineární regrese
Korelační koeficient vždy v rozmezí -1 až +1 (NE v % !) záporný při “klesající regresní přímce” kladný při “rostoucí regresní přímce” čím DÁL od 0, tím silnější je lineární závislost („korelovanost“) mezi X a Y platí: r2 = I2
16
Korelace spec. pro model jednoduché lineární regrese
17
Korelace spec. pro model jednoduché lineární regrese
18
Korelace spec. pro model jednoduché lineární regrese
19
Korelace spec. pro model jednoduché nelineární regrese
Př: Stejná data, ale jiný, kvadratický model (kde už tedy nepočítáme r, jen I2 !)
20
Jednoduchá regrese – různé modely
Ad model kvadratický Y=b0+b1X+b2X 2 Vektor b odhadů (b0, b1, b2) pro parametry b0, b1, b2 je opět dán vzorcem (FTF)-1FTy, přičemž matice F má zde tvar:
21
Jednoduchá regrese – různé modely
Pro jedna data lze tedy najít jak model lineární (L), tak kvadratický (K). Označme: * odhady parametrů v L: b0(L), b1(L) * odhady parametrů v K: b0(K), b1(K), b2(K) (pozor, obecně např. b0(L) ≠ b0(K))
22
Jednoduchá regrese – různé modely
Dále označme: * součet rez.čtverců pro L: Qe(L) * součet rez.čtverců pro K: Qe(K) * index determinace pro L: I2 (L) * index determinace pro K: I2 (K) Vždy (u modelů pro tatáž data): Qe(L) > Qe(K)
23
Jednoduchá regrese – různé modely
Hodnota QY je dána pouze y-ovými hodnotami, nezávisí na modelu (je tedy stejná u každého modelu pro tatáž data) => Vždy (u modelů pro tatáž data): I2 (L) < I2 (K) (Logické – parabola se dle potřeby může „prohnout“ a o trochu lépe vysvětlit data.)
24
Jednoduchá regrese – různé modely
? Lze tedy říct, že parabola je vždy LEPŠÍ model než přímka ? NE: Parabola je vždy VÝSTIŽNĚJŠÍ, ale výhodou přímky je její JEDNODUCHOST Každý model = kompromis mezi výstižností a jednoduchostí
25
Jednoduchá regrese – různé modely
Reziduální rozptyl se2 je míra kvality modelu, zohledňující jak jeho výstižnost (Qe), tak složitost (p značí počet parametrů): se2 = Qe /(n−p)
26
Jednoduchá regrese – různé modely
Reziduální rozptyl se2 hodnotu nelze interpretovat, slouží pouze k porovnání různých modelů pro tatáž data, a to dle hesla „čím menší (je se2), tím lepší (je pro daná data příslušný model)“
27
Testování regresních parametrů
Uvažujme model s p parametry, např. jednoduchá lineární regrese: Y = b0+b1X → p=2 např. jednoduchá kvadratická regrese: Y = b0+b1X+b2X → p=3 např. 2-násobná lineární regrese: Y = b0+b1X+b2Z → p=3
28
Testování regresních parametrů
H0: b1 = …= bp−1 =0 (model jako celek je nevýznamný) versus H1: non H0 (aspoň jeden parametr modelu je významný); v testu není zahrnut b0
29
jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0
Testování - možnosti jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 H0….místo lineární funkce by jako model „bývala stačila“ funkce konstantní (Y=b0) aneb „přímka s nulovou směrnicí“; H1….do vhodného modelu je potřeba zahrnout nenulovou „směrnici“
30
H0: b1=b2=0 versus H1: non H0 Testování - možnosti
jednoduchá kvadratická regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo kvadratické funkce by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (lineární či kvadratický)
31
H0: b1=b2=0 versus H1: non H0 Testování - možnosti
2-násobná lineární regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo lineární funkce 2 proměnných (X a Z) by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (aneb proměnnou X či Z)
32
Testování regresních parametrů
atd. (modely složitější, s více parametry). Provedení testu regresních modelů: ← = se2 W = F1 (p1,np); ∞)
33
koeficient mnohonásobné korelace
Korelace – poznámky Korelační koeficienty lze určovat i u lineárních modelů s více regresory → koeficient mnohonásobné korelace (míra závislosti Y na všech regresorech) parciální (dílčí) korelační koeficienty (míra závislosti Y vždy na jednom z regresorů při „zohlednění“ regresorů zbylých)
34
U modelů s více regresory lze vybrat
Regrese – poznámky U modelů s více regresory lze vybrat postupně model jen s významnými regresory - kroková regrese (stepwise) regrese typu forward (přidávání regresorů, dokud je model jako celek stále ještě významný) regrese typu backward (naopak ubírání regresorů)
35
Kroková regrese (stepwise)
Provede se jednoduchá lineární regrese pro všechny regresory Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu
36
Kroková regrese (stepwise)
Provede se vícenásobná lineární regrese pro všechny dvojice skládající se z regresoru vybraného v 1.kroku a jednoho ze zbývajících regresorů Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu vícenásobné regrese, a přináší zlepšení modelu oproti předchozímu kroku
37
Kroková regrese (stepwise)
Následující kroky Pokud jsme v daném kroku vybrali nějaký regresor, který přinesl vylepšení kvality modelu, pokračujeme následujícím krokem Opět se pokoušíme vylepšit model přidáním nějakého ze zbylých regresorů
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.