Regrese – jednoduchá regrese

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
Funkce.
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Gaussova eliminační metoda
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Anotace Prezentace, která se zabývá opakováním funkcí. AutorMgr. Václav Simandl JazykČeština Očekávaný výstupŽáci opakují funkce. Speciální vzdělávací.
kvantitativních znaků
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Kvadratická funkce. Co je to funkce Každému prvku x z definičního oboru je přiřazeno právě jedno číslo y z oboru hodnot x je nezávisle proměnná y je závisle.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Lineární regrese kalibrační přímky
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Lineární regrese FSS928.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
2. Vybrané základní pojmy matematické statistiky
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
IV..
Aplikovaná statistika 2.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Základy zpracování geologických dat R. Čopjaková.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
… jsou bohatší lidé šťastnější?
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Testování hypotéz párový test
Základy statistické indukce
Induktivní statistika
Odhady parametrů základního souboru
Regrese – jednoduchá regrese
2.1.1 Kvadratická funkce.
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Lineární funkce a její vlastnosti
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
4. Metoda nejmenších čtverců
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Induktivní statistika
Vzájemná závislost - KORELACE
Transkript prezentace:

Regrese – jednoduchá regrese Cíl jednoduché (simple) regrese: najít model funkční závislosti (spojité) veličiny Y na jedné (spojité) veličině (na tzv. regresoru) X model lineární Y=b0+b1X kvadratický Y=b0+b1X+b2X 2 (tvar často napoví bodový graf dat) Příklad: závislost hmotnosti výlisku na jeho délce

Regrese – vícenásobná regrese Cíl vícenásobné (multiple) regrese: najít model funkční závislosti (spojité) veličiny Y na více (spojitých) veličinách (regresorech) např. model lineární se 2 regresory: Y = b0+b1X+b2Z Příklad: závislost platu (Y) na věku zaměstnance (X) a délce jeho praxe v oboru (Z)

ei = yi−Yi i=1,…,n reziduum Jednoduchá regrese Značení: (xi ; yi) i=1,…,n data Yi i=1,…,n model ei = yi−Yi i=1,…,n reziduum

Regrese – bodový graf

Jednoduchá lineární regrese y1 = Y1+e1 = (b0 + b1·x1) + e1 y2 = Y2+e2 = (b0 + b1·x2) + e2 … yn = Yn+en = (b0 + b1·xn) + en b0 parametr – prostý člen (průsečík grafu přímky s oY) b1 parametr – lineární člen (směrnice grafu přímky)

Jednoduchá lineární regrese aneb MATICOVĚ: y = F·b + e kde

Jednoduchá lineární regrese Odhad neznámých parametrů b0,b1? Zjednodušení: e je „nulový“ vektor; takto nalezené odhady budeme značit b0,b1, vektorově jako vektor b; řešíme tedy maticovou rovnici: y = F·b aneb F·b = y (kde y, F známe) s cílem určit b.

Jednoduchá lineární regrese F·b = y → b = ? Pozor – F je matice, nelze s ní dělit! „Trikové“ úpravy (vlastnosti matic): FTF·b = FTy (FTF)-1FTF·b = (FTF)-1FTy b = (FTF)-1FTy

Jednoduchá lineární regrese b = (FTF)-1FTy u modelu jednoduché lineární regrese:

Regrese b = (FTF)-1FTy jde o univerzální (pro každý regresní model!) vzorec odhadu parametrů b, modely se liší jen konkr. tvarem b a F; jde o tzv. odhad metodou nejmenších čtverců (MNČ) - zaručuje minS(ei)2 součet reziduálních čtverců

Jednoduchá lineární regrese-MNČ odvození b0, b1: Qe=S(ei )2 =S(yi−Yi )2 =S(yi−b0−b1·xi)2 b0, b1 bude značit řešení problému najít hodnoty pro b0, b1 tak, aby hodnota Qe byla (při daných xi, yi) MINIMÁLNÍ, aneb řešení soustavy rovnic: dQe /db0 = 0 dQe /db1 = 0

Jednoduchá lineární regrese-MNČ Derivace mají tvar: dQe /db0 = 2·S(yi−b0−b1·xi)·(−1) dQe /db1 = 2·S(yi−b0−b1·xi)·(−xi) tj. po dosazení do soustavy: 2·S(yi−b0−b1·xi)·(−1) = 0 |:2 2·S(yi−b0−b1·xi)·(−xi) = 0 |:2; roznásobit

Jednoduchá lineární regrese-MNČ S (−yi + b0 + b1·xi) = 0 S (−xiyi + b0·xi + b1·xi2) = 0 aneb po rozdělení S na 3 sumy, využití, že Sb0=n·b0 a po převedení vždy první sumy (se znaménkem −) zleva doprava: n·b0 + b1·Sxi = Syi b0·Sxi + b1·Sxi2 = Sxiyi

Jednoduchá lineární regrese-MNČ Řešením této soustavy je opět: b1 = (nΣxiyi −ΣxiΣyi) / [nΣxi2 −(Σxi)2] b0 = (Σyi−b1Σxi) / n

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company (Neter-Wasserman-Kutner, USA, 1990) X…velikost staveniště Y…počet hodin, odpracovaných dělníky xi 30 20 60 80 40 50 70 yi 73 128 170 87 108 135 69 148 132

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company _ _ __ __ x=50, y=110, x2=2840, y2=13466, __ xy=(30·73+…+60·132)/10=6180 b1=(6180−50·110)/(2840−502)=2,0 b0=110−2·50=10,0 (ne vždy celočíselně) Nalezený model: Y=10+2X

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company Interpretace výsledku (konkr. b1): Při jednotkovém nárůstu velikosti staveniště vzrůstá potřebný počet odpracovaných hodin (v průměru) o 2. (Pozn.: Co když b1<0?) Ad b0: Při X=0 (co to je?)…Y=10.

Jednoduchá lineární regrese- příklad Př: Data - Westwood Company Určete pro nalezený model Qe: Y1=10+2·30=70, e1=73−70=3 … Y10=10+2·60=130, e10=132−130=2 Qe=32+02+(-2)2+…+22=60 A k čemu dál využít tuto hodnotu?

I2 = 1− Qe/QY Korelovanost je obecně míra lineární závislosti V každém typu regresního modelu lze určit tzv. index determinace: I2 = 1− Qe/QY _ kde QY=Σ(yi−y)2

Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 : Korelovanost Př: Data - Westwood Company Určete pro nalezený model (pro nějž vyšlo Qe=60) hodnotu I2 : QY=(73−110)2+…+(132−110)2= =1369+…+484 =13660; I2 = 1−60/13660 = 1−0,004 = 0,996

jde o model velmi silné závislosti proměnné Y na proměnné X. Korelovanost Př: Data - Westwood Company Interpretace: Nalezený model (Y=10+2X) vysvětluje z 99,6 % variabilitu proměnné Y ANEB jde o model velmi silné závislosti proměnné Y na proměnné X.

Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního modelu lze použít index determinace I2 (0 až 1, resp. 0 % až 100 %); vyjadřuje, z kolika % je variabilita závisle proměnné (Y) vysvětlena daným modelem

Korelace spec. pro model jednoduché lineární regrese Korelační koeficient (verze se sumami): r = (nΣxiyi −ΣxiΣyi) / ___________________________________________________________________________________________________ √ [nΣxi2−(Σxi)2]·[nΣyi2 −(Σyi)2]

Korelace spec. pro model jednoduché lineární regrese Korelační koeficient vždy v rozmezí -1 až +1 (NE v % !) záporný při “klesající regresní přímce” kladný při “rostoucí regresní přímce” čím DÁL od 0, tím silnější je lineární závislost („korelovanost“) mezi X a Y platí: r2 = I2

Korelace spec. pro model jednoduché lineární regrese Př: Data - Westwood Company r = (6180−50·110)/ ________________________________________________________________________________________________________________ √ (2840−502)·(13466−1102) = = 0,998 (platí: 0,9982=I2=0,996) Silná přímá* lineární závislost počtu prac. hodin na velikosti staveniště. * tj. dle „rostoucí přímky“ (nepřímá=?)

Korelace spec. pro model jednoduché lineární regrese Př: Data Westwood Company (r=0,998)

Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = -0,946)

Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = -0,098)

Korelace spec. pro model jednoduché lineární regrese Př: Jiná data (r = 0,075)

Korelace spec. pro model jednoduché nelineární regrese Př: Stejná data, ale jiný, kvadratický model (kde už tedy nepočítáme r, jen I2 !)

Jednoduchá regrese – různé modely Ad model kvadratický Y=b0+b1X+b2X 2 Vektor b odhadů (b0, b1, b2) pro parametry b0, b1, b2 je opět dán vzorcem (FTF)-1FTy, přičemž matice F má zde tvar:

Jednoduchá regrese – různé modely Pro jedna data lze tedy najít jak model lineární (L), tak kvadratický (K). Označme: * odhady parametrů v L: b0(L), b1(L) * odhady parametrů v K: b0(K), b1(K), b2(K) (pozor, obecně např. b0(L) ≠ b0(K))

Jednoduchá regrese – různé modely Dále označme: * součet rez.čtverců pro L: Qe(L) * součet rez.čtverců pro K: Qe(K) * index determinace pro L: I2 (L) * index determinace pro K: I2 (K) Vždy (u modelů pro tatáž data): Qe(L) > Qe(K)

Jednoduchá regrese – různé modely Hodnota QY je dána pouze y-ovými hodnotami, nezávisí na modelu (je tedy stejná u každého modelu pro tatáž data) => Vždy (u modelů pro tatáž data): I2 (L) < I2 (K) (Logické – parabola se dle potřeby může „prohnout“ a o trochu lépe vysvětlit data.)

Jednoduchá regrese – různé modely ? Lze tedy říct, že parabola je vždy LEPŠÍ model než přímka ? NE: Parabola je vždy VÝSTIŽNĚJŠÍ, ale výhodou přímky je její JEDNODUCHOST Každý model = kompromis mezi výstižností a jednoduchostí

Jednoduchá regrese – různé modely Reziduální rozptyl se2 je míra kvality modelu, zohledňující jak jeho výstižnost (Qe), tak složitost (p značí počet parametrů): se2 = Qe /(n−p) /viz přehled vzorců/

Jednoduchá regrese – různé modely Reziduální rozptyl se2 hodnotu nelze interpretovat, slouží pouze k porovnání různých modelů pro tatáž data, a to dle hesla „čím menší (je se2), tím lepší (je pro daná data příslušný model)“

Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Pro data: QY=13660 Pro lin.model: Qe(L)=60, (už víme) I2 (L)=0,995608 Pro kvadr.model: Qe(K)=59,958907 I2 (K)=0,995611

Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Kdybychom daty proložili místo přímky parabolu, znamenalo by to sice vylepšení výstižnosti modelu, ale zanedbatelné (z 99,5608 % na 99,5611 %); na grafu by nebyl průběh paraboly mezi daty k rozeznání od přímky

Jednoduchá regrese – různé modely Př: Data - Westwood Company (pokr.) Pro lin.model: se2 (L) = 60/(10−2) = 7,5 Pro kvadr.model: se2 (K) = 59,958907/(10−3) = 8,6 Z obou modelů je přímka „vítězem“.

Testování regresních parametrů Uvažujme model s p parametry, např. jednoduchá lineární regrese: Y = b0+b1X → p=2 např. jednoduchá kvadratická regrese: Y = b0+b1X+b2X 2 → p=3 např. 2-násobná lineární regrese: Y = b0+b1X+b2Z → p=3

Testování regresních parametrů H0: b1 = …= bp−1 =0 (model jako celek je nevýznamný) versus H1: non H0 (aspoň jeden parametr modelu je významný); v testu není zahrnut b0

jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 Testování - možnosti jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 H0….místo lineární funkce by jako model „bývala stačila“ funkce konstantní (Y=b0) aneb „přímka s nulovou směrnicí“; H1….do vhodného modelu je potřeba zahrnout nenulovou „směrnici“

Testování - možnosti H0: b1=b2=0 versus H1: non H0 jednoduchá kvadratická regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo kvadratické funkce by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (lineární či kvadratický)

Testování - možnosti H0: b1=b2=0 versus H1: non H0 2-násobná lineární regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo lineární funkce 2 proměnných (X a Z) by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (aneb proměnnou X či Z)

Testování regresních parametrů atd. (modely složitější, s více parametry). Provedení testu regresních modelů: ← = se2 W =  F1 (p1,np); ∞) viz vzorce

Testování regresních parametrů Př: Data - Westwood Company (pokr.) Pomocí reziduálního rozptylu byl ze dvou modelů vybrán lineární. Jde ale o model VÝZNAMNÝ (tj. „dobrý“)? T = 1813,3 W =  F0,95 (1,8); ∞) =  5,32; ∞) zamítáme H0 → model JE VÝZNAMNÝ

koeficient mnohonásobné korelace Korelace – poznámky Korelační koeficienty lze určovat i u lineárních modelů s více regresory → koeficient mnohonásobné korelace (míra závislosti Y na všech regresorech) parciální (dílčí) korelační koeficienty (míra závislosti Y vždy na jednom z regresorů při „zohlednění“ regresorů zbylých)

U modelů s více regresory lze vybrat Regrese – poznámky U modelů s více regresory lze vybrat postupně model jen s významnými regresory - kroková regrese (stepwise) regrese typu forward (přidávání regresorů, dokud je model jako celek stále ještě významný) regrese typu backward (naopak ubírání regresorů)

Kroková regrese (stepwise) Příklad (Statistical Thinking for Managers-4th edition: Hildebrand, Ott) Data – viz přiložený soubor v Excelu, záložka EX1350

Vícenásobná regrese Výsledek (podrobněji viz přiložený soubor, záložka multiple regression)   Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Dolní 95,0% Horní 95,0% Hranice -10,0892 7,35341 -1,37204 0,176564 -24,8823 4,703954 Soubor X 1 0,449143 0,254122 1,767433 0,083648 -0,06208 0,960369 Soubor X 2 0,308356 0,185085 1,666026 0,10236 -0,06399 0,680699 Soubor X 3 0,069565 0,051102 1,361291 0,179913 -0,03324 0,172369 Soubor X 4 -0,0126 0,084952 -0,14833 0,882717 -0,1835 0,1583

Vícenásobná regrese Interpretace výsledku Y=-10,0892+0,449143X1+0,308356X2+0,069565X3-0,0126X4 VŠECHNY P-HODNOTY JSOU ALE VĚTŠÍ NEŽ 0,05 A PROTO NEJSOU KOEFICIENTY SIGNIFIKANTNÍ KOEFICIENTY U X1 AŽ X3 VYŠLY KLADNÉ,TEDY DLE NAŠEHO PŘEDPOKLADU. PŘEDPOKLAD PRO KOEFICIENT U X4 NEVYŠEL. 95% INTERVAL PRO TITLES JE -0,06208 AŽ 0,960369, STANDARD. CHYBA JE 0,254122 0 V INTERVALU LEŽÍ, JE TEDY PŘÍPUSTNÁ HODNOTA MODEL NENÍ DOBRÝ – NENÍ VÝZNAMNÝ

Kroková regrese (stepwise) Provede se jednoduchá lineární regrese pro všechny regresory Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu Ve sledovaném příkladu je tímto vybraným regresorem TITLES, do modelu vstupuje s koeficientem 0,8463 Podrobněji viz přiložený soubor, záložky 1.step…

Kroková regrese (stepwise) Provede se vícenásobná lineární regrese pro všechny dvojice skládající se z regresoru vybraného v 1.kroku a jednoho ze zbývajících regresorů Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu vícenásobné regrese, a přináší zlepšení modelu oproti předchozímu kroku Ve sledovaném příkladu není žádný takovýto regresor Podrobněji viz přiložený soubor, záložky 2.step…

Kroková regrese (stepwise) Následující kroky Pokud jsme v daném kroku vybrali nějaký regresor, který přinesl vylepšení kvality modelu, pokračujeme následujícím krokem Opět se pokoušíme vylepšit model přidáním nějakého ze zbylých regresorů

Kroková regrese (stepwise) V ANI JEDNOM PŘÍPADĚ 2.KROKU NEDOŠLO KE ZLEPŠENÍ P-HODNOTY MODELU, TAKÉ V KAŽDÉM PŘÍPADĚ BYLA P-HODNOTA JEDNOHO Z KOEFICIENTŮ VĚTŠÍ NEŽ 0,05, COŽ UKAZUJE NA NESIGNIFIKANTNOST TOHOTO KOEFICIENTU, PROTO JIŽ ŽÁDNÁ Z DALŠÍCH PROMĚNNÝCH NEBUDE DO MODELU PŘIDÁNA VE VÝSLEDNÉM MODELU TEDY BUDE FIGUROVAT POUZE PROMĚNNÁ X1 - TITLES VÝSLEDNÝ MODEL JE Y=-10,8884+0,846334*X1