jednoduchá regrese kvadratický Y=b0+b1X+b2X 2

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

KORELACE A REGRESE Karel Drápela
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
MARKOVSKÉ ŘETĚZCE.
Funkce.
Cvičení 6 – 25. října 2010 Heteroskedasticita
Predikce Zobecněná MNČ
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona:III/2č. materiálu:VY_32_INOVACE_94.
Gaussova eliminační metoda
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Kvadratická funkce. Co je to funkce Každému prvku x z definičního oboru je přiřazeno právě jedno číslo y z oboru hodnot x je nezávisle proměnná y je závisle.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Lineární regrese kalibrační přímky
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Vektorové prostory.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
2. Vybrané základní pojmy matematické statistiky
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Repetitorium z matematiky Podzim 2012 Ivana Medková
Aplikovaná statistika 2. Veronika Svobodová
IV..
Aplikovaná statistika 2.
REGRESNÍ ANALÝZA Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Základy zpracování geologických dat R. Čopjaková.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Elektronické učební materiály - II. stupeň Matematika Autor: Mgr. Radek Martinák FUNKCE – lineární Co znamená lineární? Jak souvisí lineární funkce s přímou.
… jsou bohatší lidé šťastnější?
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Interpolace funkčních závislostí
Testování hypotéz párový test
Regrese – jednoduchá regrese
Regrese – jednoduchá regrese
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
4. Metoda nejmenších čtverců
Lineární regrese.
Transkript prezentace:

jednoduchá regrese kvadratický Y=b0+b1X+b2X 2 Cíl jednoduché (simple) regrese: najít model funkční závislosti (spojité) veličiny Y na jedné (spojité) veličině (na tzv. regresoru) X model lineární Y=b0+b1X kvadratický Y=b0+b1X+b2X 2 (tvar často napoví bodový graf dat) Příklad: závislost hmotnosti výlisku na jeho délce

vícenásobná regrese Cíl vícenásobné (multiple) regrese: najít model funkční závislosti (spojité) veličiny Y na více (spojitých) veličinách (regresorech) např. model lineární se 2 regresory: Y = b0+b1X+b2Z Příklad: závislost platu (Y) na věku zaměstnance (X) a délce jeho praxe v oboru (Z)

εi = yi−Yi i=1,…,n reziduum Jednoduchá regrese Značení: (xi ; yi) i=1,…,n data Yi resp. ŷi i=1,…,n model εi = yi−Yi i=1,…,n reziduum

REGRESE – BODOVÝ GRAF

Jednoduchá lineární regrese y1 = Y1+ ε1 = (b0 + b1·x1) + ε1 y2 = Y2+ ε2 = (b0 + b1·x2) + ε2 … yn = Yn+ εn = (b0 + b1·xn) + εn b0 parametr – prostý člen (průsečík grafu přímky s oY) b1 parametr – lineární člen (směrnice grafu přímky)

Jednoduchá lineární regrese aneb MATICOVĚ: kde

Regrese b = (FTF)-1FTy jde o univerzální (pro každý regresní model!) vzorec odhadu parametrů b, modely se liší jen konkr. tvarem b a F; jde o tzv. odhad metodou nejmenších čtverců (MNČ) - zaručuje minS(ei)2 součet reziduálních čtverců

b = (FTF)-1FTy Regrese kde je vektor regresních koeficientů, je vektor hodnot veličiny y, je regresní matice příslušná danému regresnímu modelu

Regrese b = (FTF)-1FTy Například pro lineární jednoduchou regresi má matice F následující tvar: pro kvadratický model pak: nebo pro logaritmický model:

Jednoduchá lineární regrese Metoda Nejmenších Čtverců odvození b0, b1: Qe=S(ei )2 =S(yi−Yi )2 =S(yi−b0−b1·xi)2 b0, b1 bude značit řešení problému najít hodnoty pro b0, b1 tak, aby hodnota Qe byla (při daných xi, yi) MINIMÁLNÍ, aneb řešení soustavy rovnic: dQe /db0 = 0 dQe /db1 = 0

Jednoduchá lineární regrese Metoda Nejmenších Čtverců Řešením této soustavy je opět: b1 = (nΣxiyi −ΣxiΣyi) / [nΣxi2 −(Σxi)2] b0 = (Σyi−b1Σxi) / n

míra kvality regresního modelu V každém typu regresního modelu lze určit tzv. index determinace: I2 = 1− Qe/QY _ kde QY=Σ(yi−y)2

míra kvality regresního modelu vždy v rozmezí 0 až 1, resp. 0 % až 100 %; čím vyšší, tím vyšší závislost vyjadřuje, z kolika % je variabilita závislé veličiny y vysvětlena variabilitou nezávislé veličiny x, respektive daným modelem

Korelace spec. pro model jednoduché lineární regrese Korelační koeficient a

Korelace spec. pro model jednoduché lineární regrese Korelační koeficient vždy v rozmezí -1 až +1 (NE v % !) záporný při “klesající regresní přímce” kladný při “rostoucí regresní přímce” čím DÁL od 0, tím silnější je lineární závislost („korelovanost“) mezi X a Y platí: r2 = I2

Korelace spec. pro model jednoduché lineární regrese

Korelace spec. pro model jednoduché lineární regrese

Korelace spec. pro model jednoduché lineární regrese

Korelace spec. pro model jednoduché nelineární regrese Př: Stejná data, ale jiný, kvadratický model (kde už tedy nepočítáme r, jen I2 !)

Jednoduchá regrese – různé modely Ad model kvadratický Y=b0+b1X+b2X 2 Vektor b odhadů (b0, b1, b2) pro parametry b0, b1, b2 je opět dán vzorcem (FTF)-1FTy, přičemž matice F má zde tvar:

Jednoduchá regrese – různé modely Pro jedna data lze tedy najít jak model lineární (L), tak kvadratický (K). Označme: * odhady parametrů v L: b0(L), b1(L) * odhady parametrů v K: b0(K), b1(K), b2(K) (pozor, obecně např. b0(L) ≠ b0(K))

Jednoduchá regrese – různé modely Dále označme: * součet rez.čtverců pro L: Qe(L) * součet rez.čtverců pro K: Qe(K) * index determinace pro L: I2 (L) * index determinace pro K: I2 (K) Vždy (u modelů pro tatáž data): Qe(L) > Qe(K)

Jednoduchá regrese – různé modely Hodnota QY je dána pouze y-ovými hodnotami, nezávisí na modelu (je tedy stejná u každého modelu pro tatáž data) => Vždy (u modelů pro tatáž data): I2 (L) < I2 (K) (Logické – parabola se dle potřeby může „prohnout“ a o trochu lépe vysvětlit data.)

Jednoduchá regrese – různé modely ? Lze tedy říct, že parabola je vždy LEPŠÍ model než přímka ? NE: Parabola je vždy VÝSTIŽNĚJŠÍ, ale výhodou přímky je její JEDNODUCHOST Každý model = kompromis mezi výstižností a jednoduchostí

Jednoduchá regrese – různé modely Reziduální rozptyl se2 je míra kvality modelu, zohledňující jak jeho výstižnost (Qe), tak složitost (p značí počet parametrů): se2 = Qe /(n−p)

Jednoduchá regrese – různé modely Reziduální rozptyl se2 hodnotu nelze interpretovat, slouží pouze k porovnání různých modelů pro tatáž data, a to dle hesla „čím menší (je se2), tím lepší (je pro daná data příslušný model)“

Testování regresních parametrů Uvažujme model s p parametry, např. jednoduchá lineární regrese: Y = b0+b1X → p=2 např. jednoduchá kvadratická regrese: Y = b0+b1X+b2X 2 → p=3 např. 2-násobná lineární regrese: Y = b0+b1X+b2Z → p=3

Testování regresních parametrů H0: b1 = …= bp−1 =0 (model jako celek je nevýznamný) versus H1: non H0 (aspoň jeden parametr modelu je významný); v testu není zahrnut b0

jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 Testování - možnosti jednoduchá lineární regrese (p=2): H0: b1=0 versus H1: b1≠0 H0….místo lineární funkce by jako model „bývala stačila“ funkce konstantní (Y=b0) aneb „přímka s nulovou směrnicí“; H1….do vhodného modelu je potřeba zahrnout nenulovou „směrnici“

H0: b1=b2=0 versus H1: non H0 Testování - možnosti jednoduchá kvadratická regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo kvadratické funkce by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (lineární či kvadratický)

H0: b1=b2=0 versus H1: non H0 Testování - možnosti 2-násobná lineární regrese (p=3): H0: b1=b2=0 versus H1: non H0 H0….místo lineární funkce 2 proměnných (X a Z) by jako model „bývala stačila“ funkce konstantní; H1….do vhodného modelu je potřeba zahrnout alespoň jeden z obou testova-ných parametrů (aneb proměnnou X či Z)

Testování regresních parametrů atd. (modely složitější, s více parametry). Provedení testu regresních modelů: ← = se2 W =  F1 (p1,np); ∞)

koeficient mnohonásobné korelace Korelace – poznámky Korelační koeficienty lze určovat i u lineárních modelů s více regresory → koeficient mnohonásobné korelace (míra závislosti Y na všech regresorech) parciální (dílčí) korelační koeficienty (míra závislosti Y vždy na jednom z regresorů při „zohlednění“ regresorů zbylých)

U modelů s více regresory lze vybrat Regrese – poznámky U modelů s více regresory lze vybrat postupně model jen s významnými regresory - kroková regrese (stepwise) regrese typu forward (přidávání regresorů, dokud je model jako celek stále ještě významný) regrese typu backward (naopak ubírání regresorů)

Kroková regrese (stepwise) Provede se jednoduchá lineární regrese pro všechny regresory Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu

Kroková regrese (stepwise) Provede se vícenásobná lineární regrese pro všechny dvojice skládající se z regresoru vybraného v 1.kroku a jednoho ze zbývajících regresorů Vybere se ten regresor, který má „nejlepší výsledek“, tj. nejmenší p-hodnotu vícenásobné regrese, a přináší zlepšení modelu oproti předchozímu kroku

Kroková regrese (stepwise) Následující kroky Pokud jsme v daném kroku vybrali nějaký regresor, který přinesl vylepšení kvality modelu, pokračujeme následujícím krokem Opět se pokoušíme vylepšit model přidáním nějakého ze zbylých regresorů