Úvod do regresní analýzy

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Korelace a regrese Karel Zvára 1.
KORELACE A REGRESE Karel Drápela
Analýza experimentu pro robustní návrh
kvantitativních znaků
Testování neparametrických hypotéz
Testování statistických hypotéz
Klára Galusková Pavla Pokoráková Jan Škarvada
Cvičení 6 – 25. října 2010 Heteroskedasticita
Predikce Zobecněná MNČ
Cvičení října 2010.
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
ZÁKLADY EKONOMETRIE 8. cvičení MZNČ
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Základy ekonometrie Cvičení 3 4. října 2010.
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regrese.
Praktické využití regresní analýzy Struktura národního hospodářství a znečištění ovzduší v tranzitivních ekonomikách: Případ České republiky Gabriela Jandová.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Lineární regrese kalibrační přímky
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
V experimentu měníme hodnotu jedné nebo několika veličin x i a studujeme závislost veličiny y. - např. měníme, ostatní x i bereme jako parametry ( , ,
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Aplikovaná statistika 2.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Základy zpracování geologických dat R. Čopjaková.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Interpolace funkčních závislostí
- váhy jednotlivých studií
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
Interpolace funkčních závislostí
Transkript prezentace:

Úvod do regresní analýzy Přednáška 11 Úvod do regresní analýzy

Typy závislosti náhodných veličin Funkční závislost Y na X – Y=f(X) Statistická (stochastická) závislost – systematický pohyb jedné veličiny při růstu či poklesu druhé veličiny (studujeme prostřednictvím korelační a regresní analýzy)

K čemu slouží korelační a regresní analýza? Vyhodnocení vztahu spojitých veličin. Nekauzalní vztahy vyhodnocujeme pouze na základě korelační analýzy. Kauzální vztahy (je zřejmá příčinná souvislost mezi veličinami) vyhodnocujeme pomocí korelace i pomocí regrese.

Francis Galton (1822-1911) položil základy regresní analýzy (vztah mezi výškou syna a výškou otce) zázračné dítě, (bratranec Charlese Darwina) zakladatel eugeniky (nauky o zlepšování genetického základu)

Základní pojmy

Typy regrese Lineární regrese – pro popis závislosti veličin využívá funkce lineární v parametrech (např. 𝑌= 𝛽 0 + 𝛽 1 𝑋), resp. funkce, které lze na lineární v parametrech převést pomocí vhodné transformace (např. 𝑌= 𝛽 0 𝑋 𝛽 1 ⇒ ln 𝑌= ln 𝛽 0 𝑋 𝛽 1 = ln 𝛽 0 + 𝛽 1 ln 𝑋 ⇒ 𝑌 ∗ = 𝛽 0 ∗ + 𝛽 1 𝑋). Nelineární regrese - pro popis závislosti veličin využívá funkce nelineární v parametrech (tyto funkce nelze na lineární v parametrech převést pomocí žádné transformace – např.: 𝑌= 𝛽 0 𝛽 1 𝑋).

Typy regrese Jednoduchá regrese – studuje kauzální závislost dvou veličin (velikost syna na velikosti otce) Vícenásobná regrese – studuje kauzální závislost jedné veličiny na alespoň dvou dalších veličinách (velikost syna na velikosti otce a matky)

Jednoduchá lineární regrese

Korelační pole Vysvětlovaná (závisle) proměnná Regresní model (vyrovnávací křivka) Vyrovnaná hodnota Reziduum ei Naměřená hodnota yi xi Vysvětlující (nezávisle) proměnná

Jednoduchý lineární regresní model Parametry modelu Reziduum Náhodná složka

Předpoklady jednoduchého lineárního reg. modelu LRM je lineární v parametrech. Parametry modelu βi mohou nabývat libovolných hodnot. Normalita náhodné složky (reziduí). Nulová střední hodnota náhodné složky (reziduí) – E(ei). Homoskedasticita náhodné složky (reziduí). Nulová kovariance náhodné složky - Cov (ei,ej) = 0 pro každé i ≠ j, kde i, j =1,2,…,n.

Otázky v lineární regresi Lze najít zvolený lineární regresní model? Pokud ano, pak: Jak najít zvolený lineárně regresní model? Je tento model důvěryhodný? (Byly splněny předpoklady modelu?) Lze tento model zjednodušit ? (Lze některé koeficienty modelu považovat za nulové?) Jak dobře tento model vystihuje sledovanou závislost? Jak přesně lze pro danou hodnotu nezávisle veličiny odhadnout hodnotu veličiny závisle?

Postup při regresní analýze Exploratorní analýza korelačního pole (případný odhad typu regresní funkce, identifikace vlivných bodů, detekce multikolinearity) Odhad koeficientů regresní funkce (aplikace vyrovnávacího kritéria) Verifikace modelu Celkový F-test Dílčí t-testy Index determinace Testy reziduí Predikce (pás spolehlivosti, pás predikce)

Exploratorní analýza korelačního pole Odhad typu regresní funkce (pokud není znám) Identifikace vlivných bodů (pozor na body signalizující chybějící část populace ve výběru) Úkol: V appletu Regrese (java) sledujte vliv pozice vlivných bodů na pozici vyrovnávací přímky. Pokuste se v následujícím appletu o odhad lineární regresní funkce při daném korelačním poli.

Odhad koeficientů regresní funkce Vyrovnávací kritéria - kritéria pomocí nichž volíme nejvhodnější způsob odhadu parametrů regresní funkce. Cílem je minimalizace reziduí.

Proč nestačí minimalizovat součet reziduí? Vyrovnávací kritéria Proč nestačí minimalizovat součet reziduí? X Y Rezidua Mohlo by dojít k tomu, že součet reziduí je nulový, přestože jednotlivá rezidua jsou „velká“.

Vyrovnávací kritéria Metoda nejmenších čtverců Nejpoužívanější vyrovnávací kritérium pro lineární regresní modely. Minimalizuje součet čtverců reziduí.

Metoda nejmenších čtverců pro přímku Regresní přímka: Odhad regresní přímky: Součet čtverců reziduí: Minimalizace :

Metoda nejmenších čtverců pro přímku

Multikolinearita Multikolinearita – lineární závislost vysvětlujících proměnných Příčiny multikolinearity přeurčený regresní model, nevhodný plán experimentu, fyzikální omezení v modelu nebo v datech Důsledky multikolinearity Snížení přesnosti odhadů individuálních hodnot, tj. rozšíření predikčních intervalů – viz dále, některé (někdy dokonce všechny) regresní koeficienty se jeví statisticky nevýznamné i v případě jinak velmi kvalitního modelu. (možný paradox - významný F-test, nevýznamné všechny dílčí t-testy), nestabilita odhadů regresních koeficientů, které jsou velmi citlivé i na malé změny v datech a vykazují obvykle vysokou variabilitu, …

Detekce multikolinearity Při silné vzájemné lineární závislosti vysvětlujících proměnných se determinant jejich korelační matice málo liší od nuly. Nízká hodnota nejmenšího charakteristického čísla korelační matice indikuje silnou korelaci vysvětlujících proměnných. Index podmíněnosti korelační matice (tj. odmocnina poměru největšího a nejmenšího charakteristického čísla větší než 30 ukazuje na existenci multikolinearity. Hodnoty jednoduchých korelačních koeficientů dvojic vysvětlujících proměnných blízké 1 (v praxi větší než 0,8) naznačují multikolinearitu.

Jak odstranit multikolinearitu? V případě přeurčeného regresního modelu se snažíme identifikovat a vypustit nadbytečné vysvětlující proměnné, je-li příčinou multikolinearity nevhodný plán experimentu, je možné nedostatky napravit a pořídit kvalitnější data, použití nelineárního regresního modelu.

Verifikace modelu Ověření kvality modelu převážně na základě testování reziduí.

Verifikace modelu Celkový F-test Testujeme, zda vysvětlovaná proměnná je lineární kombinací vybraných funkcí vysvětlující proměnné. Nulová a alternativní hypotéza: H0: HA: Testová statistika: Výpočet p-value:

Verifikace modelu Celkový F-test Výstup testu - tabulka ANOVA: Zdroj rozptýlenosti Součet čtverců Stupně volnosti (DF) Průměrný čtverec Testová stat. F P-value Model k Náhodná složka (Rezidua) n-k-1 Celkový n-1

Verifikace modelu Dílčí t-testy Postupně testujeme pro i=0, …, k, zda nelze z modelu vypustit jednotlivé parametry (včetně absolutního členu). Nulová a alternativní hypotéza: H0: HA: Testová statistika:

Verifikace modelu Index determinace R2 Udává kvalitu regresního modelu, tj. jaká část rozptylu vysvětlované proměnné je vysvětlena modelem. Nízká hodnota R2, nemusí ještě znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu typu regresní funkce.

Verifikace modelu Autokorelace reziduí Na základě předpokladu lin. reg. modelu, že kovariance reziduí je nulová, je zřejmé, že rovněž autokorelace reziduí musí být nulová. Lze tedy předpokládat, že na grafu reziduí nesmí být patrná žádná funkční závislost. Rezidua Rezidua Funkční závislost reziduí

Verifikace modelu Testy reziduí Test normality reziduí (např.: Shapirův-Wilkův test) Test nulové střední hodnoty reziduí (jednovýběrový t-test) Test autokorelace reziduí (Durbinův-Watsonův test, empirické posouzení …𝑥 𝑂𝐵𝑆 ∈ 1,4;2,6 ) Test homoskedasticity reziduí (velmi obtížný, není součásti většiny statistického software)

Textový výstup procedury „Simple regression“ (Statgraphics) Typ modelu, rovnice vyrovnávací funkce Závisle a nezávisle proměnná Bodové odhady koeficientů regresní přímky Bodové odhady směrodatných odchylek koeficientů regresní přímky Výsledky dílčích t-testů Součty čtverců pro model, reziduální a celkový Reziduální výběrový rozptyl Výsledek F-testu pro regresi Korelační koeficient Index determinace Test autokorelace Výběrová reziduální směrodatná odchylka Rovnice vyrovnávací přímky

Rozšíření modelu - Predikce Odhad regresní funkce umožňuje bodový odhad očekávané střední hodnoty, popř. bodový odhad vysvětlované proměnné pro individuální pozorování. Interval spolehlivosti – intervalový odhad očekávané střední hodnoty Interval predikce – intervalový odhad vysvětlované proměnné pro individuální pozorování

Závislost spotřeby na výkonu automobilu Pás predikce Odhad regresní funkce Pás spolehlivosti

Rozšíření modelu – Predikce Typy predikce Interpolace – proces predikce pro (x0 leží v intervalu napozorovaných hodnot xi) Extrapolace - proces predikce pro (x0 leží mimo interval napozorovaných hodnot xi) POZOR! Extrapolaci lze důvěřovat pouze tehdy, nemáme-li pochybnosti o platnosti modelu. (Predikce výnosů obilí pro určité množství použitého hnojiva.)