Lineární regrese.

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

kvantitativních znaků
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování statistických hypotéz
Monte Carlo permutační testy & Postupný výběr
Odhady parametrů základního souboru
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Korelace a kauzalita
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Lineární regrese.
Obecný lineární model Fitované hodnoty and regresní residuály
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Lineární regrese kalibrační přímky
Další spojitá rozdělení pravděpodobnosti
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Lineární regrese FSS928.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
Základy ekonometrie 4EK211
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Aplikovaná statistika 2.
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Interpolace funkčních závislostí
PSY117 Statistická analýza dat v psychologii Přednáška
Úvod do praktické fyziky
PSY117 Statistická analýza dat v psychologii Přednáška
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Parciální korelace Regresní analýza
Doplňkový materiál k přednášce z Biostatistiky
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Základy statistiky.
Transkript prezentace:

Lineární regrese

Význam lineárního modelu Modely založené na lineárním vztahu jsou nejčastěji používanými typy v biologii Ne vždy ale platí na stupnici, na které tyto entity měříme (logaritmická transformace)

Regrese vs. korelace V obou případech studuji (lineární) vztah dvou kvantitativních proměnných V případě korelace hrají obě proměnné stejnou roli V případě regrese je jejich role nesymetrická: vysvětluji hodnoty jedné (závislé = dependent, vysvětlované) pomocí druhé (nezávislé = independent, vysvětlující)

Jak lineární regrese vypadá

Podobné lineární závislosti výška rostliny na obsahu živin v půdě intenzita fotosyntézy na množství světla druhová bohatost na zeměpisné šířce rychlost enzymatické reakce na teplotě ... ale ne naopak! Regrese se používá i v případě, kdy obě proměnné mohou hrát obě role: například predikce výšky stromu z jeho průměru ve výšce 1.3 m (DBH)

Anatomie regresní přímky 1 Model pro hodnoty proměnné Y se skládá ze strukturální (systematické) části (zde a + bX) a stochastické (náhodné) části (zde e) Průsečík (intercept) a; často také označován b0 Pro nejjednodušší lineární model (přímku) je zde jen jeden koeficient b (b1), představující sklon (slope) Hodnoty obou koeficientů závisí na jednotkách pro X a Y Dependent variable – independent variable ale také: Response – predictor variable

Anatomie regresní přímky 2 pozorovaná hodnota Yi průměry leží na přímce fitovaná hodnota „se stříškou“ regresní reziduál pozorované hodnoty Y, průměr a fitované hodnoty jsou základem pro hodnocení modelu

Odhad parametrů a a b Metoda nejmenších čtverců least squares criterion Teoretické hodnoty pro základní populaci jsou pro náš výběr pozorování odhadovány (estimated) jako a a b

Předpoklady o datech Minimalizace variability Y kolem přímky souvisí s předpokladem, že jen Y je náhodná proměnná, X je známo přesně Pro některé modely proto není tento model vhodný  regrese typu II Homogenita variance Linearita závislosti: je vždy potřeba si data vynést v grafu, neaplikovat model „slepě“!

Odhad regresních parametrů v programu Statistica modul Multiple Regression ... ale nesmíme to takto popsat v článku! z velkého okna výsledků zvolíme Summary

Testování regresního modelu 1 U modelů lineární regrese můžeme testovat buď celý model (pomocí F testu) nebo vliv jednotlivých prediktorů (t test) V případě přímkové regrese (s jediným prediktorem) jsou závěry shodné Můžeme také testovat průsečík (b0 = a), ale odpovídající hypotéza nebývá obvykle zajímavá

Testování regresního modelu 2 Ve vzorkované základní populace nemusí závislost existovat ... ... ale náš výběr ji může naznačovat test Odhad p pro H0:b=0 je pravděpodobností, že takhle dobrou závislost dostaneme náhodou, jsou-li proměnné ve skutečnosti nezávislé

Test celého modelu: analýza variance regresního modelu Základem je (podobně jako v klasické ANOVA) rozdělení variability hodnot závislé proměnné Y na dvě části: modelem vysvětlenou variabilitu (zde variabilita fitovaných hodnot) a nevysvětlenou - residuální variabilitu (zde variabilita residuálů) ... a jejich porovnání pomocí F statistiky

Analýza variance regresního modelu

Test jednotlivých regresních koeficientů Testujeme hypotézu H0: b = 0 K statistice t patří dfERR

Koeficient determinace – R2 Procento vysvětlené variability R2 adjusted: odhad hodnoty koeficientu v základní populaci

Síla testu Zvětšuje se s počtem pozorování a také s těsností vztahu (vyjádřenou např. R2) Těsnost vztahu lze v experimentálních studiích často zvýšit zvětšením rozsahu nezávislé proměnné (prediktoru). Tím ale často i snížíme linearitu vztahu!

Konfidenční pás Confidence region: v něm leží – se zvolenou pravděpodobností – průměrná (střední) hodnota Y pro zvolené X

Predikční pás Prediction region: v něm budou s danou pravděpodobností jednotlivá pozorování s uvažovanou hodnotou X

Interpretace modelu 1: závisí na našich cílech Výsledky nové analytické metody průkazně (p<0.001) závisí na koncentraci stanovované látky. To není zajímavý výsledek, zde nás zajímá těsnost vztahu (R2, chyba odhadu) Počet druhů závisí pozitivně na pH půdy (F1,33=12.3, p<0.01). To je zajímavý výsledek, protože neplatnost H0 není a priori zjevná. Ale i zde chci znát velikost efektu (hodnotu regresního koeficientu) a těsnost vztahu (R2)

Interpretace modelu 2: závislost neznamená kauzalitu Obdobně: závislost počtu rozvodů na počtu ledniček v čase Kauzalitu nelze podpořit na základě pozorování: jedinou cestou je manipulativní experiment (ne vždy možný )

Nebezpečí extrapolace Lineární regresi neužíváme proto, že bychom věřili v lineárnost vztahu v celém rozsahu, ale ve zvoleném rozsahu často lze i nelineární vztah rozumně popsat regresní přímkou Proto je třeba opatrnosti při extrapolaci: radši takovou věc vůbec nedělat 

Regrese procházející počátkem Jak to reálně bylo Změna počtu druhů se stářím sopečného ostrova

Parametry nafitovaného modelu S vysokou jistotou jsem tímto modelem ukázal, že počet druhů byl na začátku záporný ... ... názorný příklad nebezpečí extrapolace

Model s a = 0 Jak se změní model, pokud z modelu vyloučím průsečík (tj. nastavím jej na 0)?

Transformace dat v regresi Transformovat lze závislou proměnnou (odezvu) i nezávislé proměnné (prediktory) Je tu ale jeden podstatný rozdíl: v případě závislé proměnné měním nejen tvar závislosti, ale i rozdělení residuálů Často ale oba ohledy nejdou proti sobě ... Změna tvaru závislosti by měla vést k linearizaci, často lze potřebnou transformaci odvodit ze známé rovnice

Linearizace závislosti 1 Závislost počtu nalezených druhů na velikosti studované plochy: SPEC = a*AREAb Zlogaritmováním obou stran dostávám: log(SPEC) = log(a) + b*log(AREA)

Linearizace závislosti 2 Exponenciální závislost počtu jedinců na čase: Nt=N0ert Po logaritmování: log(Nt) = log(N0) + r*t