Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Lineární regrese. Význam lineárního modelu Modely založené na lineárním vztahu jsou nejčastěji používanými typy v biologii Ne vždy ale platí na stupnici,

Podobné prezentace


Prezentace na téma: "Lineární regrese. Význam lineárního modelu Modely založené na lineárním vztahu jsou nejčastěji používanými typy v biologii Ne vždy ale platí na stupnici,"— Transkript prezentace:

1 Lineární regrese

2 Význam lineárního modelu Modely založené na lineárním vztahu jsou nejčastěji používanými typy v biologii Ne vždy ale platí na stupnici, na které tyto entity měříme (logaritmická transformace)

3 Regrese vs. korelace V obou případech studuji (lineární) vztah dvou kvantitativních proměnných V případě korelace hrají obě proměnné stejnou roli V případě regrese je jejich role nesymetrická: vysvětluji hodnoty jedné (závislé = dependent, vysvětlované) pomocí druhé (nezávislé = independent, vysvětlující)

4 Jak lineární regrese vypadá

5 Podobné lineární závislosti výška rostliny na obsahu živin v půdě intenzita fotosyntézy na množství světla druhová bohatost na zeměpisné šířce rychlost enzymatické reakce na teplotě... ale ne naopak! Regrese se používá i v případě, kdy obě proměnné mohou hrát obě role: například predikce výšky stromu z jeho průměru ve výšce 1.3 m (DBH)

6 Anatomie regresní přímky 1 Model pro hodnoty proměnné Y se skládá ze strukturální (systematické) části (zde  +  X) a stochastické (náhodné) části (zde  ) Průsečík (intercept)  často také označován  0 Pro nejjednodušší lineární model (přímku) je zde jen jeden koeficient  (  1 ), představující sklon (slope) Hodnoty obou koeficientů závisí na jednotkách pro X a Y Dependent variable – independent variable ale také: Response – predictor variable

7 Anatomie regresní přímky 2 pozorovaná hodnota Y i průměry leží na přímce fitovaná hodnota „se stříškou“ regresní reziduál pozorované hodnoty Y, průměr a fitované hodnoty jsou základem pro hodnocení modelu

8 Odhad parametrů  a  Metoda nejmenších čtverců least squares criterion Teoretické hodnoty pro základní populaci jsou pro náš výběr pozorování odhadovány (estimated) jako a a b

9 Předpoklady o datech Minimalizace variability Y kolem přímky souvisí s předpokladem, že jen Y je náhodná proměnná, X je známo přesně Pro některé modely proto není tento model vhodný  regrese typu II Homogenita variance Linearita závislosti: je vždy potřeba si data vynést v grafu, neaplikovat model „slepě“!

10 Odhad regresních parametrů v programu Statistica modul Multiple Regression... ale nesmíme to takto popsat v článku! z velkého okna výsledků zvolíme Summary

11 Testování regresního modelu 1 U modelů lineární regrese můžeme testovat buď celý model (pomocí F testu) nebo vliv jednotlivých prediktorů (t test) V případě přímkové regrese (s jediným prediktorem) jsou závěry shodné Můžeme také testovat průsečík (  0 =  ), ale odpovídající hypotéza nebývá obvykle zajímavá

12 Testování regresního modelu 2 Ve vzorkované základní populace nemusí závislost existovat ale náš výběr ji může naznačovat  test Odhad p pro H 0 :  =0 je pravděpodobností, že takhle dobrou závislost dostaneme náhodou, jsou- li proměnné ve skutečnosti nezávislé

13 Test celého modelu: analýza variance regresního modelu Základem je (podobně jako v klasické ANOVA) rozdělení variability hodnot závislé proměnné Y na dvě části: –modelem vysvětlenou variabilitu (zde variabilita fitovaných hodnot) a –nevysvětlenou - residuální variabilitu (zde variabilita residuálů)... a jejich porovnání pomocí F statistiky

14 Analýza variance regresního modelu

15 Test jednotlivých regresních koeficientů Testujeme hypotézu H 0 :  = 0 K statistice t patří df ERR

16 Koeficient determinace – R 2 Procento vysvětlené variability R2 adjusted: odhad hodnoty koeficientu v základní populaci

17 Síla testu Zvětšuje se s počtem pozorování a také s těsností vztahu (vyjádřenou např. R 2 ) Těsnost vztahu lze v experimentálních studiích často zvýšit zvětšením rozsahu nezávislé proměnné (prediktoru). Tím ale často i snížíme linearitu vztahu!

18 Konfidenční pás Confidence region: v něm leží – se zvolenou pravděpodobností – průměrná (střední) hodnota Y pro zvolené X

19 Predikční pás Prediction region: v něm budou s danou pravděpodobností jednotlivá pozorování s uvažovanou hodnotou X

20 Interpretace modelu 1: závisí na našich cílech Výsledky nové analytické metody průkazně (p<0.001) závisí na koncentraci stanovované látky. To není zajímavý výsledek, zde nás zajímá těsnost vztahu (R 2, chyba odhadu) Počet druhů závisí pozitivně na pH půdy (F1,33=12.3, p<0.01). To je zajímavý výsledek, protože neplatnost H 0 není a priori zjevná. Ale i zde chci znát velikost efektu (hodnotu regresního koeficientu) a těsnost vztahu (R 2 )

21 Interpretace modelu 2: závislost neznamená kauzalitu Obdobně: závislost počtu rozvodů na počtu ledniček v čase Kauzalitu nelze podpořit na základě pozorování: jedinou cestou je manipulativní experiment (ne vždy možný )

22 Nebezpečí extrapolace Lineární regresi neužíváme proto, že bychom věřili v lineárnost vztahu v celém rozsahu, ale ve zvoleném rozsahu často lze i nelineární vztah rozumně popsat regresní přímkou Proto je třeba opatrnosti při extrapolaci: radši takovou věc vůbec nedělat 

23 Regrese procházející počátkem Změna počtu druhů se stářím sopečného ostrova Jak to reálně bylo

24 Parametry nafitovaného modelu S vysokou jistotou jsem tímto modelem ukázal, že počet druhů byl na začátku záporný názorný příklad nebezpečí extrapolace

25 Model s  = 0 Jak se změní model, pokud z modelu vyloučím průsečík (tj. nastavím jej na 0)?

26 Transformace dat v regresi Transformovat lze závislou proměnnou (odezvu) i nezávislé proměnné (prediktory) Je tu ale jeden podstatný rozdíl: v případě závislé proměnné měním nejen tvar závislosti, ale i rozdělení residuálů Často ale oba ohledy nejdou proti sobě... Změna tvaru závislosti by měla vést k linearizaci, často lze potřebnou transformaci odvodit ze známé rovnice

27 Linearizace závislosti 1 Závislost počtu nalezených druhů na velikosti studované plochy: SPEC = a*AREA b Zlogaritmováním obou stran dostávám: log(SPEC) = log(a) + b*log(AREA)

28 Linearizace závislosti 2 Exponenciální závislost počtu jedinců na čase: N t =N 0 e rt Po logaritmování: log(N t ) = log(N 0 ) + r*t


Stáhnout ppt "Lineární regrese. Význam lineárního modelu Modely založené na lineárním vztahu jsou nejčastěji používanými typy v biologii Ne vždy ale platí na stupnici,"

Podobné prezentace


Reklamy Google