Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korelace a kauzalita korelace.

Podobné prezentace


Prezentace na téma: "Korelace a kauzalita korelace."— Transkript prezentace:

1 Korelace a kauzalita korelace

2 Mnohonásobná regrese ANCOVA, Obecné lineární modely Multiple regression, ANCOVA, General Linear Models

3 Mnohonásobná regrese

4 Mám více prediktorů V manipulativní pokusu - množství vody a dávka živin jako nezávislé proměnné pro biomasu pěstované rostliny V observační studii - Druhovou bohatost vysvětlujeme pomocí zeměpisné šířky, nadmořské výšky a ročního úhrnu srážek.

5 V ideálním případě by prediktory neměly být korelované To lze zajistit v experimentu Ale těžko v observační studii (prakticky nelze vybrat na Zemi místa tak, aby úhrn srážek byl zcela nekorelovaný se zeměpisnou šířkou).

6 Model Platí tytéž předpoklady, jako u jednoduché lineární regrese - tj. náhodná variabilita je aditivní a nezávislá k očekávané hodnotě (tj. homogenita variance), vztah je lineární. Navíc - efekty jednotlivých nezávisle proměnných jsou aditivní.

7 Pro dva prediktory je znázorněním výsledku rovina v trojrozměrném prostoru

8 Řada postupů analogických s jednoduchou regresí koeficienty α a β i (pro každý z prediktorů) platí pro celý základní soubor, [který neznáme], odhadujeme jako výběrové koeficienty a a b i pomocí kriteria nejmenšího součtu čtverců odchylek. Testy - buď ANOVA celého modelu, nebo (pomocí t-testů) testy jednotlivých regresních koeficientů

9 Na rozdíl od jednoduché regrese se význam testů liší ANOVA celého modelu: H 0 : Odpověď je nezávislá na modelu, tj. žádný z prediktorů nevysvětluje chování závisle proměnné Separátní nulové hypotézy pro jednotlivé prediktory β i =0 - se vztahují k jednotlivým proměnným.

10 Rozsah hodnot prediktorů se může velmi lišit a závisí na měřených jednotlách

11 ANOVA celého modelu Rozklad sumy čtverců SS TOT = SS Regress. + SS Residual DF TOT = n-1 ; DF Regress =počet proměnných, DF Resid =n-1-počet proměnných Klasicky MS=SS/DF = je odhadem variance z.s. za platnopsti H 0 - celé vede na klasické F.

12 R 2 - koeficient determinace Procento variability vysvětlené modelem R 2 adj. = adjusted - různé korekce na to, když máme mnoho vysvětlujících proměnných a málo pozorování (pak je R 2 v našem výběru větší, než v základním souboru). Když je počet pozorování = počet proměnných + 1, rovina přesně proloží všechny body, ale vysvětlující schopnost modelu může být nulová.

13 Parciální regresní koeficienty Vliv dotyčné proměnné „navíc“ ke všem ostatním proměnným v modelu (navíc je zvlášť důležité říci, pokud jsou prediktory korelované)

14 Testy parciálních regresních koeficientů b* je standardizovaný parciální regresní koeficient, spočtený poté, co každou proměnnou podrobíme Z transformaci, (starší verse Statisticy mu říkaly – celkem nesmyslně – Beta. To spočítat nelze). Regresní rovina potom prochází počátkem

15 Testy parciálních regresních koeficientů b* - udává relativní velikost vlivu dané proměnné v rámci modelu (s ohledem na použitý rozsah hodnot prediktorů), nezávisí na použitýcvh jednotkách b - použijeme pro konstrukci funkce Y=a + b i X i - a tudíž závisí na měřených jednotkách

16 Testy parciálních regresních koeficientů b* - o kolik se změní (standardizovaná) odpověď při změně prediktoru o poměrnou část jeho variability b - o kolik se změní odpověď [v jednotkách, ve kterých je měřena] při změně prediktoru o jednu jeho jednotku.

17 Testy parciálních regresních koeficientů pro testování používáme t=b/s.e.(b)=b*/s.e.(b*) střední chyba velmi závisí na korelaci prediktorů! Test pro Intercept je opět většinou velmi nezajímavý Pozor, výsledky ANOVy a testů parciálních koeficientů si nemusí odpovídat!

18 Marginální a parciální efekty Předpovídím výšku stromu pomocí jeho dbh a nadmořské výšky, tedy dvou korelovaných prediktorů

19 Mít mnoho prediktorů nemusí být vždy prospěšné Řada metod, jak zjednodušit model (užíváme při observačních studiích) Ale i tak je lépe nejdřív používat hlavu, a nenarvat do programu všechno jen proto, že mi to vylezlo z automatického analyzátoru nebo z GISu Postupný výběr prediktorů - stepwise selection Forward, Backward, apod. Kritéria vážící vysvětlující schopnost a “penalizaci” za složitost “Jack-knife” a podobné metody

20 Pozor na proměnné na cirkulární stupnici jako prediktory Jen zřídka můžeme předpokládat lineární odpověď na 1. Orientaci svahu (nebo čehokoliv) měřenou např. ve stupních nebo radiánech 2. “Julian day” 3. Hodiny dne Pro orientaci a sklon je užitečné přepočítat na ozáření: McCune, B. & Keon, D Equations for potential annual direct incident radiation and heat load. J. Veg. Sci. 13: , příp. McCune 2007 Journal of Vegetation Science 18: ,

21 Obecné lineární modely General Linear Models

22 Měli jsme ANOVA Model: X ij = μ+α i + ε ij Případně pro více kategoriálních proměnných Průměr umíme spočítat jako ΣX/n, ale také by se dal spočítat metodou nejmenšího součtu čtverců odchylek Regrese: Obecně: Y = deterministická část modelu + ε Jako deterministická část může být kombinace kategoriálních a kvantitativních prediktorů - jednotlivé efekty jsou aditivní, a říká se tomu Obecný lineární model (pozor na zkratku GLM)

23 Příklady Počet druhů ve společenstvu ~ hornina [kateg], typ obhospodařování[kateg], nadm. výška[kvant] Hladina cholesterolu~pohlaví[kateg], věk[kvant], množství zkonzumovaného bůčku[kvant] Hladina heterozygozity~ploidie[kateg - zřejmě], velikost populace[kvant]

24 Různé formulace modelů umožní testovat zda Jsou dvě regresní přímky shodné Nejsou shodné, ale mají stejný sklon Mají i různý sklon (pak je průkazná interakce kvantitativní proměnné a faktoru = kateg. proměnné) A řadu dalších podobných otázek

25 ANCOVA (analýza kovariance) Asi nejběžnější použití obecných lineárních modelů Předpokládám, že přímky jsou rovnoběžné Nejčastěji chci odfiltrovat nějaký “rušivý” vliv - umožní mi to snížit nevysvětlenou variabilitu

26 Příklad Příklad - porovnávám váhu členů sportovního klubu a klubu pivních skautů. Protože váha závisí na výšce (triviální závislost), budu mít v obou skupinách dost velkou variabilitu Použiju výšku jako covariate Vpodstatě testuji, zda jsou přímky závislosti váhy na výšce totožné, nebo posunuté, předpokládám, že mají stejný sklon Testuji tím, zda stejně vysoký pivní skaut bude mít stejnou váhu je člen sportovního klubu

27 Příklad Příklad - pokus s krysami - mám podezření, že výsledek bude záviset na jejich váze - ale přesto neseženu všechny krysy stejně těžké Použiju váhu krys na počátku pokusu jako covariate Přitom se budu snažit, abych ve všech skupinách měl krysy stejně těžké (aby byly proměnné [prediktory] váha krys a “experimentální skupina” nezávislé)

28 Jak rozhodnout, zda užít proměnnou jako kvantitativní, a kdy jako kategoriální Čím méně stupňů volnosti mi model “užere”, tím dostávám silnější test Čím více stupňů volnosti model “užere”, tím obvykle lépe “sedí” A včíl mudruj...

29 Hnojím, 0, 70 a 140 kg N/ha, sleduju výnos Dva možné modely: Regrese: Výnos = a + b*dávka hnojiva + chyba [předpokládá lineární vztah na dávce, užije jeden stupeň volnosti] Anova: Výnos = společný průměr + specifický efekt dávky + chyba [nepředpokládá lineární vztah, užije dva stupně volnosti] Jestliže předpoklad lineárního vztahu platí, bude regresní test silnější [ale oba testy budou správné], pokud neplatí, bude regrese dost nesmyslná

30 Trend je lineární, tj. předpoklady regrese jsou splněny

31 V regresi bylo

32 Trend není lineární, tj. předpoklady regrese nejsou jsou splněny Lineární regrese nenajde žádnou průkaznou závislost

33 Trend není lineární, tj. předpoklady regrese nejsou jsou splněny


Stáhnout ppt "Korelace a kauzalita korelace."

Podobné prezentace


Reklamy Google