Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace.

Korelace a kauzalita

Mnohonásobná regrese ANCOVA, Obecné lineární modely
Multiple regression, ANCOVA, General Linear Models

Mnohonásobná regrese

Mám více prediktorů V manipulativní pokusu - množství vody a dávka živin jako nezávislé proměnné pro biomasu pěstované rostliny V observační studii - Druhovou bohatost vysvětlujeme pomocí zeměpisné šířky, nadmořské výšky a ročního úhrnu srážek.

V ideálním případě by prediktory neměly být korelované
To lze zajistit v experimentu Ale těžko v observační studii (prakticky nelze vybrat na Zemi místa tak, aby úhrn srážek byl zcela nekorelovaný se zeměpisnou šířkou).

Model Platí tytéž předpoklady, jako u jednoduché lineární regrese - tj. náhodná variabilita je aditivní a nezávislá k očekávané hodnotě (tj. homogenita variance), vztah je lineární. Navíc - efekty jednotlivých nezávisle proměnných jsou aditivní.

Pro dva prediktory je znázorněním výsledku rovina v trojrozměrném prostoru

Řada postupů analogických s jednoduchou regresí
koeficienty α a βi (pro každý z prediktorů) platí pro celý základní soubor, [který neznáme], odhadujeme jako výběrové koeficienty a a bi pomocí kriteria nejmenšího součtu čtverců odchylek. Testy - buď ANOVA celého modelu, nebo (pomocí t-testů) testy jednotlivých regresních koeficientů

Na rozdíl od jednoduché regrese se význam testů liší
ANOVA celého modelu: H0: Odpověď je nezávislá na modelu, tj. žádný z prediktorů nevysvětluje chování závisle proměnné Separátní nulové hypotézy pro jednotlivé prediktory βi=0 - se vztahují k jednotlivým proměnným.

Rozsah hodnot prediktorů se může velmi lišit a závisí na měřených jednotlách

ANOVA celého modelu Rozklad sumy čtverců SSTOT = SSRegress. + SSResidual DFTOT = n-1 ; DFRegress=počet proměnných, DFResid=n-1-počet proměnných Klasicky MS=SS/DF = je odhadem variance z.s. za platnopsti H0 - celé vede na klasické F.

R2 - koeficient determinace
Procento variability vysvětlené modelem R2adj. = adjusted - různé korekce na to, když máme mnoho vysvětlujících proměnných a málo pozorování (pak je R2 v našem výběru větší, než v základním souboru). Když je počet pozorování = počet proměnných + 1, rovina přesně proloží všechny body, ale vysvětlující schopnost modelu může být nulová.

Parciální regresní koeficienty
Vliv dotyčné proměnné „navíc“ ke všem ostatním proměnným v modelu (navíc je zvlášť důležité říci, pokud jsou prediktory korelované)

Testy parciálních regresních koeficientů
b* je standardizovaný parciální regresní koeficient, spočtený poté, co každou proměnnou podrobíme Z transformaci, (starší verse Statisticy mu říkaly – celkem nesmyslně – Beta. To spočítat nelze). Regresní rovina potom prochází počátkem

b* - udává relativní velikost vlivu dané proměnné v rámci modelu (s ohledem na použitý rozsah hodnot prediktorů), nezávisí na použitýcvh jednotkách b - použijeme pro konstrukci funkce Y=a + biXi - a tudíž závisí na měřených jednotkách

b* - o kolik se změní (standardizovaná) odpověď při změně prediktoru o poměrnou část jeho variability b - o kolik se změní odpověď [v jednotkách, ve kterých je měřena] při změně prediktoru o jednu jeho jednotku.

pro testování používáme t=b/s.e.(b)=b*/s.e.(b*) střední chyba velmi závisí na korelaci prediktorů! Test pro Intercept je opět většinou velmi nezajímavý Pozor, výsledky ANOVy a testů parciálních koeficientů si nemusí odpovídat!

Marginální a parciální efekty
Předpovídím výšku stromu pomocí jeho dbh a nadmořské výšky, tedy dvou korelovaných prediktorů

Mít mnoho prediktorů nemusí být vždy prospěšné
Řada metod, jak zjednodušit model (užíváme při observačních studiích) Ale i tak je lépe nejdřív používat hlavu, a nenarvat do programu všechno jen proto, že mi to vylezlo z automatického analyzátoru nebo z GISu Postupný výběr prediktorů - stepwise selection Forward, Backward, apod. Kritéria vážící vysvětlující schopnost a “penalizaci” za složitost “Jack-knife” a podobné metody

Pozor na proměnné na cirkulární stupnici jako prediktory
Jen zřídka můžeme předpokládat lineární odpověď na 1. Orientaci svahu (nebo čehokoliv) měřenou např. ve stupních nebo radiánech 2. “Julian day” 3. Hodiny dne Pro orientaci a sklon je užitečné přepočítat na ozáření: McCune, B. & Keon, D Equations for potential annual direct incident radiation and heat load. J. Veg. Sci. 13: , příp. McCune 2007 Journal of Vegetation Science 18: ,

Obecné lineární modely
General Linear Models

Měli jsme ANOVA Model: Xij = μ+αi + εij
Případně pro více kategoriálních proměnných Průměr umíme spočítat jako ΣX/n , ale také by se dal spočítat metodou nejmenšího součtu čtverců odchylek Regrese: Obecně: Y = deterministická část modelu + ε Jako deterministická část může být kombinace kategoriálních a kvantitativních prediktorů - jednotlivé efekty jsou aditivní, a říká se tomu Obecný lineární model (pozor na zkratku GLM)

Příklady Počet druhů ve společenstvu ~ hornina [kateg], typ obhospodařování[kateg], nadm. výška[kvant] Hladina cholesterolu~pohlaví[kateg], věk[kvant], množství zkonzumovaného bůčku[kvant] Hladina heterozygozity~ploidie[kateg - zřejmě], velikost populace[kvant]

Různé formulace modelů umožní testovat zda
Jsou dvě regresní přímky shodné Nejsou shodné, ale mají stejný sklon Mají i různý sklon (pak je průkazná interakce kvantitativní proměnné a faktoru = kateg. proměnné) A řadu dalších podobných otázek

ANCOVA (analýza kovariance)
Asi nejběžnější použití obecných lineárních modelů Předpokládám, že přímky jsou rovnoběžné Nejčastěji chci odfiltrovat nějaký “rušivý” vliv - umožní mi to snížit nevysvětlenou variabilitu

Příklad Příklad - porovnávám váhu členů sportovního klubu a klubu pivních skautů. Protože váha závisí na výšce (triviální závislost), budu mít v obou skupinách dost velkou variabilitu Použiju výšku jako covariate Vpodstatě testuji, zda jsou přímky závislosti váhy na výšce totožné, nebo posunuté, předpokládám, že mají stejný sklon Testuji tím, zda stejně vysoký pivní skaut bude mít stejnou váhu je člen sportovního klubu

Příklad Příklad - pokus s krysami - mám podezření, že výsledek bude záviset na jejich váze - ale přesto neseženu všechny krysy stejně těžké Použiju váhu krys na počátku pokusu jako covariate Přitom se budu snažit, abych ve všech skupinách měl krysy stejně těžké (aby byly proměnné [prediktory] váha krys a “experimentální skupina” nezávislé)

Jak rozhodnout, zda užít proměnnou jako kvantitativní, a kdy jako kategoriální
Čím méně stupňů volnosti mi model “užere”, tím dostávám silnější test Čím více stupňů volnosti model “užere”, tím obvykle lépe “sedí” A včíl mudruj...

Hnojím, 0, 70 a 140 kg N/ha, sleduju výnos
Dva možné modely: Regrese: Výnos = a + b*dávka hnojiva + chyba [předpokládá lineární vztah na dávce, užije jeden stupeň volnosti] Anova: Výnos = společný průměr + specifický efekt dávky + chyba [nepředpokládá lineární vztah, užije dva stupně volnosti] Jestliže předpoklad lineárního vztahu platí, bude regresní test silnější [ale oba testy budou správné], pokud neplatí, bude regrese dost nesmyslná

Trend je lineární, tj. předpoklady regrese jsou splněny

Trend je lineární, tj. předpoklady regrese jsou splněny
V regresi bylo

Trend není lineární, tj. předpoklady regrese nejsou jsou splněny
Lineární regrese nenajde žádnou průkaznou závislost

Trend není lineární, tj. předpoklady regrese nejsou jsou splněny

Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace.

Podobné prezentace

Prezentace na téma: "Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace.

Podobné prezentace

Prezentace na téma: "Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář