Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace.

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
Neparametrické metody
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování statistických hypotéz
Monte Carlo permutační testy & Postupný výběr
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Analýza variance (Analysis of variance)
Diskrétní rozdělení a jejich použití
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
ANOVA (s použitím materiálů Petra Šmilauera)
Řízení a supervize v sociálních a zdravotnických organizacích
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Data s diskrétním rozdělením
Lineární regrese.
Obecný lineární model Fitované hodnoty and regresní residuály
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Lineární regrese.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Práce s výsledky statistických studií
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
8. Kontingenční tabulky a χ2 test
Statistická významnost a její problémy
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Statistické testování – základní pojmy
- váhy jednotlivých studií
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Korelace a kauzalita http://www.abclinuxu.cz/clanky/ruzne/komiks-xkcd-552-korelace

Mnohonásobná regrese ANCOVA, Obecné lineární modely Multiple regression, ANCOVA, General Linear Models

Mnohonásobná regrese

Mám více prediktorů V manipulativní pokusu - množství vody a dávka živin jako nezávislé proměnné pro biomasu pěstované rostliny V observační studii - Druhovou bohatost vysvětlujeme pomocí zeměpisné šířky, nadmořské výšky a ročního úhrnu srážek.

V ideálním případě by prediktory neměly být korelované To lze zajistit v experimentu Ale těžko v observační studii (prakticky nelze vybrat na Zemi místa tak, aby úhrn srážek byl zcela nekorelovaný se zeměpisnou šířkou).

Model Platí tytéž předpoklady, jako u jednoduché lineární regrese - tj. náhodná variabilita je aditivní a nezávislá k očekávané hodnotě (tj. homogenita variance), vztah je lineární. Navíc - efekty jednotlivých nezávisle proměnných jsou aditivní.

Pro dva prediktory je znázorněním výsledku rovina v trojrozměrném prostoru

Řada postupů analogických s jednoduchou regresí koeficienty α a βi (pro každý z prediktorů) platí pro celý základní soubor, [který neznáme], odhadujeme jako výběrové koeficienty a a bi pomocí kriteria nejmenšího součtu čtverců odchylek. Testy - buď ANOVA celého modelu, nebo (pomocí t-testů) testy jednotlivých regresních koeficientů

Na rozdíl od jednoduché regrese se význam testů liší ANOVA celého modelu: H0: Odpověď je nezávislá na modelu, tj. žádný z prediktorů nevysvětluje chování závisle proměnné Separátní nulové hypotézy pro jednotlivé prediktory βi=0 - se vztahují k jednotlivým proměnným.

Rozsah hodnot prediktorů se může velmi lišit a závisí na měřených jednotlách

ANOVA celého modelu Rozklad sumy čtverců SSTOT = SSRegress. + SSResidual DFTOT = n-1 ; DFRegress=počet proměnných, DFResid=n-1-počet proměnných Klasicky MS=SS/DF = je odhadem variance z.s. za platnopsti H0 - celé vede na klasické F.

R2 - koeficient determinace Procento variability vysvětlené modelem R2adj. = adjusted - různé korekce na to, když máme mnoho vysvětlujících proměnných a málo pozorování (pak je R2 v našem výběru větší, než v základním souboru). Když je počet pozorování = počet proměnných + 1, rovina přesně proloží všechny body, ale vysvětlující schopnost modelu může být nulová.

Parciální regresní koeficienty Vliv dotyčné proměnné „navíc“ ke všem ostatním proměnným v modelu (navíc je zvlášť důležité říci, pokud jsou prediktory korelované)

Testy parciálních regresních koeficientů b* je standardizovaný parciální regresní koeficient, spočtený poté, co každou proměnnou podrobíme Z transformaci, (starší verse Statisticy mu říkaly – celkem nesmyslně – Beta. To spočítat nelze). Regresní rovina potom prochází počátkem

Testy parciálních regresních koeficientů b* - udává relativní velikost vlivu dané proměnné v rámci modelu (s ohledem na použitý rozsah hodnot prediktorů), nezávisí na použitýcvh jednotkách b - použijeme pro konstrukci funkce Y=a + biXi - a tudíž závisí na měřených jednotkách

Testy parciálních regresních koeficientů b* - o kolik se změní (standardizovaná) odpověď při změně prediktoru o poměrnou část jeho variability b - o kolik se změní odpověď [v jednotkách, ve kterých je měřena] při změně prediktoru o jednu jeho jednotku.

Testy parciálních regresních koeficientů pro testování používáme t=b/s.e.(b)=b*/s.e.(b*) střední chyba velmi závisí na korelaci prediktorů! Test pro Intercept je opět většinou velmi nezajímavý Pozor, výsledky ANOVy a testů parciálních koeficientů si nemusí odpovídat!

Marginální a parciální efekty Předpovídím výšku stromu pomocí jeho dbh a nadmořské výšky, tedy dvou korelovaných prediktorů

Mít mnoho prediktorů nemusí být vždy prospěšné Řada metod, jak zjednodušit model (užíváme při observačních studiích) Ale i tak je lépe nejdřív používat hlavu, a nenarvat do programu všechno jen proto, že mi to vylezlo z automatického analyzátoru nebo z GISu Postupný výběr prediktorů - stepwise selection Forward, Backward, apod. Kritéria vážící vysvětlující schopnost a “penalizaci” za složitost “Jack-knife” a podobné metody

Pozor na proměnné na cirkulární stupnici jako prediktory Jen zřídka můžeme předpokládat lineární odpověď na 1. Orientaci svahu (nebo čehokoliv) měřenou např. ve stupních nebo radiánech 2. “Julian day” 3. Hodiny dne Pro orientaci a sklon je užitečné přepočítat na ozáření: McCune, B. & Keon, D. 2002. Equations for potential annual direct incident radiation and heat load. J. Veg. Sci. 13: 603-606, příp. McCune 2007 Journal of Vegetation Science 18: 751-754,

Obecné lineární modely General Linear Models

Měli jsme ANOVA Model: Xij = μ+αi + εij Případně pro více kategoriálních proměnných Průměr umíme spočítat jako ΣX/n , ale také by se dal spočítat metodou nejmenšího součtu čtverců odchylek Regrese: Obecně: Y = deterministická část modelu + ε Jako deterministická část může být kombinace kategoriálních a kvantitativních prediktorů - jednotlivé efekty jsou aditivní, a říká se tomu Obecný lineární model (pozor na zkratku GLM)

Příklady Počet druhů ve společenstvu ~ hornina [kateg], typ obhospodařování[kateg], nadm. výška[kvant] Hladina cholesterolu~pohlaví[kateg], věk[kvant], množství zkonzumovaného bůčku[kvant] Hladina heterozygozity~ploidie[kateg - zřejmě], velikost populace[kvant]

Různé formulace modelů umožní testovat zda Jsou dvě regresní přímky shodné Nejsou shodné, ale mají stejný sklon Mají i různý sklon (pak je průkazná interakce kvantitativní proměnné a faktoru = kateg. proměnné) A řadu dalších podobných otázek

ANCOVA (analýza kovariance) Asi nejběžnější použití obecných lineárních modelů Předpokládám, že přímky jsou rovnoběžné Nejčastěji chci odfiltrovat nějaký “rušivý” vliv - umožní mi to snížit nevysvětlenou variabilitu

Příklad Příklad - porovnávám váhu členů sportovního klubu a klubu pivních skautů. Protože váha závisí na výšce (triviální závislost), budu mít v obou skupinách dost velkou variabilitu Použiju výšku jako covariate Vpodstatě testuji, zda jsou přímky závislosti váhy na výšce totožné, nebo posunuté, předpokládám, že mají stejný sklon Testuji tím, zda stejně vysoký pivní skaut bude mít stejnou váhu je člen sportovního klubu

Příklad Příklad - pokus s krysami - mám podezření, že výsledek bude záviset na jejich váze - ale přesto neseženu všechny krysy stejně těžké Použiju váhu krys na počátku pokusu jako covariate Přitom se budu snažit, abych ve všech skupinách měl krysy stejně těžké (aby byly proměnné [prediktory] váha krys a “experimentální skupina” nezávislé)

Jak rozhodnout, zda užít proměnnou jako kvantitativní, a kdy jako kategoriální Čím méně stupňů volnosti mi model “užere”, tím dostávám silnější test Čím více stupňů volnosti model “užere”, tím obvykle lépe “sedí” A včíl mudruj...

Hnojím, 0, 70 a 140 kg N/ha, sleduju výnos Dva možné modely: Regrese: Výnos = a + b*dávka hnojiva + chyba [předpokládá lineární vztah na dávce, užije jeden stupeň volnosti] Anova: Výnos = společný průměr + specifický efekt dávky + chyba [nepředpokládá lineární vztah, užije dva stupně volnosti] Jestliže předpoklad lineárního vztahu platí, bude regresní test silnější [ale oba testy budou správné], pokud neplatí, bude regrese dost nesmyslná

Trend je lineární, tj. předpoklady regrese jsou splněny

Trend je lineární, tj. předpoklady regrese jsou splněny V regresi bylo 0.0014

Trend není lineární, tj. předpoklady regrese nejsou jsou splněny Lineární regrese nenajde žádnou průkaznou závislost

Trend není lineární, tj. předpoklady regrese nejsou jsou splněny