Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Regrese a korelace Závislost dvou kvantitativních proměnných.

Podobné prezentace


Prezentace na téma: "Regrese a korelace Závislost dvou kvantitativních proměnných."— Transkript prezentace:

1 Regrese a korelace Závislost dvou kvantitativních proměnných

2 Regrese - vím, která je závislá, a která nezávislá

3 Podobně bude záviset Výška rostliny na obsahu živin v půdě Intenzita fotosyntézy na množství světla Druhová bohatost na zeměpisné šířce Rychlost enzymatické reakce na teplotě a nikoliv naopak

4 Korelace - obě proměnné jsou “stejnocenné”

5 Podobně nás může zajímat korelace Obsahu Pb a Cd ve vodě Počtu bodů za písemku z matiky a chemie Pokryvnosti sasanky a pryskyřníku ve čtvercích na louce Těžko řekneme, co je závislé na čem

6 I u stejnocenných proměnných můžeme jednu z nich použít jako prediktor. Regrese se potom užije i v případě, že není jasně jedna závislá a jedna nezávislá. Můžu se pokusit na základě DBH (měří se snadněji) predikovat výšku stromu

7 Model jednoduché lineární regrese Závisle proměnná Odpověď Dependent v., response Intercept Sklon, též regresní koeficient Slope Nezávisle proměnná, prediktor, Independent v. Náhodná variabilita - N(0,σ 2 )

8 Regresní koeficient = sklon přímky, udává o kolik se změní Y při změně X o jednotku. Je to tedy hodnota závislá na jednotkách, ve kterých měříme X a Y. Jde od -  do + . 0 0 α=hodnota Y pro X=0 β=tg úhlu sklonu

9 Předpokládáme tedy: X je změřeno přesně Y je zatíženo chybou střední hodnota Y závisí lineárně na X variance “kolem přímky” je stále stejná (homogenita variance)

10 Která přímka je nejlepší?

11

12 Tahle asi ne, ale jak to poznám?

13 Nejlepší je ta přímka, která vyhovuje Kriteriu nejmenších čtverců Least squares (LS) tj. nejmenší součet čtverců rozdílů predikovaná - skutečná hodnota závisle proměnné

14 Tj. nejlepší je ta přímka, která má nejmenší součet druhých mocnin (čtverců) residuálů Svislá - nikoliv kolmá vzdálenost k přímce!!! Tady se projevuje, že předpokládám, že jen Y je zatíženo chybou

15 Lze z této podmínky vypočítat parametry přímky? Dosadím za odhad Y X a Y jsou naměřené hodnoty. Ty považujeme za „pevné“. Hledám tedy lokální minimum funkce dvou proměnných, a a b. Výraz nahoře zderivujeme podle a a potom podle b. Dostávám dva výrazy (derivaci podle a a podle b). Ty položím rovny nule, a soustavu dvou rovnic vyřeším. V normálních případech má funkce jeden lokální extrém (protože je jediný, je též globálním extrémem, a je minimem)

16 Dostáváme Přímka vždy prochází bodem α a β jsou skutečné hodnoty, a a b jsou jejich odhady

17 b je výběrovým odhadem skutečné hodnoty β Každý odhad je zatížen nějakou chybou - z variability dat nám Statistica spočítá střední chybu odhadu b

18 V případě nezávislosti β=0 Dosažená hladina významnosti pro test H 0 : β=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé

19 Pro test H 0 : β=0 Obdobný test můžeme použít i pro parametr a, testujeme pak, že přímka prochází počátkem, což je ve většině případů test nezajímavý Počet stupňů volnosti je n-2

20 Test pomocí ANALÝZY VARIANCE regresního modelu Testujeme nulovou hypotézu, že model nic nevysvětluje (proměnné jsou nezávislé). Potom platí že β=0. Test tedy musí vyjít shodně s předchozím (to je dá totožnou hodnotu p), jen neumožňuje jednostrannou hypotézu Opět - jako v klasické ANOVě, základem je rozklad sumy čtverců

21 Celková variabilita = čtverce odchylek pozorování od společného průměru Variabilita modelem vysvětlená=čtverce odchylek predikovaných hodnot od společného průměru

22 Variabilita modelem nevysvětlená= čtverce odchylek pozorovaných a predikovaných hodnot Platí:

23 Jako v klasické ANOVě platí MS=SS/DF - je odhadem variance základního souboru, když platí nulová hypotéza. A i tady provádíme test pomocí poměru odhadů společné variance na základě variance modelem vysvětlené a nevysvětlené

24 Test nulové hypotézy, že při vylíhnutí pták nemá křídlo (v den nula se délka rovná nule) ANOVA modelu

25 Koeficient determinace - procento vysvětlené variability R 2 adj - odhad, kolik je R 2 v základním souboru

26 Konfidenční pás - kde s danou [zde 95%] pravděpodobností leží pro dané X střední hodnota Y V podstatě - kde leží přímka

27 Predikční nebo toleranční pás Kde budou ležet další pozorování

28 Spolehlivost je největší kolem průměru

29 Regrese procházející počátkem - je možné, ale Jak to reálně bylo

30 S vysokou jistotou jsem dokázal, že počet druhů při vzniku sopečného ostrova byl záporný

31 Regrese procházející počátkem - je možné, ale Jak to reálně bylo Tohle mi udělá regrese procházející počátkem

32 Lineární regresi nepoužíváme proto Že bychom si mysleli, že závislost je lineární v celém svém rozsahu, ale často (oprávněně) věříme, že v rozsahu námi užitých hodnot je závislot rozumně aproximovatelná lineární funkcí Proto velký pozor na extrapolace (zvlášť nebezpečné jsou extrapolace k nule)

33 Užití regrese neznamená kauzální závislost Průkazně nám vyjde: Závislost počtu vražd na počtu mrazových dní v roce ve státech USA Závislost počtu rozvodů na počtu ledniček v průběhu let (a možná i přes jednotlivé země) Závislost počtu obyvatel Indie na koncentraci CO 2 v průběhu let Kauzální závislost prokáže manipulativní experiment

34 Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA Výsledky regresní analýzy počtu vražd na obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech (Mráz). P<0.01

35 Síla testu Závisí na počtu pozorování a na těsnosti vztahu (tedy R 2 v základním souboru) V experimentálních studiích (s manipulovanou nezávisle proměnnou) často zvýšíme R 2 zvětšením rozsahu nezávisle proměnné (ale pozor, to obvykle zhorší linearitu vztahu)

36 Při interpretacích Rozlišuj, kdy nás zajímá více těsnost vztahu (a tedy hodnota R 2 ), a kdy jsme šťastni, když “nám to vyjde průkazně”. Jak je nová levná analytická metoda závislá na skutečné koncentraci? (Kdybych nevěřil, že H 0 : „Metoda je zcela nezávislá na koncentraci“ neplatí, tak bych to asi nedělal - zajímá mě R 2, případně chyba odhadu.)

37 Prohlášení Metoda je vynikající, závislost na reálných koncentracích je vysoce průkazná (p<0.001) říká jen to, že jsme si velmi jistí, že metoda je lepší než generátor náhodných čísel. Zajímá nás především R 2 [a hodnota 0.8 se mi může zdát zatraceně nízká] (a zde hlavně chyba odhadu).

38 Naproti tomu Prohlášení: Počet druhů je pozitivně závislý na pH půdy (F 1,33 =12.3, p<0.01) je zajímavé, protože neplatnost nulové hypotézy není zcela evidentní. Ale R 2 mě bude zajímat taky (ale spokojím se i s dost nízkým číslem, třeba i 0.2).

39 Prohozením X a Y dostanu logicky různé výsledky (regresní rovnice nejsou inverzními funkcemi). Ale R 2, F, a P jsou stejné. Odhaduji DBH pomocí výšky Tj. výška (Y) nezávislá, DBH závislá Odhaduji výšku pomocí DBH Tj. DBH neávislá, výška závislá Minimalizuji

40 I jednoduchou regresi počítáme ve Statistice pomocí modulu “Multiple regression”. Do výsledků píšu, že jsem užil jednoduchou regresi!!!

41 Transformace dat v regresi Pozor - proměnné nejsou stejnocenné Nezávisle proměnná se považuje za přesnou Závisle proměnná je zatížena chybou (a na ni minimalizuji odchylky závisle proměnné od predikce)

42 Rozlišuj transformací nezávisle proměnné měním tvar závislosti, ale ne rozdělení reziduálů transformací závisle proměnné měním obojí - i tvar, i rozdělení reziduálů

43 Linearizované regrese Nejčastější transformace je logaritmická Když zlogaritmuji nezávisle proměnnou dostávám Y=a+b log(X) Ten první řádek se obvykle maže, druhý do článků často taky, ale dá se do popisu obrázku Předpoklad - reziduály nebyly závislé na průměru - transformace s nimi nic neudělala. S=a+blog(A)

44 Závislost je exponenciání Reziduály jsou lineárně závislé na průměru a co nám vyjde v regresi je tedy ln(k), tedy k=e a

45 Je jedno, jestli užiji ln nebo log Ale pokud chci odhadnout růstovou rychlost, pak se hodí ln Logaritmuji jen závisle proměnnou - a “homogenizuji” reziduály

46 Oblíbená je mocninná závislost Vždy prochází počátkem - Alometrické závislosti, Species-Area

47 Užiju buď ln, nebo log Zlinearizuje většinu monotonních závislostí bez inflexního bodu [S=cA z ], které procházejí počátkem Logaritmuji obě proměnné, předpokládám, že reziduály byly pozitivně závislé na průměru. Pozor, kdykoliv logaritmuji, pozitivní odchylka od předpovědi se zmenší víc, než negativní.


Stáhnout ppt "Regrese a korelace Závislost dvou kvantitativních proměnných."

Podobné prezentace


Reklamy Google