Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Závislost dvou kvantitativních proměnných

Podobné prezentace


Prezentace na téma: "Závislost dvou kvantitativních proměnných"— Transkript prezentace:

1 Závislost dvou kvantitativních proměnných
Regrese a korelace Závislost dvou kvantitativních proměnných

2 Regrese - vím, která je závislá, a která nezávislá

3 Podobně bude záviset Výška rostliny na obsahu živin v půdě
Intenzita fotosyntézy na množství světla Druhová bohatost na zeměpisné šířce Rychlost enzymatické reakce na teplotě a nikoliv naopak

4 Korelace - obě proměnné jsou “stejnocenné”

5 Podobně nás může zajímat korelace
Obsahu Pb a Cd ve vodě Počtu bodů za písemku z matiky a chemie Pokryvnosti sasanky a pryskyřníku ve čtvercích na louce Těžko řekneme, co je závislé na čem

6 I u stejnocenných proměnných
můžeme jednu z nich použít jako prediktor. Regrese se potom užije i v případě, že není jasně jedna závislá a jedna nezávislá. Můžu se pokusit na základě DBH (měří se snadněji) predikovat výšku stromu

7 Model jednoduché lineární regrese
Náhodná variabilita - N(0,σ2) Sklon, též regresní koeficient Slope Intercept Závisle proměnná Odpověď Dependent v., response Nezávisle proměnná, prediktor, Independent v.

8 Regresní koeficient = sklon přímky, udává o kolik se změní Y při změně X o jednotku. Je to tedy hodnota závislá na jednotkách, ve kterých měříme X a Y. Jde od - do +. β=tg úhlu sklonu α=hodnota Y pro X=0

9 Předpokládáme tedy: X je změřeno přesně Y je zatíženo chybou střední hodnota Y závisí lineárně na X variance “kolem přímky” je stále stejná (homogenita variance)

10 Která přímka je nejlepší?

11 Která přímka je nejlepší?

12 Která přímka je nejlepší?
Tahle asi ne, ale jak to poznám?

13 Nejlepší je ta přímka, která vyhovuje
Kriteriu nejmenších čtverců Least squares (LS) tj. nejmenší součet čtverců rozdílů predikovaná - skutečná hodnota závisle proměnné

14 Tj. nejlepší je ta přímka, která má nejmenší součet druhých mocnin (čtverců) residuálů
Svislá - nikoliv kolmá vzdálenost k přímce!!! Tady se projevuje, že předpokládám, že jen Y je zatíženo chybou

15 Lze z této podmínky vypočítat parametry přímky?
Dosadím za odhad Y X a Y jsou naměřené hodnoty. Ty považujeme za „pevné“. Hledám tedy lokální minimum funkce dvou proměnných, a a b. Výraz nahoře zderivujeme podle a a potom podle b. Dostávám dva výrazy (derivaci podle a a podle b). Ty položím rovny nule, a soustavu dvou rovnic vyřeším. V normálních případech má funkce jeden lokální extrém (protože je jediný, je též globálním extrémem, a je minimem)

16 Dostáváme α a β jsou skutečné hodnoty, a a b jsou jejich odhady
Přímka vždy prochází bodem

17 b je výběrovým odhadem skutečné hodnoty β
Každý odhad je zatížen nějakou chybou - z variability dat nám Statistica spočítá střední chybu odhadu b

18 V případě nezávislosti β=0
Dosažená hladina významnosti pro test H0: β=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé

19 Pro test H0: β=0 Počet stupňů volnosti je n-2
Obdobný test můžeme použít i pro parametr a, testujeme pak, že přímka prochází počátkem, což je ve většině případů test nezajímavý

20 Test pomocí ANALÝZY VARIANCE regresního modelu
Testujeme nulovou hypotézu, že model nic nevysvětluje (proměnné jsou nezávislé). Potom platí že β=0. Test tedy musí vyjít shodně s předchozím (to je dá totožnou hodnotu p), jen neumožňuje jednostrannou hypotézu Opět - jako v klasické ANOVě, základem je rozklad sumy čtverců

21 Celková variabilita = čtverce odchylek pozorování od společného průměru
Variabilita modelem vysvětlená=čtverce odchylek predikovaných hodnot od společného průměru

22 Variabilita modelem nevysvětlená= čtverce odchylek pozorovaných a predikovaných hodnot
Platí:

23 Jako v klasické ANOVě platí
MS=SS/DF - je odhadem variance základního souboru, když platí nulová hypotéza. A i tady provádíme test pomocí poměru odhadů společné variance na základě variance modelem vysvětlené a nevysvětlené

24 ANOVA modelu Test nulové hypotézy, že při vylíhnutí pták nemá křídlo (v den nula se délka rovná nule)

25 Koeficient determinace - procento vysvětlené variability
R2adj - odhad, kolik je R2 v základním souboru

26 Konfidenční pás - kde s danou [zde 95%] pravděpodobností leží pro dané X střední hodnota Y
V podstatě - kde leží přímka

27 Predikční nebo toleranční pás
Kde budou ležet další pozorování

28 Spolehlivost je největší kolem průměru

29 Regrese procházející počátkem - je možné, ale
Jak to reálně bylo

30 S vysokou jistotou jsem dokázal, že počet druhů při vzniku sopečného ostrova byl záporný

31 Regrese procházející počátkem - je možné, ale
Jak to reálně bylo Tohle mi udělá regrese procházející počátkem

32 Lineární regresi nepoužíváme proto
Že bychom si mysleli, že závislost je lineární v celém svém rozsahu, ale často (oprávněně) věříme, že v rozsahu námi užitých hodnot je závislot rozumně aproximovatelná lineární funkcí Proto velký pozor na extrapolace (zvlášť nebezpečné jsou extrapolace k nule)

33 Užití regrese neznamená kauzální závislost
Průkazně nám vyjde: Závislost počtu vražd na počtu mrazových dní v roce ve státech USA Závislost počtu rozvodů na počtu ledniček v průběhu let (a možná i přes jednotlivé země) Závislost počtu obyvatel Indie na koncentraci CO2 v průběhu let Kauzální závislost prokáže manipulativní experiment

34 Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA
Výsledky regresní analýzy počtu vražd na obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech (Mráz). P<0.01

35 Síla testu Závisí na počtu pozorování a na těsnosti vztahu (tedy R2 v základním souboru) V experimentálních studiích (s manipulovanou nezávisle proměnnou) často zvýšíme R2 zvětšením rozsahu nezávisle proměnné (ale pozor, to obvykle zhorší linearitu vztahu)

36 Při interpretacích Rozlišuj, kdy nás zajímá více těsnost vztahu (a tedy hodnota R2), a kdy jsme šťastni, když “nám to vyjde průkazně”. Jak je nová levná analytická metoda závislá na skutečné koncentraci? (Kdybych nevěřil, že H0: „Metoda je zcela nezávislá na koncentraci“ neplatí, tak bych to asi nedělal - zajímá mě R2, případně chyba odhadu.)

37 Prohlášení Metoda je vynikající, závislost na reálných koncentracích je vysoce průkazná (p<0.001) říká jen to, že jsme si velmi jistí, že metoda je lepší než generátor náhodných čísel. Zajímá nás především R2 [a hodnota 0.8 se mi může zdát zatraceně nízká] (a zde hlavně chyba odhadu).

38 Naproti tomu Prohlášení: Počet druhů je pozitivně závislý na pH půdy (F1,33=12.3, p<0.01) je zajímavé, protože neplatnost nulové hypotézy není zcela evidentní. Ale R2 mě bude zajímat taky (ale spokojím se i s dost nízkým číslem, třeba i 0.2).

39 Odhaduji výšku pomocí DBH Odhaduji DBH pomocí výšky
Prohozením X a Y dostanu logicky různé výsledky (regresní rovnice nejsou inverzními funkcemi). Ale R2, F, a P jsou stejné. Odhaduji výšku pomocí DBH Tj. DBH neávislá, výška závislá Odhaduji DBH pomocí výšky Tj. výška (Y) nezávislá, DBH závislá Minimalizuji Minimalizuji

40 I jednoduchou regresi počítáme ve Statistice pomocí modulu “Multiple regression”. Do výsledků píšu, že jsem užil jednoduchou regresi!!!

41 Transformace dat v regresi
Pozor - proměnné nejsou stejnocenné Nezávisle proměnná se považuje za přesnou Závisle proměnná je zatížena chybou (a na ni minimalizuji odchylky závisle proměnné od predikce)

42 Rozlišuj transformací nezávisle proměnné měním tvar závislosti, ale ne rozdělení reziduálů transformací závisle proměnné měním obojí - i tvar, i rozdělení reziduálů

43 Linearizované regrese
Ten první řádek se obvykle maže, druhý do článků často taky, ale dá se do popisu obrázku Nejčastější transformace je logaritmická Když zlogaritmuji nezávisle proměnnou dostávám Y=a+b log(X) Předpoklad - reziduály nebyly závislé na průměru - transformace s nimi nic neudělala. S=a+blog(A)

44 Závislost je exponenciání Reziduály jsou lineárně závislé na průměru
a co nám vyjde v regresi je tedy ln(k), tedy k=ea

45 Je jedno, jestli užiji ln nebo log
Ale pokud chci odhadnout růstovou rychlost, pak se hodí ln Logaritmuji jen závisle proměnnou - a “homogenizuji” reziduály

46 Oblíbená je mocninná závislost
Vždy prochází počátkem - Alometrické závislosti, Species-Area

47 Užiju buď ln, nebo log Zlinearizuje většinu monotonních závislostí bez inflexního bodu [S=cAz], které procházejí počátkem Logaritmuji obě proměnné, předpokládám, že reziduály byly pozitivně závislé na průměru. Pozor, kdykoliv logaritmuji, pozitivní odchylka od předpovědi se zmenší víc, než negativní.


Stáhnout ppt "Závislost dvou kvantitativních proměnných"

Podobné prezentace


Reklamy Google