Závislost dvou kvantitativních proměnných

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Neparametrické metody
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Monte Carlo permutační testy & Postupný výběr
Odhady parametrů základního souboru
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Analýza variance (Analysis of variance)
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Růstové a přírůstové funkce
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Náhodná proměnná Rozdělení.
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Korelace a kauzalita
BRVKA Guillaume de l'Hospital (1661 –1704). BRVKA Používá se na výpočet limit, které mají po dosazení tvar neurčitého výrazu: Nebo mají takový tvar, který.
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Lineární regrese.
Obecný lineární model Fitované hodnoty and regresní residuály
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Lineární regrese kalibrační přímky
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Lineární regrese FSS928.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
8. Kontingenční tabulky a χ2 test
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
V experimentu měníme hodnotu jedné nebo několika veličin x i a studujeme závislost veličiny y. - např. měníme, ostatní x i bereme jako parametry ( , ,
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Interpolace funkčních závislostí
PSY117 Statistická analýza dat v psychologii Přednáška
PSY117 Statistická analýza dat v psychologii Přednáška
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
4. Metoda nejmenších čtverců
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Transkript prezentace:

Závislost dvou kvantitativních proměnných Regrese a korelace Závislost dvou kvantitativních proměnných

Regrese - vím, která je závislá, a která nezávislá

Podobně bude záviset Výška rostliny na obsahu živin v půdě Intenzita fotosyntézy na množství světla Druhová bohatost na zeměpisné šířce Rychlost enzymatické reakce na teplotě a nikoliv naopak

Korelace - obě proměnné jsou “stejnocenné”

Podobně nás může zajímat korelace Obsahu Pb a Cd ve vodě Počtu bodů za písemku z matiky a chemie Pokryvnosti sasanky a pryskyřníku ve čtvercích na louce Těžko řekneme, co je závislé na čem

I u stejnocenných proměnných můžeme jednu z nich použít jako prediktor. Regrese se potom užije i v případě, že není jasně jedna závislá a jedna nezávislá. Můžu se pokusit na základě DBH (měří se snadněji) predikovat výšku stromu

Model jednoduché lineární regrese Náhodná variabilita - N(0,σ2) Sklon, též regresní koeficient Slope Intercept Závisle proměnná Odpověď Dependent v., response Nezávisle proměnná, prediktor, Independent v.

Regresní koeficient = sklon přímky, udává o kolik se změní Y při změně X o jednotku. Je to tedy hodnota závislá na jednotkách, ve kterých měříme X a Y. Jde od - do +. β=tg úhlu sklonu α=hodnota Y pro X=0

Předpokládáme tedy: X je změřeno přesně Y je zatíženo chybou střední hodnota Y závisí lineárně na X variance “kolem přímky” je stále stejná (homogenita variance)

Která přímka je nejlepší?

Která přímka je nejlepší?

Která přímka je nejlepší? Tahle asi ne, ale jak to poznám?

Nejlepší je ta přímka, která vyhovuje Kriteriu nejmenších čtverců Least squares (LS) tj. nejmenší součet čtverců rozdílů predikovaná - skutečná hodnota závisle proměnné

Tj. nejlepší je ta přímka, která má nejmenší součet druhých mocnin (čtverců) residuálů Svislá - nikoliv kolmá vzdálenost k přímce!!! Tady se projevuje, že předpokládám, že jen Y je zatíženo chybou

Lze z této podmínky vypočítat parametry přímky? Dosadím za odhad Y X a Y jsou naměřené hodnoty. Ty považujeme za „pevné“. Hledám tedy lokální minimum funkce dvou proměnných, a a b. Výraz nahoře zderivujeme podle a a potom podle b. Dostávám dva výrazy (derivaci podle a a podle b). Ty položím rovny nule, a soustavu dvou rovnic vyřeším. V normálních případech má funkce jeden lokální extrém (protože je jediný, je též globálním extrémem, a je minimem)

Dostáváme α a β jsou skutečné hodnoty, a a b jsou jejich odhady Přímka vždy prochází bodem

b je výběrovým odhadem skutečné hodnoty β Každý odhad je zatížen nějakou chybou - z variability dat nám Statistica spočítá střední chybu odhadu b

V případě nezávislosti β=0 Dosažená hladina významnosti pro test H0: β=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé

Pro test H0: β=0 Počet stupňů volnosti je n-2 Obdobný test můžeme použít i pro parametr a, testujeme pak, že přímka prochází počátkem, což je ve většině případů test nezajímavý

Test pomocí ANALÝZY VARIANCE regresního modelu Testujeme nulovou hypotézu, že model nic nevysvětluje (proměnné jsou nezávislé). Potom platí že β=0. Test tedy musí vyjít shodně s předchozím (to je dá totožnou hodnotu p), jen neumožňuje jednostrannou hypotézu Opět - jako v klasické ANOVě, základem je rozklad sumy čtverců

Celková variabilita = čtverce odchylek pozorování od společného průměru Variabilita modelem vysvětlená=čtverce odchylek predikovaných hodnot od společného průměru

Variabilita modelem nevysvětlená= čtverce odchylek pozorovaných a predikovaných hodnot Platí:

Jako v klasické ANOVě platí MS=SS/DF - je odhadem variance základního souboru, když platí nulová hypotéza. A i tady provádíme test pomocí poměru odhadů společné variance na základě variance modelem vysvětlené a nevysvětlené

ANOVA modelu Test nulové hypotézy, že při vylíhnutí pták nemá křídlo (v den nula se délka rovná nule)

Koeficient determinace - procento vysvětlené variability R2adj - odhad, kolik je R2 v základním souboru

Konfidenční pás - kde s danou [zde 95%] pravděpodobností leží pro dané X střední hodnota Y V podstatě - kde leží přímka

Predikční nebo toleranční pás Kde budou ležet další pozorování

Spolehlivost je největší kolem průměru

Regrese procházející počátkem - je možné, ale Jak to reálně bylo

S vysokou jistotou jsem dokázal, že počet druhů při vzniku sopečného ostrova byl záporný

Regrese procházející počátkem - je možné, ale Jak to reálně bylo Tohle mi udělá regrese procházející počátkem

Lineární regresi nepoužíváme proto Že bychom si mysleli, že závislost je lineární v celém svém rozsahu, ale často (oprávněně) věříme, že v rozsahu námi užitých hodnot je závislot rozumně aproximovatelná lineární funkcí Proto velký pozor na extrapolace (zvlášť nebezpečné jsou extrapolace k nule)

Užití regrese neznamená kauzální závislost Průkazně nám vyjde: Závislost počtu vražd na počtu mrazových dní v roce ve státech USA Závislost počtu rozvodů na počtu ledniček v průběhu let (a možná i přes jednotlivé země) Závislost počtu obyvatel Indie na koncentraci CO2 v průběhu let Kauzální závislost prokáže manipulativní experiment

Závislost počtu vražd (Vraždy) na počtu mrazových dní (Mráz) v jednotlivých státech USA Výsledky regresní analýzy počtu vražd na 100 000 obyvatel v roce 1976 (Vraždy) v jednotlivých státech USA v závislosti na průměrném počtu mrazových dní v hlavním městě daného státu v letech 1931-1960 (Mráz). P<0.01

Síla testu Závisí na počtu pozorování a na těsnosti vztahu (tedy R2 v základním souboru) V experimentálních studiích (s manipulovanou nezávisle proměnnou) často zvýšíme R2 zvětšením rozsahu nezávisle proměnné (ale pozor, to obvykle zhorší linearitu vztahu)

Při interpretacích Rozlišuj, kdy nás zajímá více těsnost vztahu (a tedy hodnota R2), a kdy jsme šťastni, když “nám to vyjde průkazně”. Jak je nová levná analytická metoda závislá na skutečné koncentraci? (Kdybych nevěřil, že H0: „Metoda je zcela nezávislá na koncentraci“ neplatí, tak bych to asi nedělal - zajímá mě R2, případně chyba odhadu.)

Prohlášení Metoda je vynikající, závislost na reálných koncentracích je vysoce průkazná (p<0.001) říká jen to, že jsme si velmi jistí, že metoda je lepší než generátor náhodných čísel. Zajímá nás především R2 [a hodnota 0.8 se mi může zdát zatraceně nízká] (a zde hlavně chyba odhadu).

Naproti tomu Prohlášení: Počet druhů je pozitivně závislý na pH půdy (F1,33=12.3, p<0.01) je zajímavé, protože neplatnost nulové hypotézy není zcela evidentní. Ale R2 mě bude zajímat taky (ale spokojím se i s dost nízkým číslem, třeba i 0.2).

Odhaduji výšku pomocí DBH Odhaduji DBH pomocí výšky Prohozením X a Y dostanu logicky různé výsledky (regresní rovnice nejsou inverzními funkcemi). Ale R2, F, a P jsou stejné. Odhaduji výšku pomocí DBH Tj. DBH neávislá, výška závislá Odhaduji DBH pomocí výšky Tj. výška (Y) nezávislá, DBH závislá Minimalizuji Minimalizuji

I jednoduchou regresi počítáme ve Statistice pomocí modulu “Multiple regression”. Do výsledků píšu, že jsem užil jednoduchou regresi!!!

Transformace dat v regresi Pozor - proměnné nejsou stejnocenné Nezávisle proměnná se považuje za přesnou Závisle proměnná je zatížena chybou (a na ni minimalizuji odchylky závisle proměnné od predikce)

Rozlišuj transformací nezávisle proměnné měním tvar závislosti, ale ne rozdělení reziduálů transformací závisle proměnné měním obojí - i tvar, i rozdělení reziduálů

Linearizované regrese Ten první řádek se obvykle maže, druhý do článků často taky, ale dá se do popisu obrázku Nejčastější transformace je logaritmická Když zlogaritmuji nezávisle proměnnou dostávám Y=a+b log(X) Předpoklad - reziduály nebyly závislé na průměru - transformace s nimi nic neudělala. S=a+blog(A)

Závislost je exponenciání Reziduály jsou lineárně závislé na průměru a co nám vyjde v regresi je tedy ln(k), tedy k=ea

Je jedno, jestli užiji ln nebo log Ale pokud chci odhadnout růstovou rychlost, pak se hodí ln Logaritmuji jen závisle proměnnou - a “homogenizuji” reziduály

Oblíbená je mocninná závislost Vždy prochází počátkem - Alometrické závislosti, Species-Area

Užiju buď ln, nebo log Zlinearizuje většinu monotonních závislostí bez inflexního bodu [S=cAz], které procházejí počátkem Logaritmuji obě proměnné, předpokládám, že reziduály byly pozitivně závislé na průměru. Pozor, kdykoliv logaritmuji, pozitivní odchylka od předpovědi se zmenší víc, než negativní.