Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

kvantitativních znaků
Funkce.
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Analýza variance (Analysis of variance)
Úvod do regresní analýzy
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Exponenciální funkce Körtvelyová Adéla G8..
Kvadratická funkce. Co je to funkce Každému prvku x z definičního oboru je přiřazeno právě jedno číslo y z oboru hodnot x je nezávisle proměnná y je závisle.
Lineární regrese.
Lineární lomená funkce
Regrese Aproximace metodou nejmenších čtverců
Obecný lineární model Fitované hodnoty and regresní residuály
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Lineární regrese kalibrační přímky
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Gradientní metody Metoda největšího spádu (volný extrém)
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
Základy ekonometrie 4EK211
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Hodnoty tP pro různé pravděpodobnosti P
Hodnocení přesnosti měření a vytyčování
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
V experimentu měníme hodnotu jedné nebo několika veličin x i a studujeme závislost veličiny y. - např. měníme, ostatní x i bereme jako parametry ( , ,
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aplikovaná statistika 2. Veronika Svobodová
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
IV..
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Elektronické učební materiály - II. stupeň Matematika Autor: Mgr. Radek Martinák FUNKCE – lineární Co znamená lineární? Jak souvisí lineární funkce s přímou.
Metody zkoumání závislosti numerických proměnných
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Interpolace funkčních závislostí
Homogenita meteorologických pozorování
t-test Počítání t-testu t statistika Měření velikosti efektu
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Parciální korelace Regresní analýza
Lineární funkce a její vlastnosti
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
4. Metoda nejmenších čtverců
Lineární regrese.
Medián, modus Medián Pro medián náhodné veličiny x platí: Modus
Interpolace funkčních závislostí
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Transkript prezentace:

Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0 přímka je klesající

r > 0 přímka je rostoucí Vztah mezi x a y není lineární ALE Korelaci měřit lze  přímku lze proložit vždy

Korelační koeficient r 0 < r ≤ 1  lineární vazba je rostoucí -1 ≤ r < 0  lineární vazba je klesající r ~ ± 1  lineární vztah je velmi těsný  lineární vztah mezi proměnnými r ~ 0  není lieární vztah mezi proměnnými. Může být jiná funkční závislost. Pro výpočet korelačního koeficientu nemusíme vědět, která proměnná je závislá a která je nezávislá. Testuje se těsnost lineární vazby (F – test): H0: r = 0 H1: r ≠ 0

Lineární regrese. Minimalizuje se součet čtverců odchylek přímky a měření y = a + bx y je závislá na x Předpoklady: x je měřena přesně bez chyb y může být zatížena chybou, má normální rozdělení

→ minimum (vzhledem k a, b) Neboli hledám koeficienty a, b přímky tak, aby součet čtverců odchylek přímky a měření byl minimální  hledám regresní přímku. Vlastnosti: a, b jsou náhodné veličiny, mají normální rozdělení regresní přímka prochází průměrnou hodnotou x a y b je sklon (směrnice, slope) přímky, b > 0  přímka je rostoucí, b < 0  přímka je klesající. testuje se H0: b = 0, H1: b ≠ 0  H0: r = 0  H0: není lineární vztah mezi x a y a označuje průsečík s osou y v bodě x = 0 ( a = intercept).

H0: vztah mezi proměnnými NENÍ lineární Odchylka nevysvětlená regresí Odchylka vysvětlená regresí ANOVA: H0: vztah mezi proměnnými NENÍ lineární  odchylka vysvětlená / odchylka nevysvětlená je „malé číslo“ (blízké 0) Měří se F – rozdělením s (n-2, n-1) stupni volnosti.

Mezi x a y je lineární vztah  H0: data nemají lineární vztah v Anově zamítáme H0: b = 0 v regresní přímce zamítáme H0: r = 0 (korelační koeficient) zamítáme Všechna 3 tvrzení jsou ekvivalentní 95% predikční interval: Pro každou hodnotu x určíme interval, v němž budou s jistotou 95% měření.

95% konfindenční interval (95% interval spolehlivosti): Pro každé x se regresní y vyskytuje v tomto intervalu. Regresní přímka prochází Průměrem, tam je interval nejužší.

Postup. Nevíme, která proměnná je závislá a která nezávislá  korelační koeficient Víme, která proměnná je závislá a která nezávislá  korelační koeficient, regresní přímka Následující nulové hypotézy jsou ekvivalentní: H0: korelační koeficient je roven 0, H0: mezi proměnnými není LINEÁRNÍ vztah, H0: koeficient b v regresní přímce y = a + bx je roven 0.

Mnohonásobná lineární regrese. Příklad: Byla zjišťována velikost (délka) vejce v závislosti na velikosti (délce) matky a přídavku jódu v potravě: Zobrazení závislosti: Budeme předpokládat lineární závislost Vejce = b0 + b1*matka + b2*jód + chyba

2. Korelace  lineární vztah mezi vejcem a dvojicí (matka, jód). Mezi matkou a jódem není průkazná korelace, není LINEÁRNÍ vztah. Mezi jódem a vejcem je průkazná korelace, je lineární vztah. Mezi matkou a vejcem není průkazná korelace, není LINEÁRNÍ vztah. První indicie pro vyloučení matky z modelu.

3. Regrese. Vejce = 0.504 + 0.27*matka + 1.213*jód 10 ≤ matka ≤ 20, 1 ≤ jód ≤ 3, při tom ale 2.7 ≤ 0.27*matka ≤ 5.4, 1.213 ≤ 1.213*matka ≤ 3.639 Regresní koeficienty vyrovnávají jednotky u nezávisle proměnných, nevypovídají o důležitosti proměnných. O důležitosti proměnných vypovídají koeficienty vztažené k standardizovaným nezávisle proměnným, tj. k proměnným transformovaným do (0, 1). Pro matku je tento koeficient 0.5 a pro jód je 0.638  o velikosti vejce více vypovídá množství jódu v potravě.

Postupná lineární regrese. Umožňuje testovat, které z měřených nezávisle proměnných mají průkazný vliv na závisle proměnnou. Tedy které nezávisle proměnné mají vysvětlující vliv a které jsou nadbytečné. Lineární regrese procházející počátkem. Jestliže je velikost matky 0 a přidaný jód tedy také 0, je velikost vejce také 0. V tom případě neodhadujeme absolutní člen regrese. Vejce = 0.297*matka + 1.246*jód Polynomiální regrese. Polynom stupně n má tvar Definujeme: x1 = x, x2 = x2, x3 = x3, …, xn = xn. Pak a jedná se o úlohu lineární regrese.

Lineární regrese se používá, protože lineárními transformacemi se zachovává normalita  vypočtené parametry přímky budou mít normální rozdělení  k jejich úplné charakterizaci stačí střední hodnota a variance (S.D.), Minimalizace sumy čtverců odchylek má jednoznačné řešení (jedná se o kvadratickou funkci neznámých parametrů). Proto, pokud je možno používáme lineární vztah, nebo polynomiální (lineární v parametrech polynomu), nebo používáme transformace dat do linearity. Nelineární regrese znamená použití nelineární funkce a tato metoda má nevýhody vyplývající z nelinearity: Nezachovává se normalita, tj. vypočtené parametry křivek nejsou (i když nakonec bývají) popsány pouze střední hodnotou a mírou variability. minimum sumy čtverců odchylek nemusí být jednoznačné minimum se hledá numerickými metodami, tj. postupnými aproximacemi Obecně numerická metoda nemusí v konečném počtu kroků konvergovat ke globálnímu minimu, ale může “zapadnout“ do lokálního extrému. Nicméně pro speciální typy funkcí (logaritmus, exponenciální funkce, …) jsou vyvinuty metody, které úlohu nelineární regrese dostatečně přesně řeší.