Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0 přímka je klesající
r > 0 přímka je rostoucí Vztah mezi x a y není lineární ALE Korelaci měřit lze přímku lze proložit vždy
Korelační koeficient r 0 < r ≤ 1 lineární vazba je rostoucí -1 ≤ r < 0 lineární vazba je klesající r ~ ± 1 lineární vztah je velmi těsný lineární vztah mezi proměnnými r ~ 0 není lieární vztah mezi proměnnými. Může být jiná funkční závislost. Pro výpočet korelačního koeficientu nemusíme vědět, která proměnná je závislá a která je nezávislá. Testuje se těsnost lineární vazby (F – test): H0: r = 0 H1: r ≠ 0
Lineární regrese. Minimalizuje se součet čtverců odchylek přímky a měření y = a + bx y je závislá na x Předpoklady: x je měřena přesně bez chyb y může být zatížena chybou, má normální rozdělení
→ minimum (vzhledem k a, b) Neboli hledám koeficienty a, b přímky tak, aby součet čtverců odchylek přímky a měření byl minimální hledám regresní přímku. Vlastnosti: a, b jsou náhodné veličiny, mají normální rozdělení regresní přímka prochází průměrnou hodnotou x a y b je sklon (směrnice, slope) přímky, b > 0 přímka je rostoucí, b < 0 přímka je klesající. testuje se H0: b = 0, H1: b ≠ 0 H0: r = 0 H0: není lineární vztah mezi x a y a označuje průsečík s osou y v bodě x = 0 ( a = intercept).
H0: vztah mezi proměnnými NENÍ lineární Odchylka nevysvětlená regresí Odchylka vysvětlená regresí ANOVA: H0: vztah mezi proměnnými NENÍ lineární odchylka vysvětlená / odchylka nevysvětlená je „malé číslo“ (blízké 0) Měří se F – rozdělením s (n-2, n-1) stupni volnosti.
Mezi x a y je lineární vztah H0: data nemají lineární vztah v Anově zamítáme H0: b = 0 v regresní přímce zamítáme H0: r = 0 (korelační koeficient) zamítáme Všechna 3 tvrzení jsou ekvivalentní 95% predikční interval: Pro každou hodnotu x určíme interval, v němž budou s jistotou 95% měření.
95% konfindenční interval (95% interval spolehlivosti): Pro každé x se regresní y vyskytuje v tomto intervalu. Regresní přímka prochází Průměrem, tam je interval nejužší.
Postup. Nevíme, která proměnná je závislá a která nezávislá korelační koeficient Víme, která proměnná je závislá a která nezávislá korelační koeficient, regresní přímka Následující nulové hypotézy jsou ekvivalentní: H0: korelační koeficient je roven 0, H0: mezi proměnnými není LINEÁRNÍ vztah, H0: koeficient b v regresní přímce y = a + bx je roven 0.
Mnohonásobná lineární regrese. Příklad: Byla zjišťována velikost (délka) vejce v závislosti na velikosti (délce) matky a přídavku jódu v potravě: Zobrazení závislosti: Budeme předpokládat lineární závislost Vejce = b0 + b1*matka + b2*jód + chyba
2. Korelace lineární vztah mezi vejcem a dvojicí (matka, jód). Mezi matkou a jódem není průkazná korelace, není LINEÁRNÍ vztah. Mezi jódem a vejcem je průkazná korelace, je lineární vztah. Mezi matkou a vejcem není průkazná korelace, není LINEÁRNÍ vztah. První indicie pro vyloučení matky z modelu.
3. Regrese. Vejce = 0.504 + 0.27*matka + 1.213*jód 10 ≤ matka ≤ 20, 1 ≤ jód ≤ 3, při tom ale 2.7 ≤ 0.27*matka ≤ 5.4, 1.213 ≤ 1.213*matka ≤ 3.639 Regresní koeficienty vyrovnávají jednotky u nezávisle proměnných, nevypovídají o důležitosti proměnných. O důležitosti proměnných vypovídají koeficienty vztažené k standardizovaným nezávisle proměnným, tj. k proměnným transformovaným do (0, 1). Pro matku je tento koeficient 0.5 a pro jód je 0.638 o velikosti vejce více vypovídá množství jódu v potravě.
Postupná lineární regrese. Umožňuje testovat, které z měřených nezávisle proměnných mají průkazný vliv na závisle proměnnou. Tedy které nezávisle proměnné mají vysvětlující vliv a které jsou nadbytečné. Lineární regrese procházející počátkem. Jestliže je velikost matky 0 a přidaný jód tedy také 0, je velikost vejce také 0. V tom případě neodhadujeme absolutní člen regrese. Vejce = 0.297*matka + 1.246*jód Polynomiální regrese. Polynom stupně n má tvar Definujeme: x1 = x, x2 = x2, x3 = x3, …, xn = xn. Pak a jedná se o úlohu lineární regrese.
Lineární regrese se používá, protože lineárními transformacemi se zachovává normalita vypočtené parametry přímky budou mít normální rozdělení k jejich úplné charakterizaci stačí střední hodnota a variance (S.D.), Minimalizace sumy čtverců odchylek má jednoznačné řešení (jedná se o kvadratickou funkci neznámých parametrů). Proto, pokud je možno používáme lineární vztah, nebo polynomiální (lineární v parametrech polynomu), nebo používáme transformace dat do linearity. Nelineární regrese znamená použití nelineární funkce a tato metoda má nevýhody vyplývající z nelinearity: Nezachovává se normalita, tj. vypočtené parametry křivek nejsou (i když nakonec bývají) popsány pouze střední hodnotou a mírou variability. minimum sumy čtverců odchylek nemusí být jednoznačné minimum se hledá numerickými metodami, tj. postupnými aproximacemi Obecně numerická metoda nemusí v konečném počtu kroků konvergovat ke globálnímu minimu, ale může “zapadnout“ do lokálního extrému. Nicméně pro speciální typy funkcí (logaritmus, exponenciální funkce, …) jsou vyvinuty metody, které úlohu nelineární regrese dostatečně přesně řeší.