Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0 přímka je klesající
r > 0 přímka je rostoucí Vztah mezi x a y není lineární ALE Korelaci měřit lze přímku lze proložit vždy
Korelační koeficient r 0 ≤ r ≤ 1 lineární vazba je rostoucí -1 ≤ r ≤ 0 lineární vazba je klesající r ~ ± 1 lineární vztah je velmi těsný lineární vztah mezi proměnnými r ~ 0 není lieární vztah mezi proměnnými. Může být jiná funkční závislost. Pro výpočet korelačního koeficientu nemusíme vědět, která proměnná je závislá a která je nezávislá. Testuje se těsnost lineární vazby: H0: r = 0 H1: r ≠ 0
Lineární regrese. Minimalizuje se součet čtverců odchylek přímky a měření y = a + bx y je závislá na x Předpoklady: x je měřena přesně bez chyb y může být zatížena chybou, má normální rozdělení
→ minimum (vzhledem k a, b) Neboli hledám koeficienty a, b přímky tak, aby součet čtverců odchylek přímky a měření byl minimální hledám regresní přímku. Vlastnosti: a, b jsou náhodné veličiny, mají normální rozdělení regresní přímka prochází průměrnou hodnotou x a y b je sklon (směrnice, slope) přímky, b > 0 přímka je rostoucí, b < 0 přímka je klesající. testuje se H0: b = 0, H1: b ≠ 0 H0: r = 0 H0: není lineární vztah mezi x a y a označuje průsečík s osou y v bodě x = 0 ( a = intercept).
H0: vztah mezi proměnnými NENÍ lineární Odchylka nevysvětlená regresí Odchylka vysvětlená regresí ANOVA: H0: vztah mezi proměnnými NENÍ lineární odchylka vysvětlená / odchylka nevysvětlená je „malé číslo“ (blízké 0) Měří se F – rozdělením s (n-2, n-1) stupni volnosti.
Mezi x a y je lineární vztah H0: data nemají lineární vztah v Anově zamítáme H0: b = 0 v regresní přímce zamítáme H0: r = 0 (korelační koeficient) zamítáme Všechna 3 tvrzení jsou ekvivalentní 95% predikční interval: Pro každou hodnotu x určíme interval, v němž budou s jistotou 95% měření.
95% konfindenční interval (95% interval spolehlivosti): Pro každé x se regresní y vyskytuje v tomto intervalu. Regresní přímka prochází Průměrem, tam je interval nejužší.
Postup. Nevíme, která proměnná je závislá a která nezávislá korelační koeficient Víme, která proměnná je závislá a která nezávislá korelační koeficient, regresní přímka Následující nulové hypotézy jsou ekvivalentní: H0: korelační koeficient je roven 0, H0: mezi proměnnými není LINEÁRNÍ vztah, H0: koeficient b v regresní přímce y = a + bx je roven 0.
Mnohonásobná lineární regrese. Příklad: Byla zjišťována velikost (délka) vejce v závislosti na velikosti (délce) matky a přídavku jódu v potravě: Zobrazení závislosti: Budeme předpokládat lineární závislost Vejce = b0 + b1*matka + b2*jód + chyba
2. Korelace lineární vztah mezi vejcem a dvojicí (matka, jód). Mezi matkou a jódem není průkazná korelace, není LINEÁRNÍ vztah. Mezi jódem a vejcem je průkazná korelace, je lineární vztah. Mezi matkou a vejcem není průkazná korelace, není LINEÁRNÍ vztah. První indicie pro vyloučení matky z modelu.
3. Regrese. Vejce = 0.504 + 0.27*matka + 1.213*jód 10 ≤ matka ≤ 20, 1 ≤ jód ≤ 3, při tom ale 2.7 ≤ 0.27*matka ≤ 5.4, 1.213 ≤ 1.213*matka ≤ 3.639 Regresní koeficienty vyrovnávají jednotky u nezávisle proměnných, nevypovídají o důležitosti proměnných. O důležitosti proměnných vypovídají koeficienty vztažené k standardizovaným nezávisle proměnným, tj. k proměnným transformovaným do (0, 1). Pro matku je tento koeficient 0.5 a pro jód je 0.638 o velikosti vejce více vypovídá množství jódu v potravě.
Postupná lineární regrese. Umožňuje testovat, které z měřených nezávisle proměnných mají průkazný vliv na závisle proměnnou. Tedy které nezávisle proměnné mají vysvětlující vliv a které jsou nadbytečné. Lineární regrese procházející počátkem. Jestliže je velikost matky 0 a přidaný jód tedy také 0, je velikost vejce také 0. V tom případě neodhadujeme absolutní člen regrese. Vejce = 0.297*matka + 1.246*jód Polynomiální regrese. Polynom stupně n má tvar Definujeme: x1 = x, x2 = x2, x3 = x3, …, xn = xn. Pak a jedná se o úlohu lineární regrese.