Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili 7a_korelacni_a_regresni_analyza rozdíl mezi korelační a regresní.

Podobné prezentace


Prezentace na téma: "ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili 7a_korelacni_a_regresni_analyza rozdíl mezi korelační a regresní."— Transkript prezentace:

1 ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili 7a_korelacni_a_regresni_analyza rozdíl mezi korelační a regresní analýzou. Budeme se teď věnovat pouze lineárnímu vztahu dvou veličin, protože je nejjednodušší a velmi často jej lze použít aspoň přibližně. Dále přijmeme předpoklad, že sledované veličiny jsou normální. V dalším textu se budeme zabývat speciálním případem REGRESNÍ ANALÝZY - metodou lineární regrese.

2 Základy lineární regrese Regrese je velmi často užívaná statistická metoda, která se zabývá problémem vysvětlení změn jedné veličiny závislostí na jedné nebo více jiných veličinách. Uvažujme nejjednodušší případ, kdy vysvětlujeme veličinu Y lineární závislostí na jedné veličině X.

3 Lineární regrese Vidíme, že s rostoucí hodnotou veličiny x se zhruba lineárně mění i hodnota Y, body na obrázku kolísají kolem myšlené přímky, kterou bychom mohli naměřenými body proložit. Hodnoty veličiny Y i můžeme vyjádřit jako součet dvou složek: Y i = β 0 + β 1 x i + ε i, kde i = 1,2,…,n (1) β 0, β 1 jsou neznámé koeficienty určující lineární závislost ε i náhodná kolísání způsobená nepřesností měření, biologickou variabilitou a dalšími rušivými faktory Pokud střední hodnoty náhodného kolísání jsou nulové, pak E(ε i ) = 0 a rovnici (1) můžeme přepsat E(Y | X = x i ) = E(Y i ) = β 0 + β 1 x i (2) čili střední hodnoty náhodných veličin Y i za podmínky, že veličina X má hodnotu x i, leží na přímce dané rov. (2).

4 Lineární regrese Rovnice (1) a (2) formulují lineární regresní model jako vyjádření naší představy o závislosti veličiny Y na veličině X. - X je vysvětlující proměnná (regresor) - Y je vysvětlovaná proměnná. Neznámé koeficienty β 0, β 1 jsou parametry regresního modelu a říkáme jim regresní koeficienty. Odhad regresních koeficientů β 0 a β 1 z dat je jednou ze základních úloh regresní analýzy: potřebujeme nalézt takové hodnoty b 0, b 1, které by určovaly přímku Ŷ i = b 0 + b 1 x 1 co nejlépe prokládající naměřená data. Hodnoty b 0, b 1 jsou pak odhady regresních koeficientů β 0, β 1 Ŷ je odhadem E( Y|x = x i ) Co nejlepší proložení může být formulováno různými způsoby, nejčastěji se užívá metoda nejmenších čtverců (MNČ) (viz dále).

5 Lineární regrese - metoda nejmenších čtverců MNČ znamená, že hledáme takové hodnoty b 0 (úsek, který vytíná přímka na ose Y) a b 1 (směrnice přímky), aby součet čtverců odchylek pozorovaných hodnot Y i od hodnot Ŷ i S e byl co nejmenší: Metodu nejmenších čtverců vysvětluje následující obrázek. Řešíme úlohu, jak volit hodnoty b 0 a b 1, aby součet ploch vyznačených čtverců byl co nejmenší.

6 Nulová hypotéza Dokazovaná hypotéza o lineární závislosti obou veličin, jejímž modelem je regresní přímka, stojí proti nulové hypotéze, která říká, že mezi veličinami neexistuje žádný vztah a jejich uspořádání lze vysvětlit pouhou náhodou. Hypotézu nezávislosti veličin H 0 modeluje přímka rovnoběžná s osou x protínající osu y ve střední hodnotě a procházející bodem Pokud bude statistický test významný, zamítáme hypotézu H 0 a přijímáme hypotézu o lineární závislosti obou veličin. Princip testu spočívá v porovnání velikosti regresního a reziduálního rozptylu. Regresní rozptyl je vypočten pomocí vzdáleností od přímky H 0 k regresní přímce, reziduální rozptyl pomocí vzdáleností od regresní přímky k naměřeným hodnotám - viz obrázek.

7 Lineární regrese pro výpočet Reziduálního rozptylu pro výpočet Regresního rozptylu Y – vysvětlovaná proměnná H 0 regresní přímka X - vysvětlující proměnná

8 LINEÁRNÍ REGRESNÍ MODEL - příklad r Francis Galton vytvořil model závislosti výšky prvorozených synů na výšce jejich otců v této práci použil termín REGRESE začal se používat jako název metody Testujeme hypotézu H 0 : výška syna nezávisí na výšce otce proti hypotéze H 1 : výška syna je lineárně závislá na výšce otce cílem je zjistit, zda rozdíly mezi modely je možno vysvětlit pomocí náhody Mějme dva matematické modely (v našem případě dvě přímky): první přímka vyjadřuje nezávislost, je rovnoběžná s osou X (H 0 ) druhou přímku (H 1 ) zkonstruujeme pomocí MNČ tak, aby svislé vzdálenosti pozorovaných hodnot byly od přímky co nejmenší (svislé proto, že za závislou považujeme veličinu Y)

9 Model lineární regrese - vztah výšky otce a syna x y x - nezávisle proměnná y - závisle proměnná i – jednotlivá pozorování 0 reziduum – odchylka od modelu

10 Lineární regrese Co se stane když zaměním x a y ? minimalizujeme otec → syn =otec+zkreslení syn → otec =syn+zkreslení Můžeme předpokládat kauzalitu? Jakou?

11 LINEÁRNÍ REGRESNÍ MODEL Cílem regresního modelu je porovnat rozdíl mezi - modelem hypotetického rozdělení H 0 : výška syna nezávisí na výšce otce - a modelem H A : výška syna je lineárně závislá na výšce otce. H 0 jsme stanovili jako přímku Y = b 0 (b 1 = 0) H A je regresní přímka Y = β 0 + β 1 x i + ε i Součet čtverců odchylek závisle proměnné Y od jejího odhadu můžeme rozdělit na dvě části: 1.variabilitu vysvětlenou regresním modelem (rozdíl mezi H A a H 0 ) 2.a na část, kterou model nevysvětluje, která zbývá, tedy je residuální (rozdíl mezi H A a naměřenými hodnotami - tedy ε) Analogicky jako u analýzy rozptylu bude testovací statistika podíl součtu čtverců odchylek dělených počtem stupňů volnosti.

12 LINEÁRNÍ REGRESNÍ MODEL Testovací statistika se vypočte jako podíl - čtverců očekávaných odchylek H A - H 0 dělený počtem stupňů volnosti -a čtverců reziduálního rozptylu dělený počtem stupňů volnosti. počet stupňů volnosti v čitateli vypočteme jako počet parametrů regresního modelu mínus počet parametrů odhadovaných u H 0 (p - 1) počet stupňů volnosti ve jmenovateli jako počet naměřených hodnot mínus počet parametrů regresního modelu (n - p) n … počet měření p … počet parametrů regresní přímky: p = 2 1 … počet odhadovaných parametrů hypotézy H 0

13 Zobrazení vztahu dvou nezávislých spojitých veličin Dvojice náhodných SPOJITÝCH VELIČIN X a Y. Jejich sdružené rozložení má dvourozměrnou hustotu f(x,y)

14 Sdružená hustota dvou závislých veličin

15 ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN Třírozměrný graf sdružené hustoty(sdruženého rozložení) dvou veličin na předchozím obrázku vyjadřuje závislost obou náhodných veličin. Průmětu jedné veličiny do roviny říkáme marginální hustota. Rozložení jedné veličiny např. X pouze u těch objektů, pro které platí Y = y (druhá veličina = konstantě) je tzv. podmíněném rozložení a můžeme si ho představit jako řez celkovým rozložením v bodu Y = y. Tyto podmíněné funkce hustoty jsou na rozdíl od marginální hustoty obvykle užší a to tím více, čím pevnější je vazba mezi X a Y.


Stáhnout ppt "ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN V dokumentu 7a_korelacni_a_regresni_analyza jsme řešili 7a_korelacni_a_regresni_analyza rozdíl mezi korelační a regresní."

Podobné prezentace


Reklamy Google