Lineární regrese
Regrese a možné zdroje informací Česky: Hebák a kol.(2.díl,1-150), Hendl(237-295,351-385) , Meloun- Militký, Zvára Anglicky: Fox, Draper&Smith, v SPSS: Field, Norušis
4 typy lineární závislosti 2 kardinálních proměnných Silná pozitivní závislost Slabá pozitivní závislost Silná negativní závislost Nulová závislost Prvotní vysvětlení regrese na základě obrázků
4 typy lineární závislosti 2 kardinálních proměnných Silná pozitivní závislost r = 0,97
4 typy lineární závislosti 2 kardinálních proměnných Silná negativní závislost r = - 0,97
4 typy lineární závislosti 2 kardinálních proměnných Slabá pozitivní závislost r = 0,35
4 typy lineární závislosti 2 kardinálních proměnných Nulová závislost r = 0
Exkurz o nelineární závislosti Co to je? Jak dopadne, když užiji lineární model? Proč většinou užíváme lineární model (ignoramus et ignoramibus)
Základní otázky v lineární regresi Lze nalézt lineární vztah mezi proměnnými? Jak velký vliv má nezávisle proměnná X na proměnnou závislou Y? Jak moc ji vysvětluje? Jakou konkrétní hodnotu bude mít závisle proměnná Y, když budeme vědět, jakou hodnotu má proměnná X – dokáže tedy z hodnot nezávisle proměnné predikovat hodnoty závisle proměnné. U více nezávislých proměnných se nabízí i další otázky
Regresní úkol a interpretace parametrů snaha graficky vystihnout závislost a příslušnou regresní křivku vyjádřit rovnicí význam parametrů u lineární regrese-konstanta (b0) - průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné-pozor někdy pro tuto interpretaci není z logického hlediska prostor), regresní koeficient (b1) -sklon křivky (o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku)
Interpretace parametrů v obrázku
!!!Regrese předpoklady!!! regrese předpokládá volbu kombinace vysvětlujících proměnných, které jsou kardinální, nezávislá proměnná může být i dichotomická Nekorelovanost nezávislých proměnných (opak multikolinearita)
Metody odhadu parametrů metoda nejmenších čtverců MNČ (resp. OLS)-napozorované hodnoty prokládáme námi zvolenou křivkou tak, aby součet čtvercových odchylek regresní křivky od napozorovaných hodnot byl minimální (toto kritérium vede k jednoznačnému řešení, pokud bychom pouze chtěli aby součet všech odchylek byl nulový-což je u MNČ mj. také splněno, bylo by takových křivek nekonečně mnoho a jejich kvalita by byla různá - nakreslit !!!) Alternativní – metoda maximální věrohodnosti – hledáme parametry, pro které je největší hodnota věrohodnostní funkce Řešení je v obou případech skrze parciální derivace, tj. lze spočítat v ruce
MNČ graficky
Regrese jednoduchá a vícenásobná Jednoduchá - jedna závisle (vysvětlovaná) proměnná a jedna nezávisle (vysvětlující) Vícenásobná - jedna závisle (vysvětlovaná) proměnná a více nezávislých (vysvětlujících) vždy před použitím analýzy by měla předcházet úvaha o souvislostech, tedy budujeme jen model, který má nějaké teoretické opodstatnění!!! Ideální začít jednoduchou regresí (ideálně skrze graf) a poté pokračovat dále
Jednoduchá regrese v obrázku
Jednoduchá lin. regrese Kardinální závisle i nezávisle proměnná Předpoklad: vztah mezi proměnnými je lineární Příklad v SPSS (graf a regresní křivka): Graphs-Chart builder-Scatter/Dot (Add Fit Line at Total) Doporučení: Vždy před výpočty vizualizovat data
Regrese v SPSS výsledkem procedury v SPSS je regresní rovnice, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů F-test Ho: Model není dobrý (požadujeme Sig<0.05) T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří ((požadujeme Sig<0.05) R2 (R-Square) po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné beta koeficienty aneb posouzení individuálního vlivu proměnných (vlastně regresní koeficienty pokud bychom původní data standardizovali-co je to standardizace? A jaké jsou možnosti standardizace?)
Regrese v SPSS-závislost příjmu na počtu let vzdělání RSquare- po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné
Regrese v SPSS-závislost příjmu na počtu let vzdělání F-test Ho: Model není dobrý H1: Lze ho použít (požadujeme tedy Sig<0.05)
Regrese v SPSS-závislost příjmu na počtu let vzdělání T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) Z hodnot v tabulce lze napsat rovnici: Příjem= 1612 + 624* roky vzdělání Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více
Náš příklad Data byty Závisle proměnná cena bytu Nezávisle proměnná – plocha bytu
Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má má v průměru o 3800 Kč více
Vícenásobná lin. regrese
Vícenásobná regrese Model y = 0 + 1x1 + 2x2 + . . . + pxp + Regresní rovnice pro populaci E(y) = 0 + 1x1 + 2x2 + . . . + pxp Odhad z výběru y = b0 + b1x1 + b2x2 + . . . + bpxp