Lineární regrese
Regrese a možné zdroje informací Česky: Hebák a kol.(2.díl,1-150), Hendl(237-295,351-385) , Meloun-Militký, Zvára
4 typy lineární závislosti 2 kardinálních proměnných Silná pozitivní závislost Slabá pozitivní závislost Silná negativní závislost Nulová závislost Prvotní vysvětlení korelačního koeficientu na základě obrázků
4 typy lineární závislosti 2 kardinálních proměnných Silná pozitivní závislost r = 0,97
4 typy lineární závislosti 2 kardinálních proměnných Silná negativní závislost r = - 0,97
4 typy lineární závislosti 2 kardinálních proměnných Slabá pozitivní závislost r = 0,35
4 typy lineární závislosti 2 kardinálních proměnných Nulová závislost r = 0
Základní otázky v lineární regresi Lze nalézt lineární vztah mezi proměnnými? Jak velký vliv má nezávisle proměnná X na proměnnou závislou Y? Jak moc ji vysvětluje? Jakou konkrétní hodnotu bude mít závisle proměnná Y, když budeme vědět, jakou hodnotu má proměnná X – dokáže tedy z hodnot nezávisle proměnné predikovat hodnoty závisle proměnné. U více nezávislých proměnných se nabízí i další otázky
Regresní úkol a interpretace parametrů snaha graficky vystihnout závislost a příslušnou regresní křivku vyjádřit rovnicí význam parametrů u lineární regrese-konstanta - průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné-pozor někdy pro tuto interpretaci není z logického hlediska prostor), regresní koeficient-sklon křivky (o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku)
!!!Regrese předpoklady!!! normalita závislé i nezávislých proměnných viz např procedura Explore v Analyze-Descriptives (regrese předpokládá volbu kombinace vysvětlujících proměnných normálně rozdělených), nezávislá proměnná může být i dichotomická Nekorelovanost nezávislých proměnných (opak multikolinearita)
Metody odhadu parametrů metoda nejmenších čtverců MNČ (resp. OLS)-napozorované hodnoty prokládáme námi zvolenou křivkou tak, aby součet čtvercových odchylek regresní křivky od napozorovaných hodnot byl minimální (toto kritérium vede k jednoznačnému řešení, pokud bychom pouze chtěli aby součet všech odchylek byl nulový-což je u MNČ mj. také splněno, bylo by takových křivek nekonečně mnoho a jejich kvalita by byla různá - nakreslit !!!)
Regrese jednoduchá a vícenásobná Jednoduchá - jedna závislá (vysvětlovaná) proměnná a jedna nezávislá (vysvětlující) Vícenásobná - jedna závislá (vysvětlovaná) proměnná a více nezávislých (vysvětlujících) vždy před použitím analýzy by měla předcházet úvaha o souvislostech, tedy budujeme jen model, který má nějaké teoretické opodstatnění!!!
Regrese v SPSS výsledkem procedury v SPSS je regresní rovnice, otestování významnosti regresního modelu a jednotlivých parametrů včetně signalizace jednotlivých problémů F-test Ho: Model není dobrý (požadujeme Sig<0.05) T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří ((požadujeme Sig<0.05) R2 (R-Square) po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné
Regrese v SPSS-závislost příjmu na počtu let vzdělání RSquare- po vynásobení stem jde o procento vysvětleného rozptylu závislé proměnné za pomoci nezávislé (nezávislých) proměnné
Regrese v SPSS-závislost příjmu na počtu let vzdělání F-test Ho: Model není dobrý H1: Lze ho použít (požadujeme tedy Sig<0.05)
Regrese v SPSS-závislost příjmu na počtu let vzdělání T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) Z hodnot v tabulce lze napsat rovnici: Příjem= 1612 + 624* roky vzdělání Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více
Regrese v SPSS-závislost příjmu na počtu let vzdělání T-testy pro jednotlivé proměnné Ho: Proměnná do modelu nepatří (požadujeme Sig<0.05) Z hodnot v tabulce lze napsat rovnici: Příjem= 1612 + 624* roky vzdělání Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více
Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má má v průměru o 3800 Kč více
Regrese-umělé proměnné jako vysvětlující proměnné lze použít i nominální či ordinální proměnné převedením na umělé (dummy) proměnné - umělých proměnných je poté o jednu méně než kategorií původní proměnné "vynechaná proměnná" odpovídá kategorii vůči níž se budou ostatní kategorie porovnávat-ukázka na proměnné vzdělání (vytvoříme 3umělé proměnné-SŠ bez, SŠ s mat. a VŠ), tedy vynechaná je ZŠ oproti ní všechny srovnáváme
Regrese a její problémy multikolinearita - závislost mezi vysvětlujícími proměnnými, je téměř vždy přítomná, problémem je škodlivá multikolinearita zejm. perfektní multikolinearita - pak není možno odhadovat regresní parametry metodou nejmenších čtverců měření škodlivé multikolinearity - orientační kritérium alespoň jeden párový korelační koeficient mezi vysvětlujícími proměnnými ve výši 0,8 (existují i rozličné exaktní testy), pro výpočty při existenci škodlivé multikolinearity se užívá tzv. hřebenové regrese