Lineární regresní analýza Úvod od problému
Jednoduchá regrese Model jednoduché lineární regrese Metoda nejmenších čtverců Testy významnosti Použití regresní rovnice pro predikci a odhad
Model jednoduché lineární regrese Model lineární regrese y = 0 + 1x + Regresní rovnice E(y) = 0 + 1x Odhad regresní rovnice y = b0 + b1x ^ Poznámka: b0 a b1 jsou odhady parametrů, β0 + β1 b0 a b1 a chceme vypočítat, x a y známe (naše data)
Model jednoduché lineární regrese Grafická podstata metody nejmenších čtverců (MNČ) Matematická podstata MNČ Minimalizace součtu Σ(y - b0 - b1x)2 i Poznámka: řešení se provádí hledáním minima tj. derivací, získáme soustavu dvou rovnic o dvou neznámých b0 a b1 Viz např. http://www.aristoteles.cz/matematika/linearni_algebra/soustavy/cramerovo-pravidlo.php
Mnohonásobná regrese Model mnohonásobné lineární regrese Metoda nejmenších čtverců Mnohonásobný koeficient determinace Předpoklady modelu Testy významnosti Použití regresní rovnice pro predikci a odhad Kvalitativní nezávislé proměnné Analýza reziduálních hodnot
Mnohorozměrná statistická analýza Datová matice X X1 X2 X3 X4 ATD. ANO 204 M 1,2 NE 180 F 4,3 NE 178 F 2,3 NE 187 M 3,8 ANO 192 M 2,6 . ATD.
Něco málo z vektorové algebry Matice Násobení vektorů a matic Transpozice Inverze Derivace součinu vektoru a matice
Model mnohonásobné lineární regrese y = 0 + 1x1 + 2x2 + . . . + pxp + Regresní rovnice E(y) = 0 + 1x1 + 2x2 + . . . + pxp Odhad regresní rovnice y = b0 + b1x1 + b2x2 + . . . + bpxp ^
Metoda nejmenších čtverců Kritérium nejmenších čtverců Výpočet hodnot koeficientů Vzorce pro výpočet koeficientů mají podobu maticových rovnic. Poznámka k interpretaci koeficientů bi jsou odhady změny y odpovídající jednotkové změně v xi , jestliže ostatní nezávislé proměnné udržujeme konstantní. ^
Mnohonásobný koeficient determinace Vztah mezi SST, SSM (SSR), SSE SST = SSM + SSE St.v. n-1 p n-p-1 Mnohonásobný koeficient determinace R 2 = SSM/SST Upravený mnohonásobný koeficient determinace ^ ^
Předpoklady modelu Předpoklady o chybové složce Chyba je náhodná proměnná s nulovou střední hodnotou. Rozptyl chyb , označujeme 2, má být stejný pro všechny hodnoty nezávisle proměnných. Hodnoty jsou nezávislé. Chyba je normálně rozložená náhodná proměnná reflektující odchylky mezi zjištěnou hodnotou y a očekávanou hodnotou y E(y)=0 + 1x1 + 2x2 + . . . + pxp
Testy významnosti: t Test Hypotéza H0: i = 0 Ha: i = 0 Testová statistika Pravidlo zamítnutí Zamítá se H0 jestliže t < -tnebo t > t kde t je založena na t rozložení se stupni volnosti n - p - 1.
Použití regresní rovnice pro predikci a odhad Odhad střední hodnoty závisle proměnné y a predikce individuálních hodnot y je v mnohonásobné regresy stejné jako v jednoduché regresy. Dosadíme dané hodnoty pro x1, x2, . . . , xp do regresní rovnice a po výpočtu použijeme hodnotu y jako bodový odhad střední hodnoty y. Existují vzorce pro výpočet intervalového odhadu střední hodnoty y a predikčního intervalu hodnoty y. V statistických systémech jsou tyto odhady k dispozici. ^
Kvalitativní nezávislé proměnné V mnoha situacích pracujeme také s kvalitativními nezávislými proměnnými jako např. pohlaví, temperament, typ školy atd. Například x2 může reprezentovat pohlaví, kde x2 = 0 indikuje muže a x2 = 1 indikuje ženy. V tomto případě, x2 ise nazývá indikátorová proměnná (dummy variable). Jestliže má kvalitativní proměnná k úrovní, je zapotřebí k - 1 indikátorových proměnných kódovaných jako 0 nebo 1. Například proměnná s úrovněmi A, B, a C se reprezentuje proměnnými x1 a x2 hodnotami (0, 0), (1, 0) nebo (0,1).