Metody zkoumání závislosti numerických proměnných pevná (funkční) změně jednoho znaku jednoznačně odpovídá změna druhého znaku (podle nějakého funkčního vztahu) (matematika, fyzika ... statistická (volná) změnám jedné veličiny odpovídají změny druhé veličiny tak, že určité hodnotě jednoho znaku může odpovídat více hodnot znaku druhého, což je způsobeno tím, že současně působí i řada náhodných vlivů statistická (volná) závislost vyjadřuje obecnou tendenci změn - nejčastěji závislost jednostranná jeden znak vystupuje jako příčina (nezávisle proměnná) .. x a druhý znak jako následek (závisle proměnná) značíme y
grafické zobrazení závislosti dvou proměnných - bodový diagram z bodového diagramu můžeme posoudit průběh závislosti - lineární, nelineární kladná, záporná sílu této závislosti - tj. stupeň kolísání hodnot kolem čáry vyjadřující průběh závislosti
Regresní analýza popisujeme průběh statistické závislosti odhadujeme hodnoty závisle proměnné Y odpovídající dané hodnotě jedné nebo více nezávisle proměnných Xi. jednoduchá (párová) RA: Y... závisle proměnná (vysvětlovaná proměnná) X.. nezávisle proměnná (vysvětlující proměnná) vícerozměrná RA: Y. závisle proměnná (vysvětlovaná proměnná) ...nezávisle proměnné (vysvětlující proměnné)
Postup (kroky) RA: 1. volba typu regresní funkce (nalezení regresního modelu) 2. odhad parametrů regresního modelu 3. testování hypotéz o těchto parametrech (ověření významnosti parametrů regresního modelu) 4. ověření vhodnosti zvoleného regresního modelu (posouzení kvality regresního modelu).
Jednoduchá (párová) regresní analýza Volba typu regresní funkce (nalezení regresního modelu) úkolem je nalézt vhodnou analytickou funkci, která nejlépe vystihne průběh závislosti závisle proměnné Y na nezávisle proměnné X vhodnou analytickou funkci volíme na základě: věcně-logického rozboru zkoumaných závislostí grafického znázornění pomocí MS kriterií "princip parsimonie"
Odhad parametrů regresního modelu TEORETICKÝ REGRESNÍ MODEL ZS.... teoretická (hypotetická) regresní funkce jsou neznámé regresní parametry
VS... výběrová (empirická) regresní funkce - je odhadem regresní funkce závislosti v ZS výběrové regresní koeficienty (odhady regresních parametrů i ei reziduum (je odhadem náhodné složky) Předpoklady o náhodné složce Rozdělení náhodných složek je normální kovariance všech dvojic náhodné složky jsou nulové
regresní funkce lineární v parametrech – parametry odvozujeme metodou nejmenších čtverců MNČ PŘÍKLADY přímka parabola hyperbola log.funkce funkce nelineární v parametrech – nelze použít přímo MNČ
teoretická regresní přímka základní metoda k odvození parametrů lineárních regresních modelů: Metoda nejmenších čtverců (MNČ) Lineární funkce - přímka (přímková regrese) teoretická regresní přímka výběrová regresní přímka Cílem je najít přímku, která nejlépe popisuje průběh závislosti, tj. přímku, která je zjištěným hodnotám nejblíže
správně zvolená funkce špatně zvolená funkce
MNČ Úkolem je najít hodnoty parametrů přímky Minimalizujeme reziduální součet čtverců S
Řešením soustavy dvou rovnic dostaneme odhady parametrů přímky = výběrový regresní koeficient je bodový odhad parametru 1 teoretické regresní přímky, tj. směrnice teoretické regresní přímky) je směrnicí výběrové regresní přímky vyjadřuje průměrnou změnu závisle proměnné Y při jednotkové změně nezávisle proměnné X
Výpočet parametrů z neuspořádaných údajů xi yi xi 2 yi 2 xi yi x1 y1 x1 2 y1 2 x1 y1 x2 y2 x2 2 y2 2 x2 y2 .. xn yn xn 2 yn 2 xn yn xi yi xi 2 yi 2 xi yi
Příklad: Sledujeme závislost spotřeby vody na počtu členů u souboru17 domácnosti xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840 50 1924 176 258334 6534
byx = 30,24 vyjadřuje průměrnou změnu závisle proměnné y při jednotkové změně nezávisle proměnné x
Testy hypotéz o parametrech regresní funkce Individuální t-testy Testové kritérium pro přímku kritický obor Interpretace v případě přímkové regrese: Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že střední hodnota vysvětlované proměnné y se změní o konstantu při jednotkové změně vysvětlující proměnné x. Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že regresní přímka prochází počátkem (nulou).
Výstup EXCEL Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 24,24 18,35 1,32 0,21 Soubor X 30,24 5,70 5,30 0,00 Výstup SAS Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 24.23577 18.34863 1.32 0.2063 b 30.23984 5.70258 5.30 <.0001
Regresní odhady Výběrové regresní koeficienty bi jsou bodové odhady teoretických regresních parametrů i Regresním odhadem chápeme výpočet hodnoty závisle proměnné y odpovídající určité hodnotě nezávisle proměnné x (tzn. dosadíme hodnotu x do vypočtené výběrové regresní funkce). Např. v našem příkladě odhad průměrné spotřeby domácnosti, která má 3 členy, získáme dosazením x = 3 do vypočtené regresní rovnice
Odhady parametrů regresní funkce Můžeme vypočítat i intervalové odhady regresních parametrů i , které jsou konstruovány kolem vypočtených bodových odhadů parametrů (oboustranné intervaly spolehlivosti) intervalový odhad pro všechny hodnoty výběrové regresní funkce, tj pro jednotlivé body Interval kolem vypočítané regresní funkce tvoří tzv. pás spolehlivosti, který není ve všech bodech stejně široký (nejužší je v bodě, který má souřadnice ( )
Predikce v regresi Je odhad hodnoty závisle proměnné y pro hodnotu nezávisle proměnné x, která není z oboru hodnot, z nichž byla regresní funkce spočítána. Např. odhad spotřeby domácnosti, která by měla 8 členů vypočítáme Predikční Intervalové odhady opět tvoří pás spolehlivosti kolem regresní funkce, který je ale širší než pás spolehlivosti pro intervalové odhady hodnot ležících na regresní funkci.
Posouzení kvality regresní funkce regresní funkce je tím vhodnější, čím jsou napozorované hodnoty více soustředěny kolem regresní čáry. - empirické (zjištěné) hodnoty závisle proměnné - vyrovnané hodnoty (hodnoty ležící na regresní čáře) - celkový součet čtverců (charakterizuje celkovou variabilitu) teoretický součet čtverců charakterizuje část variability závisle proměnné y zachycenou (vysvětlenou) regresní funkcí reziduální součet čtverců charakterizuje část variability závisle proměnné y, kterou nelze vysvětlit regresní funkcí platí
Celkový F - test Testové kriterium kritický obor
Míra těsnosti závislosti je index determinace, index determinace vyjádřený v % udává, jakou část rozptylu závisle proměnné y lze vysvětlit zvolenou regresní funkcí. Pokud se blíží hodnota jedné, lze usuzovat, že byla použita vhodná regresní funkce a že mezi y a x existuje silná závislost. Pokud se blíží hodnota nule, pak usuzujeme, buď že byla použita nevhodná regresní funkce nebo že mezi y a x existuje jen slabá závislost.
Pro posouzení, která funkce je vhodnější se používá upravený index determinace (R-sq. Adjusted)
ANOVA Rozdíl SS MS F Významnost F 1 26465,19 28,12 8,856E-05 15 V našem příkladě ANOVA Rozdíl SS MS F Významnost F Regrese 1 26465,19 28,12 8,856E-05 Rezidua 15 14117,28 941,15 Celkem 16 40582,47 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 26465 28.12 <.0001 Error 15 14117 941.151 Corrected Total 16 40582
Odhady parametrů regresních funkcí nelineárních v parametrech Příklady: Y = 0 1 x exponenciální funkce Y = 0 x 1 mocninná funkce (Cobb-Douglassova produkční funkce) Törnquistova křivka nelze použít MNČ k odhadu parametrů regresní funkce Postup odhadu parametrů: 1. Najdeme vhodný tzv. počáteční odhad 2. ten postupně zlepšujeme iteračními postupy tak dlouho, až dostaneme odhad s požadovanou přesností
ad 1. Metody počátečních odhadů: linearizující transformace metoda apriorní informace metoda vybraných bodů metoda linearizující transformace model s nelineární regresní funkcí převedeme transformací na model lineární a odhady jeho parametrů získáme MNČ metoda apriorní informace jako počáteční odhady použijeme hodnoty parametrů doporučované teorií nebo hodnoty známé z předchozího šetření (výpočtu) metoda vybraných bodů vybereme tolik bodů, kolik parametrů má zvolená regresní funkce. Souřadnice těchto bodů dosadíme do rovnice regresní funkce. Získáme soustavu nelineárních rovnic, jejichž řešením jsou hledané počáteční odhady parametrů.
Ad 2. Metody postupného zlepšování počátečních odhadů iterační postupy: např. Gauss-Newtonův, Marquardtův apod. Princip: v každém kroku se počítá součet čtverců reziduí postup končí, když Si - Si-1 <
Odmocnina z indexu determinace je korelační koeficient Korelační analýza Odmocnina z indexu determinace je korelační koeficient
Korelační koeficient měří sílu (těsnost) lineární závislosti dvou proměnných Korelační koeficient je definován jako poměr kovariance a součinu směrodatných odchylek obou proměnných Kovariance kovariance může nabývat kladných i záporných hodnot a její znaménko určuje směr závislosti Korelační koeficient
znaménko korelačního koeficientu vyjadřuje směr lineární závislosti Výpočetní tvar korelačního koeficientu
Testy hypotéz o korelačním koeficientu Vysoká hodnota výběrového korelačního koeficientu nemusí ještě znamenat silnou závislost v ZS, neboť může být zkreslena v důsledku náhodnosti výběru, zejména v případě malých výběrů. Významnost výběrového korelačního koeficientu ověřujeme testem nezávislosti testové kriterium kritický obor
ryx = 0,3 n = 11 t0,975 [9] = 2,26 n = 51 t0,975 [49] = 2,01 Příklad: b) t0,975 [49] = 2,01
Příklad: 17 domácností i xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840 50 1924 176 258334 6534
(Počet stupňů volnosti) Výpočty v EXELU- pozor české překlady pojmů nejsou srozumitelné Regresní statistika Násobné R 0,8075 Korelační koeficient Hodnota spolehlivosti R 0,6521 Index determinace Nastavená hodnota spolehlivosti R 0,6289 Upravený index determinace Chyba stř. hodnoty 30,6781 Směr. chyba odhadu Pozorování 17 ANOVA (Počet stupňů volnosti) Rozdíl !!!! Součet čtverců SS Průměrné čtverce MS F Významnost Regrese 1 26465,19 26465,2 28,12 0,00008 Rezidua 15 14117,27 941,152 Celkem 16 40582,47 koeficienty t Stat Hodnota P Hranice(abs. člen) 24,235 18,3486 1,3208 0,2063 Soubor X 1 30,239 5,7025 5,3028
Test o nezávislosti pořadovou korelací použití: 2 kvantitativní (číselné) pořadové znaky 2 kvantitativní (číselné) znaky převedeme na pořadové vhodné při malém n pro rychlou orientaci o existenci závislosti H0 : mezi znaky X a Y neexistuje pořadová závislost (tzn. jsou nezávislé) H1 : existuje pořadová závislost nebo H1 : existuje kladná pořadová závislost (shoda pořadí) H1 : existuje záporná pořadová závislost (neshoda pořadí)
Spearmannův koeficient pořadové korelace -1 rS 1 ix pořadí hodnot x iy pořadí hodnot y testové kriterium t (n -2)
H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost Příklad : Ověřte na 5% - ní hladině významnosti shodu názorů odborné poroty a diváků při volbě MISS. Do finále postoupilo 12 adeptek. H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost H1 : non H0 H1 : existuje shoda pořadí poroty a diváků
jméno umístění u poroty body u diváků pořadí u diváků výpočty ix - iy (ix - iy )2 Andrea 4 93 3 1 Blanka 5 119 7 -2 Eva 12 110 6 36 Jana 2 87 Magda 99 -1 Petra 10 176 Romana 150 -3 9 Simona 11 144 Tereza 125 8 Věra 101 -4 16 Yveta 92 Zuzana 170 x 102
Vícenásobná lineární regresní a korelační analýza Vysvětlující proměnné Teoretická regresní funkce Empirická regresní funkce Nejjednodušší případ – trojnásobná regrese Regresní rovina
Dílčí regresní koeficienty představuje průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné xi umístěné před tečkou za předpokladu, že proměnná xj za tečkou je konstantní.
Vícenásobná korelace (případ 2 vysvětlujících proměnných) párové korelační koeficienty (měří závislost dvou proměnných) dílčí (parciální) koeficienty korelace - měří těsnost závisle proměnné Y na jedné vysvětlující proměnné za předpokladu, že vliv druhé vysvětlující proměnné konstantní vícenásobný korelační koeficient - měří těsnost závislosti mezi vysvětlující proměnnou a všemi vysvětlujícími proměnnými umístěnými za tečkou (tj. sílu společného působení všech vysvětlujících proměnných)
vícenásobný koeficient determinace – je podíl variability závisle proměnné y, který můžeme vysvětlit společným působením vysvětlujících proměnných Obecně platí:
Multikolinearita je lineární závislost mezi vysvětlujícími proměnnými multikolinearita způsobuje, že odhady regresních koeficientů mohou být nepřesné škodlivá multikolinearita - pokud některé párové korelační koeficienty mezi vysvětlujícími proměnnými > 0,8. odstranění multikolinearity nezařazujeme silně korelované vysvětlující proměnné společně do vícenásobného vztahu
metody volby vhodné podmnožiny vysvětlujících proměnných metoda postupného přidávání vysvětlujících proměnných metoda postupného vyřazování metoda stupňovité regrese (STEPWISE)
metoda postupného přidávání vysvětlujících proměnných 1. zařadíme tu vysvětlující proměnnou xi , která má nejvyšší párový korelační koeficient se závisle proměnnou y 2. jako další zařadíme proměnnou xj, která má vysoký párový korelační koeficient se závisle proměnnou y, ale současně není silně závislá s již zařazenou proměnnou xi 3. postup se opakuje tak dlouho, dokud přínos některé další proměnné je významný (tzn. dokud přidání další proměnné významně zvýší % vysvětleného rozptylu proměnné y) (R-sq.) (v případě práce na PC ověřujeme významnost přidání dalších proměnných, tj. zvýšení % vysvětleného rozptylu proměnné y, tzv. dílčími F-testy)
x1 x2 x3 x4 x5 y Příklad matice párových korelačních koeficientů 0,56 0,82 0,14 0,73 0,47 1,00 0,15 0,60 0,20 0,30 0,81 0,85 0,21 0,05 0,22 0,46 y - x2 , x1 , x5 , y - x4 , x1, x5 , x3