Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Metody zkoumání závislosti numerických proměnných

Podobné prezentace


Prezentace na téma: "Metody zkoumání závislosti numerických proměnných"— Transkript prezentace:

1 Metody zkoumání závislosti numerických proměnných
 pevná (funkční) změně jednoho znaku jednoznačně odpovídá změna druhého znaku (podle nějakého funkčního vztahu) (matematika, fyzika ...  statistická (volná) změnám jedné veličiny odpovídají změny druhé veličiny tak, že určité hodnotě jednoho znaku může odpovídat více hodnot znaku druhého, což je způsobeno tím, že současně působí i řada náhodných vlivů statistická (volná) závislost vyjadřuje obecnou tendenci změn - nejčastěji závislost jednostranná jeden znak vystupuje jako příčina (nezávisle proměnná) .. x a druhý znak jako následek (závisle proměnná) značíme y

2 grafické zobrazení závislosti dvou proměnných - bodový diagram
z bodového diagramu můžeme posoudit  průběh závislosti - lineární, nelineární kladná, záporná  sílu této závislosti - tj. stupeň kolísání hodnot kolem čáry vyjadřující průběh závislosti

3 Regresní analýza  popisujeme průběh statistické závislosti
 odhadujeme hodnoty závisle proměnné Y odpovídající dané hodnotě jedné nebo více nezávisle proměnných Xi. jednoduchá (párová) RA: Y... závisle proměnná (vysvětlovaná proměnná) X.. nezávisle proměnná (vysvětlující proměnná) vícerozměrná RA: Y závisle proměnná (vysvětlovaná proměnná) ...nezávisle proměnné (vysvětlující proměnné)

4 Postup (kroky) RA: 1. volba typu regresní funkce (nalezení regresního modelu) 2. odhad parametrů regresního modelu 3. testování hypotéz o těchto parametrech (ověření významnosti parametrů regresního modelu) 4. ověření vhodnosti zvoleného regresního modelu (posouzení kvality regresního modelu).

5 Jednoduchá (párová) regresní analýza
Volba typu regresní funkce (nalezení regresního modelu) úkolem je nalézt vhodnou analytickou funkci, která nejlépe vystihne průběh závislosti závisle proměnné Y na nezávisle proměnné X vhodnou analytickou funkci volíme na základě:  věcně-logického rozboru zkoumaných závislostí  grafického znázornění pomocí MS kriterií "princip parsimonie"

6 Odhad parametrů regresního modelu
TEORETICKÝ REGRESNÍ MODEL ZS.... teoretická (hypotetická) regresní funkce jsou neznámé regresní parametry

7 VS... výběrová (empirická) regresní funkce -
je odhadem regresní funkce závislosti v ZS výběrové regresní koeficienty (odhady regresních parametrů i ei reziduum (je odhadem náhodné složky) Předpoklady o náhodné složce Rozdělení náhodných složek je normální kovariance všech dvojic náhodné složky jsou nulové

8  regresní funkce lineární v parametrech – parametry odvozujeme metodou nejmenších čtverců MNČ
PŘÍKLADY přímka parabola hyperbola log.funkce  funkce nelineární v parametrech – nelze použít přímo MNČ

9 teoretická regresní přímka
základní metoda k odvození parametrů lineárních regresních modelů: Metoda nejmenších čtverců (MNČ) Lineární funkce - přímka (přímková regrese) teoretická regresní přímka výběrová regresní přímka Cílem je najít přímku, která nejlépe popisuje průběh závislosti, tj. přímku, která je zjištěným hodnotám nejblíže

10 správně zvolená funkce
špatně zvolená funkce

11 MNČ Úkolem je najít hodnoty parametrů přímky Minimalizujeme reziduální součet čtverců S

12 Řešením soustavy dvou rovnic dostaneme odhady parametrů přímky
= výběrový regresní koeficient je bodový odhad parametru 1 teoretické regresní přímky, tj. směrnice teoretické regresní přímky)  je směrnicí výběrové regresní přímky vyjadřuje průměrnou změnu závisle proměnné Y při jednotkové změně nezávisle proměnné X

13 Výpočet parametrů z neuspořádaných údajů
xi yi xi 2 yi 2 xi yi x1 y1 x1 2 y1 2 x1 y1 x2 y2 x2 2 y2 2 x2 y2 .. xn yn xn 2 yn 2 xn yn  xi  yi  xi 2  yi 2  xi yi

14 Příklad: Sledujeme závislost spotřeby vody na počtu členů u souboru17 domácnosti
xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840 50 1924 176 258334 6534

15 byx = 30,24 vyjadřuje průměrnou změnu závisle proměnné y při jednotkové změně nezávisle proměnné x

16 Testy hypotéz o parametrech regresní funkce
Individuální t-testy Testové kritérium pro přímku kritický obor Interpretace v případě přímkové regrese:  Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že střední hodnota vysvětlované proměnné y se změní o konstantu při jednotkové změně vysvětlující proměnné x.  Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že regresní přímka prochází počátkem (nulou).

17 Výstup EXCEL Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice
Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 24,24 18,35 1,32 0,21 Soubor X 30,24 5,70 5,30 0,00 Výstup SAS Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 1.32 0.2063 b 5.30 <.0001

18 Regresní odhady Výběrové regresní koeficienty bi jsou bodové odhady
teoretických regresních parametrů  i Regresním odhadem chápeme výpočet hodnoty závisle proměnné y odpovídající určité hodnotě nezávisle proměnné x (tzn. dosadíme hodnotu x do vypočtené výběrové regresní funkce). Např. v našem příkladě odhad průměrné spotřeby domácnosti, která má 3 členy, získáme dosazením x = 3 do vypočtené regresní rovnice

19 Odhady parametrů regresní funkce
Můžeme vypočítat i intervalové odhady regresních parametrů i , které jsou konstruovány kolem vypočtených bodových odhadů parametrů (oboustranné intervaly spolehlivosti) intervalový odhad pro všechny hodnoty výběrové regresní funkce, tj pro jednotlivé body Interval kolem vypočítané regresní funkce tvoří tzv. pás spolehlivosti, který není ve všech bodech stejně široký (nejužší je v bodě, který má souřadnice ( )

20 Predikce v regresi Je odhad hodnoty závisle proměnné y pro hodnotu nezávisle proměnné x, která není z oboru hodnot, z nichž byla regresní funkce spočítána. Např. odhad spotřeby domácnosti, která by měla 8 členů vypočítáme Predikční Intervalové odhady opět tvoří pás spolehlivosti kolem regresní funkce, který je ale širší než pás spolehlivosti pro intervalové odhady hodnot ležících na regresní funkci.

21 Posouzení kvality regresní funkce
regresní funkce je tím vhodnější, čím jsou napozorované hodnoty více soustředěny kolem regresní čáry. - empirické (zjištěné) hodnoty závisle proměnné - vyrovnané hodnoty (hodnoty ležící na regresní čáře) - celkový součet čtverců (charakterizuje celkovou variabilitu) teoretický součet čtverců charakterizuje část variability závisle proměnné y zachycenou (vysvětlenou) regresní funkcí reziduální součet čtverců charakterizuje část variability závisle proměnné y, kterou nelze vysvětlit regresní funkcí platí

22 Celkový F - test Testové kriterium kritický obor

23 Míra těsnosti závislosti je index determinace,
index determinace vyjádřený v % udává, jakou část rozptylu závisle proměnné y lze vysvětlit zvolenou regresní funkcí. Pokud se blíží hodnota jedné, lze usuzovat, že byla použita vhodná regresní funkce a že mezi y a x existuje silná závislost. Pokud se blíží hodnota nule, pak usuzujeme, buď že byla použita nevhodná regresní funkce nebo že mezi y a x existuje jen slabá závislost.

24 Pro posouzení, která funkce je vhodnější se používá upravený index determinace (R-sq. Adjusted)

25 ANOVA Rozdíl SS MS F Významnost F 1 26465,19 28,12 8,856E-05 15
V našem příkladě ANOVA Rozdíl SS MS F Významnost F Regrese 1 26465,19 28,12 8,856E-05 Rezidua 15 14117,28 941,15 Celkem 16 40582,47 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 26465 28.12 <.0001 Error 15 14117 Corrected Total 16 40582

26 Odhady parametrů regresních funkcí nelineárních v parametrech
Příklady: Y = 0 1 x exponenciální funkce Y =  0 x 1 mocninná funkce (Cobb-Douglassova produkční funkce) Törnquistova křivka  nelze použít MNČ k odhadu parametrů regresní funkce  Postup odhadu parametrů: 1. Najdeme vhodný tzv. počáteční odhad 2. ten postupně zlepšujeme iteračními postupy tak dlouho, až dostaneme odhad s požadovanou přesností

27 ad 1. Metody počátečních odhadů:  linearizující transformace
 metoda apriorní informace  metoda vybraných bodů metoda linearizující transformace model s nelineární regresní funkcí převedeme transformací na model lineární a odhady jeho parametrů získáme MNČ metoda apriorní informace jako počáteční odhady použijeme hodnoty parametrů doporučované teorií nebo hodnoty známé z předchozího šetření (výpočtu) metoda vybraných bodů vybereme tolik bodů, kolik parametrů má zvolená regresní funkce. Souřadnice těchto bodů dosadí­me do rovnice regresní funkce. Získáme soustavu nelineárních rovnic, jejichž řešením jsou hledané počáteční odhady parametrů.

28 Ad 2. Metody postupného zlepšování počátečních odhadů
iterační postupy: např. Gauss-Newtonův, Marquardtův apod. Princip: v každém kroku se počítá součet čtverců reziduí postup končí, když Si - Si-1 < 

29 Odmocnina z indexu determinace je korelační koeficient
Korelační analýza Odmocnina z indexu determinace je korelační koeficient

30 Korelační koeficient měří sílu (těsnost) lineární
závislosti dvou proměnných Korelační koeficient je definován jako poměr kovariance a součinu směrodatných odchylek obou proměnných Kovariance kovariance může nabývat kladných i záporných hodnot a její znaménko určuje směr závislosti Korelační koeficient

31 znaménko korelačního koeficientu vyjadřuje směr lineární závislosti
Výpočetní tvar korelačního koeficientu

32 Testy hypotéz o korelačním koeficientu
Vysoká hodnota výběrového korelačního koeficientu nemusí ještě znamenat silnou závislost v ZS, neboť může být zkreslena v důsledku náhodnosti výběru, zejména v případě malých výběrů. Významnost výběrového korelačního koeficientu ověřujeme testem nezávislosti testové kriterium kritický obor

33 ryx = 0,3 n = 11 t0,975 [9] = 2,26 n = 51 t0,975 [49] = 2,01 Příklad:
b) t0,975 [49] = 2,01

34 Příklad: 17 domácností i xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840 50 1924 176 258334 6534

35 (Počet stupňů volnosti)
Výpočty v EXELU- pozor české překlady pojmů nejsou srozumitelné Regresní statistika Násobné R 0,8075 Korelační koeficient Hodnota spolehlivosti R 0,6521 Index determinace Nastavená hodnota spolehlivosti R 0,6289 Upravený index determinace Chyba stř. hodnoty 30,6781 Směr. chyba odhadu Pozorování 17 ANOVA (Počet stupňů volnosti) Rozdíl !!!! Součet čtverců SS Průměrné čtverce MS F Významnost Regrese 1 26465,19 26465,2 28,12 0,00008 Rezidua 15 14117,27 941,152 Celkem 16 40582,47 koeficienty t Stat Hodnota P Hranice(abs. člen) 24,235 18,3486 1,3208 0,2063 Soubor X 1 30,239 5,7025 5,3028

36 Test o nezávislosti pořadovou korelací
použití:  2 kvantitativní (číselné) pořadové znaky  2 kvantitativní (číselné) znaky převedeme na pořadové vhodné při malém n pro rychlou orientaci o existenci závislosti H0 : mezi znaky X a Y neexistuje pořadová závislost (tzn jsou nezávislé) H1 : existuje pořadová závislost nebo H1 : existuje kladná pořadová závislost (shoda pořadí) H1 : existuje záporná pořadová závislost (neshoda pořadí)

37 Spearmannův koeficient pořadové korelace
 -1  rS  1  ix pořadí hodnot x iy pořadí hodnot y testové kriterium t (n -2)

38 H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost
Příklad : Ověřte na 5% - ní hladině významnosti shodu názorů odborné poroty a diváků při volbě MISS. Do finále postoupilo 12 adeptek. H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost H1 : non H0 H1 : existuje shoda pořadí poroty a diváků

39 jméno umístění u poroty body u diváků pořadí u diváků výpočty ix - iy (ix - iy )2 Andrea 4 93 3 1 Blanka 5 119 7 -2 Eva 12 110 6 36 Jana 2 87 Magda 99 -1 Petra 10 176 Romana 150 -3 9 Simona 11 144 Tereza 125 8 Věra 101 -4 16 Yveta 92 Zuzana 170 x 102

40

41 Vícenásobná lineární regresní a korelační analýza
Vysvětlující proměnné Teoretická regresní funkce Empirická regresní funkce Nejjednodušší případ – trojnásobná regrese Regresní rovina

42 Dílčí regresní koeficienty
představuje průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné xi umístěné před tečkou za předpokladu, že proměnná xj za tečkou je konstantní.

43 Vícenásobná korelace (případ 2 vysvětlujících proměnných)
párové korelační koeficienty (měří závislost dvou proměnných) dílčí (parciální) koeficienty korelace - měří těsnost závisle proměnné Y na jedné vysvětlující proměnné za předpokladu, že vliv druhé vysvětlující proměnné konstantní vícenásobný korelační koeficient - měří těsnost závislosti mezi vysvětlující proměnnou a všemi vysvětlujícími proměnnými umístěnými za tečkou (tj. sílu společného působení všech vysvětlujících proměnných)

44 vícenásobný koeficient determinace –
je podíl variability závisle proměnné y, který můžeme vysvětlit společným působením vysvětlujících proměnných Obecně platí:

45 Multikolinearita je lineární závislost mezi vysvětlujícími proměnnými
multikolinearita způsobuje, že odhady regresních koeficientů mohou být nepřesné škodlivá multikolinearita - pokud některé párové korelační koeficienty mezi vysvětlujícími proměnnými > 0,8. odstranění multikolinearity nezařazujeme silně korelované vysvětlující proměnné společně do vícenásobného vztahu

46 metody volby vhodné podmnožiny vysvětlujících proměnných
metoda postupného přidávání vysvětlujících proměnných metoda postupného vyřazování metoda stupňovité regrese (STEPWISE)

47 metoda postupného přidávání vysvětlujících proměnných
1. zařadíme tu vysvětlující proměnnou xi , která má nejvyšší párový korelační koeficient se závisle proměnnou y 2. jako další zařadíme proměnnou xj, která má vysoký párový korelační koeficient se závisle proměnnou y, ale současně není silně závislá s již zařazenou proměnnou xi 3. postup se opakuje tak dlouho, dokud přínos některé další proměnné je významný (tzn. dokud přidání další proměnné významně zvýší % vysvětleného rozptylu proměnné y) (R-sq.) (v případě práce na PC ověřujeme významnost přidání dalších proměnných, tj. zvýšení % vysvětleného rozptylu proměnné y, tzv. dílčími F-testy)

48 x1 x2 x3 x4 x5 y Příklad matice párových korelačních koeficientů 0,56
0,82 0,14 0,73 0,47 1,00 0,15 0,60 0,20 0,30 0,81 0,85 0,21 0,05 0,22 0,46 y - x2 , x1 , x5 , y - x4 , x1, x5 , x3


Stáhnout ppt "Metody zkoumání závislosti numerických proměnných"

Podobné prezentace


Reklamy Google