Metody zkoumání závislosti numerických proměnných

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Korelace a regrese Karel Zvára 1.
KORELACE A REGRESE Karel Drápela
kvantitativních znaků
Testování statistických hypotéz
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Cvičení října 2010.
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení října 2010.
Základy ekonometrie Cvičení 3 4. října 2010.
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Lineární regrese.
Praktické využití regresní analýzy Struktura národního hospodářství a znečištění ovzduší v tranzitivních ekonomikách: Případ České republiky Gabriela Jandová.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Lineární regrese kalibrační přímky
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Korelace.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Aplikovaná statistika 2.
Základy zpracování geologických dat R. Čopjaková.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Odhady odhady bodové a intervalové odhady
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Homogenita meteorologických pozorování
Analýza časových řad Klasický přístup k analýze ČŘ
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

Metody zkoumání závislosti numerických proměnných  pevná (funkční) změně jednoho znaku jednoznačně odpovídá změna druhého znaku (podle nějakého funkčního vztahu) (matematika, fyzika ...  statistická (volná) změnám jedné veličiny odpovídají změny druhé veličiny tak, že určité hodnotě jednoho znaku může odpovídat více hodnot znaku druhého, což je způsobeno tím, že současně působí i řada náhodných vlivů statistická (volná) závislost vyjadřuje obecnou tendenci změn - nejčastěji závislost jednostranná jeden znak vystupuje jako příčina (nezávisle proměnná) .. x a druhý znak jako následek (závisle proměnná) značíme y

grafické zobrazení závislosti dvou proměnných - bodový diagram z bodového diagramu můžeme posoudit  průběh závislosti - lineární, nelineární kladná, záporná  sílu této závislosti - tj. stupeň kolísání hodnot kolem čáry vyjadřující průběh závislosti

Regresní analýza  popisujeme průběh statistické závislosti  odhadujeme hodnoty závisle proměnné Y odpovídající dané hodnotě jedné nebo více nezávisle proměnných Xi. jednoduchá (párová) RA: Y... závisle proměnná (vysvětlovaná proměnná) X.. nezávisle proměnná (vysvětlující proměnná) vícerozměrná RA: Y. závisle proměnná (vysvětlovaná proměnná) ...nezávisle proměnné (vysvětlující proměnné)

Postup (kroky) RA: 1. volba typu regresní funkce (nalezení regresního modelu) 2. odhad parametrů regresního modelu 3. testování hypotéz o těchto parametrech (ověření významnosti parametrů regresního modelu) 4. ověření vhodnosti zvoleného regresního modelu (posouzení kvality regresního modelu).

Jednoduchá (párová) regresní analýza Volba typu regresní funkce (nalezení regresního modelu) úkolem je nalézt vhodnou analytickou funkci, která nejlépe vystihne průběh závislosti závisle proměnné Y na nezávisle proměnné X vhodnou analytickou funkci volíme na základě:  věcně-logického rozboru zkoumaných závislostí  grafického znázornění pomocí MS kriterií "princip parsimonie"

Odhad parametrů regresního modelu TEORETICKÝ REGRESNÍ MODEL ZS.... teoretická (hypotetická) regresní funkce jsou neznámé regresní parametry

VS... výběrová (empirická) regresní funkce - je odhadem regresní funkce závislosti v ZS výběrové regresní koeficienty (odhady regresních parametrů i ei reziduum (je odhadem náhodné složky) Předpoklady o náhodné složce Rozdělení náhodných složek je normální kovariance všech dvojic náhodné složky jsou nulové

 regresní funkce lineární v parametrech – parametry odvozujeme metodou nejmenších čtverců MNČ PŘÍKLADY přímka parabola hyperbola log.funkce  funkce nelineární v parametrech – nelze použít přímo MNČ

teoretická regresní přímka základní metoda k odvození parametrů lineárních regresních modelů: Metoda nejmenších čtverců (MNČ) Lineární funkce - přímka (přímková regrese) teoretická regresní přímka výběrová regresní přímka Cílem je najít přímku, která nejlépe popisuje průběh závislosti, tj. přímku, která je zjištěným hodnotám nejblíže

správně zvolená funkce špatně zvolená funkce

MNČ Úkolem je najít hodnoty parametrů přímky Minimalizujeme reziduální součet čtverců S

Řešením soustavy dvou rovnic dostaneme odhady parametrů přímky = výběrový regresní koeficient je bodový odhad parametru 1 teoretické regresní přímky, tj. směrnice teoretické regresní přímky)  je směrnicí výběrové regresní přímky vyjadřuje průměrnou změnu závisle proměnné Y při jednotkové změně nezávisle proměnné X

Výpočet parametrů z neuspořádaných údajů xi yi xi 2 yi 2 xi yi x1 y1 x1 2 y1 2 x1 y1 x2 y2 x2 2 y2 2 x2 y2 .. xn yn xn 2 yn 2 xn yn  xi  yi  xi 2  yi 2  xi yi

Příklad: Sledujeme závislost spotřeby vody na počtu členů u souboru17 domácnosti xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840  50 1924 176 258334 6534

byx = 30,24 vyjadřuje průměrnou změnu závisle proměnné y při jednotkové změně nezávisle proměnné x

Testy hypotéz o parametrech regresní funkce Individuální t-testy Testové kritérium pro přímku kritický obor Interpretace v případě přímkové regrese:  Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že střední hodnota vysvětlované proměnné y se změní o konstantu při jednotkové změně vysvětlující proměnné x.  Zamítnutí hypotézy o nulové hodnotě regresního parametru znamená přijetí předpokladu, že regresní přímka prochází počátkem (nulou).

Výstup EXCEL Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice   Koeficienty Chyba stř. hodnoty t Stat Hodnota P Hranice 24,24 18,35 1,32 0,21 Soubor X 30,24 5,70 5,30 0,00 Výstup SAS Parameter Estimates Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 24.23577 18.34863 1.32 0.2063 b 30.23984 5.70258 5.30 <.0001

Regresní odhady Výběrové regresní koeficienty bi jsou bodové odhady teoretických regresních parametrů  i Regresním odhadem chápeme výpočet hodnoty závisle proměnné y odpovídající určité hodnotě nezávisle proměnné x (tzn. dosadíme hodnotu x do vypočtené výběrové regresní funkce). Např. v našem příkladě odhad průměrné spotřeby domácnosti, která má 3 členy, získáme dosazením x = 3 do vypočtené regresní rovnice

Odhady parametrů regresní funkce Můžeme vypočítat i intervalové odhady regresních parametrů i , které jsou konstruovány kolem vypočtených bodových odhadů parametrů (oboustranné intervaly spolehlivosti) intervalový odhad pro všechny hodnoty výběrové regresní funkce, tj pro jednotlivé body Interval kolem vypočítané regresní funkce tvoří tzv. pás spolehlivosti, který není ve všech bodech stejně široký (nejužší je v bodě, který má souřadnice ( )

Predikce v regresi Je odhad hodnoty závisle proměnné y pro hodnotu nezávisle proměnné x, která není z oboru hodnot, z nichž byla regresní funkce spočítána. Např. odhad spotřeby domácnosti, která by měla 8 členů vypočítáme Predikční Intervalové odhady opět tvoří pás spolehlivosti kolem regresní funkce, který je ale širší než pás spolehlivosti pro intervalové odhady hodnot ležících na regresní funkci.

Posouzení kvality regresní funkce regresní funkce je tím vhodnější, čím jsou napozorované hodnoty více soustředěny kolem regresní čáry. - empirické (zjištěné) hodnoty závisle proměnné - vyrovnané hodnoty (hodnoty ležící na regresní čáře) - celkový součet čtverců (charakterizuje celkovou variabilitu) teoretický součet čtverců charakterizuje část variability závisle proměnné y zachycenou (vysvětlenou) regresní funkcí reziduální součet čtverců charakterizuje část variability závisle proměnné y, kterou nelze vysvětlit regresní funkcí platí

Celkový F - test Testové kriterium kritický obor

Míra těsnosti závislosti je index determinace, index determinace vyjádřený v % udává, jakou část rozptylu závisle proměnné y lze vysvětlit zvolenou regresní funkcí. Pokud se blíží hodnota jedné, lze usuzovat, že byla použita vhodná regresní funkce a že mezi y a x existuje silná závislost. Pokud se blíží hodnota nule, pak usuzujeme, buď že byla použita nevhodná regresní funkce nebo že mezi y a x existuje jen slabá závislost.

Pro posouzení, která funkce je vhodnější se používá upravený index determinace (R-sq. Adjusted)

ANOVA Rozdíl SS MS F Významnost F 1 26465,19 28,12 8,856E-05 15 V našem příkladě ANOVA   Rozdíl SS MS F Významnost F Regrese 1 26465,19 28,12 8,856E-05 Rezidua 15 14117,28 941,15 Celkem 16 40582,47 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 26465 28.12 <.0001 Error 15 14117 941.151   Corrected Total 16 40582

Odhady parametrů regresních funkcí nelineárních v parametrech Příklady: Y = 0 1 x exponenciální funkce Y =  0 x 1 mocninná funkce (Cobb-Douglassova produkční funkce) Törnquistova křivka  nelze použít MNČ k odhadu parametrů regresní funkce  Postup odhadu parametrů: 1. Najdeme vhodný tzv. počáteční odhad 2. ten postupně zlepšujeme iteračními postupy tak dlouho, až dostaneme odhad s požadovanou přesností

ad 1. Metody počátečních odhadů:  linearizující transformace  metoda apriorní informace  metoda vybraných bodů metoda linearizující transformace model s nelineární regresní funkcí převedeme transformací na model lineární a odhady jeho parametrů získáme MNČ metoda apriorní informace jako počáteční odhady použijeme hodnoty parametrů doporučované teorií nebo hodnoty známé z předchozího šetření (výpočtu) metoda vybraných bodů vybereme tolik bodů, kolik parametrů má zvolená regresní funkce. Souřadnice těchto bodů dosadí­me do rovnice regresní funkce. Získáme soustavu nelineárních rovnic, jejichž řešením jsou hledané počáteční odhady parametrů.

Ad 2. Metody postupného zlepšování počátečních odhadů iterační postupy: např. Gauss-Newtonův, Marquardtův apod. Princip: v každém kroku se počítá součet čtverců reziduí postup končí, když Si - Si-1 < 

Odmocnina z indexu determinace je korelační koeficient Korelační analýza Odmocnina z indexu determinace je korelační koeficient

Korelační koeficient měří sílu (těsnost) lineární závislosti dvou proměnných Korelační koeficient je definován jako poměr kovariance a součinu směrodatných odchylek obou proměnných Kovariance kovariance může nabývat kladných i záporných hodnot a její znaménko určuje směr závislosti Korelační koeficient

znaménko korelačního koeficientu vyjadřuje směr lineární závislosti Výpočetní tvar korelačního koeficientu

Testy hypotéz o korelačním koeficientu Vysoká hodnota výběrového korelačního koeficientu nemusí ještě znamenat silnou závislost v ZS, neboť může být zkreslena v důsledku náhodnosti výběru, zejména v případě malých výběrů. Významnost výběrového korelačního koeficientu ověřujeme testem nezávislosti testové kriterium kritický obor

ryx = 0,3 n = 11 t0,975 [9] = 2,26 n = 51 t0,975 [49] = 2,01 Příklad: b) t0,975 [49] = 2,01

Příklad: 17 domácností i xi yi xi 2 yi 2 xi yi 1 80 6400 2 40 1600 3 60 3600 4 70 4900 140 . 15 152 16 23104 608 5 230 25 52900 1150 17 168 28224 840  50 1924 176 258334 6534

(Počet stupňů volnosti) Výpočty v EXELU- pozor české překlady pojmů nejsou srozumitelné   Regresní statistika Násobné R 0,8075 Korelační koeficient Hodnota spolehlivosti R 0,6521 Index determinace Nastavená hodnota spolehlivosti R 0,6289 Upravený index determinace Chyba stř. hodnoty 30,6781 Směr. chyba odhadu Pozorování 17 ANOVA (Počet stupňů volnosti) Rozdíl !!!! Součet čtverců SS Průměrné čtverce MS F Významnost Regrese 1 26465,19 26465,2 28,12 0,00008 Rezidua 15 14117,27 941,152 Celkem 16 40582,47 koeficienty t Stat Hodnota P Hranice(abs. člen) 24,235 18,3486 1,3208 0,2063 Soubor X 1 30,239 5,7025 5,3028

Test o nezávislosti pořadovou korelací použití:  2 kvantitativní (číselné) pořadové znaky  2 kvantitativní (číselné) znaky převedeme na pořadové vhodné při malém n pro rychlou orientaci o existenci závislosti H0 : mezi znaky X a Y neexistuje pořadová závislost (tzn. jsou nezávislé) H1 : existuje pořadová závislost nebo H1 : existuje kladná pořadová závislost (shoda pořadí) H1 : existuje záporná pořadová závislost (neshoda pořadí)

Spearmannův koeficient pořadové korelace  -1  rS  1  ix pořadí hodnot x iy pořadí hodnot y testové kriterium t (n -2)

H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost Příklad : Ověřte na 5% - ní hladině významnosti shodu názorů odborné poroty a diváků při volbě MISS. Do finále postoupilo 12 adeptek. H0 : mezi pořadím poroty a diváků neexistuje pořadová závislost H1 : non H0 H1 : existuje shoda pořadí poroty a diváků

jméno umístění u poroty body u diváků pořadí u diváků výpočty ix - iy (ix - iy )2 Andrea 4 93 3 1 Blanka 5 119 7 -2 Eva 12 110 6 36 Jana 2 87 Magda 99 -1 Petra 10 176 Romana 150 -3 9 Simona 11 144 Tereza 125 8 Věra 101 -4 16 Yveta 92 Zuzana 170  x 102

Vícenásobná lineární regresní a korelační analýza Vysvětlující proměnné Teoretická regresní funkce Empirická regresní funkce Nejjednodušší případ – trojnásobná regrese Regresní rovina

Dílčí regresní koeficienty představuje průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné xi umístěné před tečkou za předpokladu, že proměnná xj za tečkou je konstantní.

Vícenásobná korelace (případ 2 vysvětlujících proměnných) párové korelační koeficienty (měří závislost dvou proměnných) dílčí (parciální) koeficienty korelace - měří těsnost závisle proměnné Y na jedné vysvětlující proměnné za předpokladu, že vliv druhé vysvětlující proměnné konstantní vícenásobný korelační koeficient - měří těsnost závislosti mezi vysvětlující proměnnou a všemi vysvětlujícími proměnnými umístěnými za tečkou (tj. sílu společného působení všech vysvětlujících proměnných)

vícenásobný koeficient determinace – je podíl variability závisle proměnné y, který můžeme vysvětlit společným působením vysvětlujících proměnných Obecně platí:

Multikolinearita je lineární závislost mezi vysvětlujícími proměnnými multikolinearita způsobuje, že odhady regresních koeficientů mohou být nepřesné škodlivá multikolinearita - pokud některé párové korelační koeficienty mezi vysvětlujícími proměnnými > 0,8. odstranění multikolinearity nezařazujeme silně korelované vysvětlující proměnné společně do vícenásobného vztahu

metody volby vhodné podmnožiny vysvětlujících proměnných metoda postupného přidávání vysvětlujících proměnných metoda postupného vyřazování metoda stupňovité regrese (STEPWISE)

metoda postupného přidávání vysvětlujících proměnných 1. zařadíme tu vysvětlující proměnnou xi , která má nejvyšší párový korelační koeficient se závisle proměnnou y 2. jako další zařadíme proměnnou xj, která má vysoký párový korelační koeficient se závisle proměnnou y, ale současně není silně závislá s již zařazenou proměnnou xi 3. postup se opakuje tak dlouho, dokud přínos některé další proměnné je významný (tzn. dokud přidání další proměnné významně zvýší % vysvětleného rozptylu proměnné y) (R-sq.) (v případě práce na PC ověřujeme významnost přidání dalších proměnných, tj. zvýšení % vysvětleného rozptylu proměnné y, tzv. dílčími F-testy)

x1 x2 x3 x4 x5 y Příklad matice párových korelačních koeficientů 0,56 0,82 0,14 0,73 0,47 1,00 0,15 0,60 0,20 0,30 0,81 0,85 0,21 0,05 0,22 0,46 y - x2 , x1 , x5 , y - x4 , x1, x5 , x3