Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Cvičení 9 – Ekonomická funkce nelineární v parametrech :
kvantitativních znaků
TEORIE ROZHODOVÁNÍ A TEORIE HER
Dualita úloh lineárního programování a analýza citlivosti
Testování neparametrických hypotéz
Kvantitativní metody výzkumu v praxi
Testování statistických hypotéz
Odhady parametrů základního souboru
Ing. Jan Popelka, Ph.D. odborný asistent katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
Cvičení 6 – 25. října 2010 Heteroskedasticita
Predikce Zobecněná MNČ
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Cvičení října 2010.
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Analýza variance (Analysis of variance)
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Úvod do regresní analýzy
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Základní číselné množiny
Získávání informací Získání informací o reálném systému
Testování hypotéz (ordinální data)
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Náhoda, generátory náhodných čísel
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Základy ekonometrie Cvičení 3 4. října 2010.
Statistika Ing. Jan Popelka, Ph.D. odborný asistent
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Přednost početních operací
Slovní úlohy řešené soustavou rovnic
Lineární regrese.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Praktické využití regresní analýzy Struktura národního hospodářství a znečištění ovzduší v tranzitivních ekonomikách: Případ České republiky Gabriela Jandová.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Biostatistika 1. přednáška Aneta Hybšová
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
IV..
Aplikovaná statistika 2.
Základy zpracování geologických dat R. Čopjaková.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Parciální korelace Regresní analýza
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Statistika Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW: http://most.ujep.cz/~popelka

Vícenásobná regresní analýza

Vícenásobná regresní analýza Korelační analýza s více proměnnými Vícenásobná regresní analýza Multikolinearita Umělé proměnné Volba modelu a volba vhodných vysvětlujících proměnných Analýza reziduí Předpovědi

Vícenásobná Korelace a Regresní analýza Popisuje závislost více než dvou číselných proměnných z nichž: více je nezávislých (vysvětlující proměnné – značíme je x1, x2, ... , xn) a jen jedna je závislá (vysvětlovaná proměnná y). Do analýzy lze zařadit i slovní proměnné, ale ty je nutné převézt na číselné hodnoty (viz dále).

Vícenásobná Korelace ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti, věku a pohlaví. Pokuste se odhalit, které faktory na IQ působí a nalezněte vhodný model závislosti. Měření jsou v následující tabulce: Dítě Lojzík Pepánek Alenka Zdenda Petruška Máňa IQ 105 110 115 116 125 128 hmotnost (kg) 25 31 34 38 42 55 věk (roky) 8 10 11 13 14 pohlaví (žena=1) 1

Vícenásobná Korelace Stejně jako v případě závislosti dvou proměnných je vhodné začínat analýzu elementárními metodami popisu závislostí. Bodový graf má význam pouze při analýze závislosti tří proměnných (3 osy). Pro více jak 3 proměnné již nelze graf sestrojit. Lze pracovat s klasickými dvourozměrnými grafy a zkoumat dílčí závislosti mezi vysvětlovanou a vybranou vysvětlující proměnnou. Korelační matici lze sestavit pro libovolný počet proměnných, je tedy velmi vhodným nástrojem pro měření závislostí. MS EXCEL: Nástroje – Doplňky – Analýza – Analýza Dat – Korelace

Vícenásobná Korelace ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Čtyřrozměrný graf bohužel nelze vytvořit, proto budou analyzovány pouze dvojice proměnných (závislá je stále IQ).

Vícenásobná Korelace ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Korelační matice (matice korelačních koeficientů). MS EXCEL: Nástroje – Doplňky – Analýza – Analýza Dat – Korelace Podle matice je IQ vysoce korelováno se všemi proměnnými. Pozor! vysoká korelace však existuje i mezi vysvětlujícími proměnnými (věk a hmotnost) – to je v regresním modelu nežádoucí!!   IQ věk pohlaví hmotnost 1 0,927691832 0,773354875 0,565916458 0,950685019 0,909683428 0,651533671

Vícenásobná regresní analýza Vícenásobný regresní model je zjednodušeným zobrazením reality. Závislost se snaží popsat pomocí konkrétní rovnice: regresní roviny (2 vysvětlující proměnné) nebo regresní nadroviny (3 a více vysvětlujících proměnných). y = β0 + β1x1 + β2x2 + ...+ βnxn + ε Deterministická složka – Náhodná složka – vliv vysvětlujících všechny ostatní proměnných (nepopsané) vlivy

Vícenásobná regresní analýza Rovina nebo nadrovina procházející nejblíže všem bodům je vždy jen jedna! K jejímu nalezení slouží metoda nejmenších čtverců (MNČ). Je založena na řešení soustavy normálních rovnic a jejím řešením jsou odhady koeficientů b0, b1 , …, bn):

Vícenásobná regresní analýza Umělé proměnné Pokud je vhodné zahrnout do modelu i slovní proměnnou se dvěma obměnami, pak se převede na číselnou binární proměnnou (nula-jedničková proměnná). Příklad: Pohlaví lze zapsat hodnotou 1 pro ženu a hodnotou 0 pro muže (resp. opačně). ! Původní proměnná muž žena Umělá proměnná 1

Vícenásobná regresní analýza Umělé proměnné Pokud má slovní proměnná více než dvě obměny (k > 2), převede se na k-1 binárních proměnných. Příklad: Vzdělání se třemi různými hodnotami. ! Znak má 3 obměny (základní, středoškolské a vysokoškolské vzdělání) takže byly zavedeny dvě umělé proměnné, pokud ani jedna z nich nenabývá hodnoty 1, pak jde o vzdělání základní. Původní proměnná (Vzdělání) Umělá proměnná (středoškolské) Umělá proměnná (vysokoškolské) základní středoškolské 1 vysokoškolské

Vícenásobná regresní analýza V regresním modelu nesmí být silná korelace mezi vysvětlujícími (nezávislými proměnnými – xi). V takovém případě sice lze použít metodu nejmenších čtverců, ale: odhady směrodatných chyb regresních koeficientů s(bi) jsou příliš veliké, intervaly spolehlivosti pro regresní koeficienty jsou moc široké, t-testy nevedou k zamítnutí hypotézy o nevýznamnosti koeficientů => parametry jsou nulové.

Vícenásobná regresní analýza V extrémním případě, kdy je mezi vysvětlujícími proměnnými funkční závislost (korelační koeficient rxy je 1 nebo -1) nelze parametry modelu pomocí metody nejmenších čtverců vůbec odhadnout! Příkladem je proměnná x1 hmotnost v kilogramech a x2 hmotnost v tunách. Nebo chybné zavedení stejného počtu umělých binárních proměnných jako je počet obměn slovní proměnné. ! !

Vícenásobná regresní analýza Jde o tzv. multikolinearitu!! Ta je podle některých autorů nezdravá, pokud je korelační koeficient libovolné dvojice vysvětlujícících proměnných x větší než 0,8. Multikolinearita v praxi znamená, že jedna z dvojice vysvětlujících proměnných, které jsou vzájemně silně závislé, je v modelu navíc a měla by být z modelu vyřazena.

Vícenásobná regresní analýza V případě odhalení multikolinearity vyřadíme z dvojice korelovaných vysvětlujících proměnných: proměnnou, která do úlohy logicky nepatří (IQ není závislé na hmotnosti), nebo proměnnou, která má slabší korelaci s vysvětlovanou proměnnou y.

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Korelační matice. MS EXCEL: Nástroje – Doplňky – Analýza – Analýza Dat – Korelace Jedna z proměnných je v modelu navíc => hmotnost bude z modelu vyřazena, protože do modelu logicky nepatří.   IQ věk pohlaví hmotnost 1 0,927691832 0,773354875 0,565916458 0,950685019 0,909683428 0,651533671

Vícenásobná regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... MS Excel: Data – Analýza – Analýza Dat – Regrese Do políčka „Vstupní oblast Y“ zadáváme závislou proměnnou. Do políčka „Vstupní oblast X“ zadáváme všechny nezávislé proměnné. Pro analýzu reziduí zaškrtneme „Rezidua“, „Standardní rezidua“ a „Graf s rezidui“. Data byla vložena včetně popisků proto zaškrtneme „Popisky“.

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Korelační matice po vyřazení proměnné hmotnost. Po vyřazení proměnné hmotnost se již v modelu multikolinearita nevyskytuje. IQ je stále vysoce korelováno s proměnnými věk a pohlaví, ale tyto dvě proměnné již mezi sebou silně korelovány nejsou.   IQ věk pohlaví 1 0,927691832 0,773354875 0,565916458

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Odhad koeficientů regresní roviny MS EXCEL: Data – Analýza – Analýza Dat – Regrese Regresní rovina má tvar: ŷ = 81,52 + 2,79·x1 + 5,83·x2 neboli: IQ = 81,52 + 2,79·věk + 5,83·pohlaví   Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hranice 81,51923 6,337877 12,86223 0,001014 61,34928 101,6892 věk 2,788462 0,597393 4,667715 0,018564 0,88729 4,689633 pohlaví 5,826923 2,463115 2,365672 0,098891 -2,01181 13,66566

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Regresní rovina má tvar : IQ = 81,52 + 2,79·věk + 5,83·pohlaví Z koeficientů empirického regresního modelu plyne: S každým dalším rokem věku vzroste IQ o 2,79 bodu (za podmínky, že se ostatní faktory nezmění). Dívky mají v průměru o 5,83 bodu vyšší IQ než chlapci (za podmínky, že se ostatní faktory nezmění).

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Odhad koeficientů regresní roviny MS EXCEL: Data – Analýza – Analýza Dat – Regrese Všechny parametry jsou na hladině významnosti α = 0,1 statisticky významné (tzn. žádný z nich není roven 0). Parametr proměnné pohlaví je na hladině významnosti α = 0,05 nulový (95% interval spolehlivosti pro tento parametr obsahuje 0).   Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hranice 81,51923 6,337877 12,86223 0,001014 61,34928 101,6892 věk 2,788462 0,597393 4,667715 0,018564 0,88729 4,689633 pohlaví 5,826923 2,463115 2,365672 0,098891 -2,01181 13,66566

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Odhad koeficientů regresní roviny MS EXCEL: Data – Analýza – Analýza Dat – Regrese Regresní model je statisticky významný, obecný regresní model lze odvodit. P-hodnota F-testu je 0,01 < α = 0,05, takže zamítáme nulovou hypotézu o nevhodnosti modelu. ANOVA   Rozdíl SS MS F Významnost F Regrese 2 362,9423 181,4712 29,33627 0,010729 Rezidua 3 18,55769 6,185897 Celkem 5 381,5

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Odhad koeficientů regresní roviny MS EXCEL: Data – Analýza – Analýza Dat – Regrese Hodnota upraveného determinačního indexu I2 je 0,9189. 92% změn hodnot IQ vysvětluje model vlivem věku a pohlaví. Zbylých 8% je způsobeno jinými vlivy. Pozn.: Protože regresní rovina má tři parametry, je nutné interpretovat právě opravený determinační index. Regresní statistika Násobné R 0,975375 Hodnota spolehlivosti R 0,951356 Nastavená hodnota spolehlivosti R 0,918927 Chyba stř. hodnoty 2,487146 Pozorování 6

Vícenásobná regresní analýza ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Odhad parametrů regresní nadroviny (včetně hmotnosti) MS EXCEL: Data – Analýza – Analýza Dat – Regrese Pokud by byla do modelu zahrnuta i proměnná hmotnost, byla by v modelu multikolinearita. Směrodatné chyby odhadů jsou příliš veliké, intervaly spolehlivosti široké a obsahují 0. V tomto případě se všechny koeficienty kromě absolutního členu β0 zdají být statisticky nevýznamné (nezamítáme H0 u t-testů).   Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hranice 83,64017769 5,94391197 14,0715707 0,00501233 58,0655886 109,214766 věk 1,581934847 1,07336951 1,47380266 0,27845689 -3,03640142 6,20027112 pohlaví 4,569595262 2,42278012 1,88609573 0,19992706 -5,85478626 14,9939767 hmotnost 0,330207305 0,25408377 1,29960010 0,32335988 -0,76302696 1,42344157

Vícenásobná regresní analýza Volba vhodného modelu Volba vhodného modelu Příliš vysoký počet vysvětlujících proměnných v modelu může vést k závěru o statistické nevýznamnosti některých koeficientů, i když mezi proměnnými není zjevná multikolinerita. Volba modelu ve vícerozměrné regresní analýza spočívá ve výběru vhodných proměnných a vyřazování nevhodných. Vyřazení nevhodné proměnné by nemělo mít vliv na kvalitu regresního modelu. Taková proměnná byla v modelu navíc a model po jejím odstranění neutrpěl významný pokles kvality (např. se významně nesníží upravený determinační index).

Vícenásobná regresní analýza Volba vhodného modelu Volba modelu na základě testu Test pro zjištění, zda je složitější model (více proměnných) vhodnější než jednodušší H0: složitější model nepřináší zlepšení HA: složitější model přináší zlepšení Testovací statistika: H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2). SR(1) je reziduální součet čtverců jednoduššího modelu, SR(2) reziduální součet čtverců složitějšího modelu, n je počet pozorování, p1 počet koeficientů jednoduššího modelu a p2 počet koeficientů složitějšího modelu.

Vícenásobná regresní analýza Volba vhodného modelu ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Porovnáme dva modely: model 1 bez proměnné hmotnost a model 2 se všemi vysvětlujícími proměnnými. H0: složitější model nepřináší zlepšení HA: složitější model přináší zlepšení SR(1) = 18,56 (model 1) SR(2) = 10,06 (model 2) p1 = 3 p2 = 4 ANOVA – Model 1   Rozdíl SS MS F Významnost F Regrese 2 362,9423 181,471 29,3363 0,010729 Rezidua 3 18,55769 6,18589 Celkem 5 381,5 ANOVA – Model 2   Rozdíl SS MS F Významnost F Regrese 3 371,4388 123,8129 24,61195 0,039297 Rezidua 2 10,0612 5,030602 Celkem 5 381,5

Regresní analýza Volba vhodného modelu ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Testovací statistika: H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2), kde F0,95(1;2) = 18,51. Protože testovací statistika nepadne do kritického oboru: F < 18,51, nezamítáme Ho, model s proměnnou hmotnost nepřináší zlepšení.

Vícenásobná regresní analýza Volba vhodného modelu Volba modelu na základě testu je bohužel početně náročná. V praxi lze jen těžko určit, kterou proměnnou navrhnout na vyřazení. K vyhodnocení testu se tak používá statistický software, který postupně testuje všechny vysvětlující proměnné a najde nejoptimálnější podmnožinu proměnných. Proces může probíhat dvěma směry: shora – do modelu se nejprve zařadí všechny vysvětlující proměnné a ty se pak postupně pomocí testu vyřazují. zdola – postupně se do modelu proměnné přidávají a testuje se, zda došlo k významnému zlepšení kvality modelu.

Analýza reziduí Stejně jako u jednoduché regrese by rezidua měla splňovat tři podmínky: Rezidua jsou náhodná a nezávislá. Rezidua mají normální rozdělení N(0;σ2). Rozptyl reziduí σ2 je konstantní.

Analýza reziduí ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Podmínka náhodnosti reziduí Z malého počtu pozorování lze jen stěží určit zda se jedná o náhodná rezidua. Na ose x je vyneseno jen o jaké pozorování jde. Nejde tedy o hodnoty vysvětlující proměnné x, protože těch je v modelu více a bylo by nutné vytvořit více grafů. Pro každou vysvětlující proměnnou jeden (takový výstup ovšem poskytuje MS Excel).

Analýza reziduí ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Znaménkový test : H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Hodnota testového kritéria U není větší než 1,96, takže nezamítáme nulovou hypotézu. Rezidua jsou náhodná! Podmínka splněna. Pozo-rování Rezidua ei Rozdíl (ei+1 – ei) 1 1,1730769 2 0,5961538 -0,576923 3 -3,019230 -3,615384 4 -1,769230 1,25 5 1,4038461 3,1730769 6 1,6153846 0,2115384 Počet kladných rozdílů S+ je vyšší a je 3, tedy S =3.

Analýza reziduí ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Kolmogorov-Smirnovův test H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1) Testovací statistika D = 0,288 Kritický obor pro 6 hodnot D > 0,519. Nezamítáme H0, rezidua roviny mají normální rozdělení.

Analýza reziduí ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Testování hypotézy rovnosti rozptylů reziduí. MS EXCEL = FTEST (první oblast; druhá oblast) H0: rozptyly v obou polovinách jsou stejné resp. D1(ei) = D2(ei) HA: rozptyly v obou polovinách nejsou stejné resp. D1(ei) ≠ D2(ei) p-hodnota testu pro rezidua = 0,82. Rezidua mají stejný rozptyl, jsou homoskedastická! Podmínka splněna.

Bodová předpověď ! Příklad: Byla analyzována závislost IQ dětí na jejich hmotnosti ... Protože rezidua modelu splňují všechny tři podmínky a jak model, tak i jeho parametry jsou statisticky významné, lze na základě modelu provést předpověď. Bodová předpověď hodnoty IQ na základě odhadnutého modelu: Regresní rovina má tvar IQ = 81,52 + 2,79·věk + 5,83·pohlaví Chlapec ve věku 14 let bude mít podle odhadnutého modelu IQ: (proměnná věk = 14 a proměnná pohlaví = 0) IQ = 81,52 + 2,79·14 + 5,83·0 = 121. Dívka ve věku 14 let bude mít podle odhadnutého modelu IQ: IQ = 81,52 + 2,79·14 + 5,83·1 = 126.

Analýza reziduí a Předpovědi v Regresní analýze Důležité pojmy – 10 Analýza reziduí a Předpovědi v Regresní analýze Důležité pojmy – 10. přednáška Korelační matice Rovina a nadrovina Umělé proměnné Multikolinearita Volba vhodných proměnných Analýza reziduí Bodová předpověď