Cvičení 6 – 25. října 2010 Heteroskedasticita Základy ekonometrie Cvičení 6 – 25. října 2010 Heteroskedasticita
Náhodná složka Gauss-Markovy předpoklady: E(u) = 0 E(u u´) = σ2 In X je nestochastická matice – E(X´u)=0 X má plnou hodnost (k+1) G-M předpoklady musejí být splněny, aby mohla být k odhadu použita metoda nejmenších čtverců
Náhodná složka u ~ N (0, σ2), kde σ2 je rozptyl modelu, který má být dle G-M předpokladu E(u u´) = σ2 In, resp. E(ui2) = σ2 = konst konstantní a konečný
Náhodná složka - vlastnosti σ2 je konstantní a konečný rozptyl → HOMOSKEDASTICITA porušení G-M předpokladu → HETEROSKEDASTICITA σ2 není konstantní nebo konečná, tj. σ2 je funkcí vysvětlující proměnné náhodná složka může mít v případě heteroskedasticity pro každé pozorování odlišný rozptyl: E(ui2) = σ i2 ≠ konst
Příklad Y – počet chyb při psaní na stroji X – počet hodin strávených cvičením Y = f(X) + u čím více hodin cvičení – tím méně chyb rozptyl větší pro skupinu lidí s nižší praxí někdo se učí rychleji a už od počátku dělá méně chyb než ti, kteří se učí pomaleji a na začátku dělají spoustu chyb s rostoucím počtem hodin praxe se schopnosti jednotlivců začínají sbližovat a rozptyl se tak zmenšuje
Příklad – rozptyl graficky
Příčiny heteroskedasticity Chybná specifikace modelu obvykle vynechání podstatné vysvětlující proměnné Odhad z prostorových dat se značnou variabilitou v jednom náhodném výběru variabilita endogenní proměnné (a tedy i reziduí) může být závislá na některé exogenní proměnné
Příčiny heteroskedasticity Chyby měření s rostoucí hodnotou endogenní proměnné dochází ke kumulaci chyb měření – to zvyšuje rozptyl endogenní proměnné a tedy i rozptyl reziduí Odhad z upravených dat odhad nikoliv na původních pozorováních, ale např. ze skupinových průměrů získaných z tříděných dat
Důsledky heteroskedasticity Bodové odhady parametrů zůstávají nevychýlené a konzistentní nemají však minimální rozptyl – tj. nejsou vydatné a ani asymptoticky vydatné Odhady směrodatných chyb bodových odhadů (sbi) a rozptylu sigma (s2) jsou vychýlené intervalové odhady nejsou směrodatné statistické testy (t-testy, F-test) ztrácejí na síle
Testování heteroskedasticity Grafický test graf reziduí Parametrické testy Parkův test Glejserův test Whiteův test (implementován v PcGive) Neparametrické testy Spearmanův koeficient korelace pořadí Goldfeldův-Quandtův test
Grafický test reziduí Graf reziduí v závislosti na exogenní nebo Abstraktní model s náhodnou složkou Data Rezidua Graf reziduí v závislosti na exogenní nebo vyrovnané endogenní proměnné Vyhodnocení: rezidua náhodně rozložena → HOMOSKEDASTICITA graf nevypadá úplně náhodně → HETEROSKEDASTICITA
Homoskedasticita rezidua jsou v pásmu závislost reziduí e na exogenní nebo vyrovnané endogenní proměnné
Heteroskedasticita rezidua se rozbíhají závislost reziduí e na exogenní nebo vyrovnané endogenní proměnné
rezidua v pásmu vykazující lineární trend Heteroskedasticita rezidua v pásmu vykazující lineární trend závislost reziduí e na exogenní nebo vyrovnané endogenní proměnné
rezidua v pásmu vykazující kvadratický trend Heteroskedasticita rezidua v pásmu vykazující kvadratický trend závislost reziduí e na exogenní nebo vyrovnané endogenní proměnné
Neparametrické testy Spearmanův koeficient korelace pořadí Goldfeldův-Quandtův test
Spearmanův koeficient korelace pořadí zkoumá korelaci pořadí mezi jednou vysvětlující proměnou a rezidui test je třeba dělat pro každou vysvětlující proměnnou zvlášť počítá se pro konkrétní výběr – třeba pak testovat jeho statistickou významnost pro abstraktní model
Spearmanův koeficient korelace pořadí Postup: Absolutní hodnoty reziduí |ei| seřadíme vzestupně a očíslujeme Pořadové číslo přiřadíme k původním (tj. nesrovnaným) reziduím Absolutní hodnoty exogenní proměnné |Xi| seřadíme vzestupně a očíslujeme Pořadové číslo přiřadíme k původním (tj. nesrovnaným) hodnotám Xi Spočítáme rozdíly v pořadí reziduí a pozorování di = pořadí |ei| - pořadí |Xi| Spočítáme Spearmanův koeficient korelace pořadí
Spearmanův koeficient korelace pořadí vyhodnocení: |re,x| → 0 (resp. |re,x| < 0,8 – 0,9) … je možné očekávat homoskedasticitu |re,x| → 1 (resp. |re,x| > 0,8 – 0,9) … je možné očekávat heteroskedasticitu
Spearmanův koeficient korelace pořadí třeba testovat statistickou významnost pro abstraktní model testuje se přes t-statistiku: H0: homoskedasticita H1: heteroskedasticita vypočtená t hodnota > t1-α/2 (n-k-1) → zamítneme H0 vypočtená t hodnota < t1-α/2(n-k-1) → akceptujeme H0
Goldfeldův-Quandtův test vhodný jen pro časové řady Postup: zvolíme statisticky významnou proměnnou a seřadit ji vzestupně rozdělíme data na dvě stejné poloviny a kolem středu řady vynecháme q hodnot (q ≤ n/4) vypočteme stupně volnosti v vypočteme F(v,v) statistiku
Goldfeldův-Quandtův test ad 3) výpočet stupňů volnosti: ad 4) výpočet F(v,v) statistiky: je součet čtverců reziduí (RSS) pro danou polovinu dat kde
Goldfeldův-Quandtův test Testovaná hypotéza: H0: homoskedasticita H1: heteroskedasticita Vyhodnocení: F(v,v) vypočtená > F(v,v) tabulková …akceptujeme heteroskedasticitu na hladině α, v opačném případě přijmeme homoskedasticitu
Parametrické testy Parkův test Glejserův test Whiteův test (v PcGivu) testy s pomocnou regresí většinou potřebujeme n ≥ 30
Parkův test Pomocná regrese: Náhodná složka je neměřitelná - pomocná regrese přes rezidua: Vyhodnocení: t-test u parametru β2 H0: homoskedasticita H1: heteroskedasticita
Glejserův test pomocná regrese na absolutní hodnotě reziduí a formy závislosti: Vyhodnocení: t-test u parametru β2 H0: homoskedasticita H1: heteroskedasticita
Whiteův test vychází z pomocné regrese: et2 = f(X1, X2, X12, X22, X1*X2,…) testuje se koeficient determinace (R2) u této pomocné regrese statistika n* R2 ≈ χ2(k-1) n – rozsah souboru k – počet parametrů pomocné regrese (počet parametrů je uveden ve výstupu ze softwaru)
Whiteův test vyhodnocení: H0: homoskedasticita H1: heteroskedasticita n* R2 > tabulková χα2(k-1) … zamítáme nulovou hypotézu o homoskedasticitě