Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Analýza reziduí a Předpovědi v Regresní analýze

3 Analýza reziduí v Regresní analýze
Rezidua Podmínka náhodnosti Podmínka nezávislosti Podmínka normality rozdělení Podmínka homoskedasticity Bodová předpověď v regresním modelu Intervalová předpověď

4 Analýza reziduí Regresní model Zjednodušené zobrazení reality. y = η + ε Např. pomocí přímky: y = β0 + β1x + ε (lineární závislost) Deterministická složka Náhodná složka (popisuje vliv vysvětlující (všechny ostatní, proměnné) nepopsané vlivy)

5 Analýza reziduí Klasická rezidua ei jsou odchylky skutečných hodnot yi od modelem odhadnutých hodnot ŷi, tedy ei = yi - ŷi V grafu jde o odchylky bodů o křivky regresního modelu. e2 e5 e1 e3 e4 e6 e7 e8 e9

6 Analýza reziduí Normovaná rezidua eNi jsou rezidua modelu mající normální rozdělení se střední hodnotou 0 a rozptylem 1. Normalizace reziduí se provádí vydělením hodnoty rezidua směrodatnou odchylkou reziduí eNi = ei/sei. Hodnoty větší než trojnásobek směrodatné odchylky jsou brány jako odlehlé.

7 Analýza reziduí ! Příklad: Český hydrometeorologický ústav v Praze měřil … Rezidua regresního modelu přímky. Pozo-rování Skutečná teplota yi Očekávaná teplota ŷi Rezidua ei Normovaná rezidua eNi 1 10,4 9,939813 = 10,4 – 9,939 = = 0,460187 = 0,460187/0, = = 0,877792 2 10,5 9,804492 0,695508 1,326658 3 9,3 9,696236 -0,39624 -0,75581 4 9,2 9,577154 -0,37715 -0,71941 5 9,9 9,523026 0,376974 0,719066 6 8,7 9,322752 -0,62275 -1,18788 7 8 8,629911 -0,62991 -1,20153 8,3 8,332206 -0,03221 -0,06143 9 8,1 7,574411 0,525589 1,002544 Směrodatná odchylka reziduí 0,524255

8 Analýza reziduí MS Excel: Data – Analýza – Analýza Dat – Regrese
Program vykreslí graf reziduí pro jejich grafickou analýzu. Program vypíše tabulku reziduí modelu. Program dopočítá normovaná rezidua.

9 Analýza reziduí Aby bylo možné model použít (např. pro předpověď), měla by rezidua splňovat následující podmínky: Rezidua jsou náhodná a nezávislá. Rezidua mají normální rozdělení N(0;σ2). Rozptyl reziduí σ2 je konstantní. Pokud model nesplňuje některou z výše uvedených podmínek, nelze jej pro daná data použít, i kdyby byl lepší než alternativní modely (např. podle upraveného determinačního indexu I2upr.)!

10 Analýza reziduí Náhodnost a nezávislost
Náhodnost reziduí lze dobře posoudit pomocí bodového grafu (graf reziduí), ve kterém jsou na ose y rezidua a na ose x je vysvětlující (nezávislá proměnná). Počet kladných a záporných reziduí by měl být přibližně stejný, rezidua by měla být rozložena náhodně. Posuzování grafu je subjektivní! Zejména při malém počtu reziduí.

11 Analýza reziduí Náhodnost a nezávislost
Příklad: V tomto případě nejsou rezidua náhodná (je patrný systematický průběh - parabola), zvolený model je absolutně nevhodný! Pozn.: jedná se o rezidua regresního modelu přímky aplikovaného na data, která ve skutečnosti vykazují parabolickou závislost. !

12 Analýza reziduí Náhodnost a nezávislost
Příklad: V tomto případě jsou rezidua náhodná, zvolený model je vhodný. Pozn.: jedná se o rezidua modelu paraboly aplikovaného na data, která mají ve skutečnosti parabolickou závislost. !

13 Analýza reziduí Náhodnost a nezávislost
! Příklad: Český hydrometeorologický ústav v Praze měřil ... Hodnocení náhodnosti reziduí z grafů reziduí pro regresní přímku a regresní hyperbolu. Z grafů se zdá, že rezidua regresní přímky i regresní hyperboly jsou náhodná. Pozor však na malý počet reziduí v grafu.

14 Analýza reziduí Náhodnost a nezávislost
Vedle grafické analýzy lze použít i testy náhodnosti reziduí např.: znaménkový test, test založený na bodech zvratu a testy nezávislosti reziduí např.: Durbin-Watsonův test.

15 Analýza reziduí Náhodnost a nezávislost
Znaménkový test náhodnosti (neparametrický test) H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Nejdříve se vypočtou rozdíly dvou po sobě jdoucích reziduí ei - ei-1 a určí se počet kladných S+ a záporných rozdílů S-, jejichž součet je k. Hodnota S je větší z čísel S+ a S-. Nulové rozdíly se vypustí (pak se sníží i k). Kritický obor: W = {U; |U| > u1-α/2} , v praxi postačuje srovnání s hodnotou u0,975 = 1,96.

16 Analýza reziduí Náhodnost a nezávislost
! Příklad: Český hydrometeorologický ústav v Praze měřil ... Znaménkový test (přímka): H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Počet kladných rozdílů S+ je vyšší a je 5, tedy S=5. Kritický obor: |U| > u1-α/2 = u0,975 = 1,96. Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua přímky jsou dle testu náhodná! Pozo-rování Rezidua ei Rozdíl (ei – ei-1) 1 0,460187 2 0,695508 0,235321 3 -0,39624 -1,091748 4 -0,37715 0,01909 5 0,376974 0,754124 6 -0,62275 -0,999724 7 -0,62991 -0,00716 8 -0,03221 0,5977 9 0,525589 0,557799

17 Analýza reziduí Náhodnost a nezávislost
! Příklad: Český hydrometeorologický ústav v Praze měřil ... Znaménkový test (hyperbola): H0: rezidua jsou náhodná HA: rezidua nejsou náhodná Počet kladných rozdílů S+ je vyšší a je 5, tedy S=5. Kritický obor: |U| > u1-α/2 = u0,975 = 1,96 Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua hyperboly jsou dle testu také náhodná! Pozo-rování Rezidua ei Rozdíl (ei – ei-1) 1 -0,102621 2 0, 0, 3 -0,411027 -0,896243 4 -0,239266 0, 5 0, 0, 6 -0,305965 -0,873405 7 -0,342184 -0,036219 8 0, 0, 9 0, 0,

18 Analýza reziduí Náhodnost a nezávislost
Durbin-Watsonův test nezávislosti H0: rezidua jsou nezávislá HA: rezidua jsou závislá Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Kritický obor : nemá žádné ze standardních rozdělení, nutno použít tabulky (http://most.ujep.cz/~popelka/tabulky.xls), které obsahují kritické hodnoty d a h pro počet parametrů modelu p a počet hodnot n. H0 zamítáme, pokud platí DW < d, nebo DW > 4 - d. H0 nezamítáme, pokud platí h < DW < 2, nebo 2 < DW < 4 - h. V ostatních případech test mlčí!

19 Analýza reziduí Náhodnost a nezávislost
Durbin-Watsonův test nezávislosti - Kritický obor

20 Analýza reziduí Náhodnost a nezávislost
! Příklad: Český hydrometeorologický ústav v Praze měřil ... D-W test pro přímku H0: rezidua jsou nezávislá HA: rezidua jsou závislá Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d = 1,077 a h = 1,361. Protože platí h < DW < 2, nezamítáme H0. Rezidua přímky jsou dle testu nezávislá! Pozo-rování ei2 (ei – ei-1)2 1 0, 2 0, 0,055376 3 0, 1, 4 0, 0, 5 0, 0,568703 6 0, 0, 7 0, 5,127E-05 8 0, 0, 9 0, 0, Suma 2, 3,

21 Analýza reziduí Náhodnost a nezávislost
! Příklad: Český hydrometeorologický ústav v Praze měřil ... D-W test pro hyperbolu H0: rezidua jsou nezávislá HA: rezidua jsou závislá Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d = 1,077 a h = 1,361. Protože platí 2 < DW < 4 - h, tedy 2 < DW < 2,64, nezamítáme H0. Rezidua hyperboly jsou dle testu nezávislá! Pozo-rování ei2 (ei – ei-1)2 1 0,010531 2 0,235434 0,345553 3 0,168943 0,803252 4 0,057248 0,029502 5 0,321989 0,650776 6 0,093615 0,762836 7 0,11709 0,001312 8 0,016466 0,221374 9 0,04844 0,008422 Suma 1,069756 2,823027

22 Analýza reziduí Normalita rozdělení
Rezidua mají normální rozdělení N(0;σ2) Lze zjistit několika způsoby: Grafické metody – histogram, kvantilový graf Popisné charakteristiky – šikmost a špičatost jsou obě blízké nule Testy statistických hypotéz – Kolmogorov-Smirnovův test, Chí- kvadrát test dobré shody Všechny postupy jsou detailně popsány v přednášce číslo 7.

23 Analýza reziduí Normalita rozdělení
Kolmogorov-Smirnovův test Test lze aplikovat na klasická rezidua ei, pro která platí hypotézy: H0: rezidua mají normální rozdělení N(0;σ2) HA: rezidua nemají normální rozdělení N(0;σ2) V testu lze využít normalizovaná rezidua eNi, pro která jsou hypotézy: H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1)

24 Analýza reziduí Normalita rozdělení
Kolmogorov-Smirnovův test Rezidua modelu se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(e(Ni)) hypotetického rozdělení (= NORMDIST) Testové kritérium: je maximum z hodnot T1 a T2 vypočtených pro všechna seřazená rezidua e(Ni).

25 Analýza reziduí Normalita rozdělení
Kolmogorov-Smirnovův test Kritický obor: W={D; D ≥ d(n;α)} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce nebo např. skriptech (str. 102). Pro n > 50 pak d(n; 0,05) ≈ 1,36/n1/2

26 Analýza reziduí Normalita rozdělení
! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku Hodnoty distribuční funkce F(e(Ni)) vypočteme pomocí funkce NORMDIST s argumenty = NORMDIST (e(i);0;1;1). Pro e(N1) konkrétně =NORMDIST (-1,20153;0;1;1) = 0,11477. Jde o pravděpodobnost, že hodnota normovaného rezidua bude menší nebo rovna číslu -1,20153. Pořadí Seřazená norm. rezidua e(Ni) F(e(Ni)) 1 -1,20153 0,11477 2 -1,18788 0,11744 3 -0,75581 0,22488 4 -0,71941 0,23594 5 -0,06143 0,47551 6 0,719066 0,76395 7 0,877792 0,80997 8 1,002544 0,84196 9 1,326658 0,90769

27 Analýza reziduí Normalita rozdělení
! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku Pořadí Seřazená norm. rezidua e(Ni) F(e(Ni)) 1 -1,20153 0,11477 0,114772 0,003661 2 -1,18788 0,11744 0,00633 0,104782 3 -0,75581 0,22488 0,00266 0,108451 4 -0,71941 0,23594 0,097389 0,2085 5 -0,06143 0,47551 0,031063 0,080048 6 0,719066 0,76395 0,208394 0,097283 7 0,877792 0,80997 0,143305 0,032194 8 1,002544 0,84196 0,064182 0,046929 9 1,326658 0,90769 0,0188 0,092311

28 Analýza reziduí Normalita rozdělení
! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro přímku H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1) Testovací statistika D = 0,2085. Kritický obor: pro 9 hodnot je D > 0,43 (podmínka zamítnutí H0). Nezamítáme H0, rezidua přímky mají normální rozdělení.

29 Analýza reziduí Normalita rozdělení
! Příklad: Český hydrometeorologický ústav v Praze měřil ... K-S test pro hyperbolu H0: normovaná rezidua mají normální rozdělení N(0;1) HA: normovaná rezidua nemají normální rozdělení N(0;1) Test bude proveden stejným způsobem, ale bude založen na normovaných reziduích regresního modelu hyperboly. Testovací statistika D = 0,189 Kritický obor: pro 9 hodnot je D > 0,43 (podmínka zamítnutí H0). Nezamítáme H0, rezidua hyperboly mají normální rozdělení.

30 Analýza reziduí Homoskedasticita
Rozptyl reziduí σ2 je konstantní – homoskedasticita. Vlastnosti rozptylu reziduí lze také posoudit pomocí grafu reziduí. Vzdálenost bodů od osy X by měla být stejná, neměla by tedy se změnou proměnné x ani růst ani klesat. Je-li rozptyl konstantní jde o tzv. homoskedasticitu. Není-li rozptyl konstantní jde o tzv. heteroskedasticitu.

31 Analýza reziduí Homoskedasticita
Není-li rozptyl konstantní jde o tzv. heteroskedasticitu. S rostoucí hodnotou proměnné x se rezidua vzdalují od hodnoty 0. Tento model je nevhodný!

32 Analýza reziduí Homoskedasticita
Je-li rozptyl konstantní jde o tzv. homoskedasticitu. S rostoucí hodnotou proměnné x zůstávají rezidua na stejné vzdálenosti od hodnoty 0. Tento model je vhodný!

33 Analýza reziduí Homoskedasticita
! Příklad: Český hydrometeorologický ústav v Praze měřil ... Porovnání grafů reziduí pro regresní přímku a regresní hyperbolu. Z obou grafů se zdá, že u přímky ani u hyperboly se heteroskedasticita nevyskytuje. Z tohoto pohledu splňují oba modely podmínku konstantního rozptylu.

34 Analýza reziduí Homoskedasticita
Podmínku lze testovat tak, že rezidua rozdělíme na dvě poloviny a provedeme dvouvýběrový test na srovnání rozptylů (viz přednáška číslo 5 – testování hypotéz) s hypotézami: H0: rozptyly v obou polovinách jsou stejné resp. D1(ei) = D2(ei) HA: rozptyly v obou polovinách nejsou stejné resp. D1(ei) ≠ D2(ei) Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. MS EXCEL = FTEST (první oblast; druhá oblast) nebo Nástroje – Analýza Dat – Dvouvýběrový F-test pro rozptyl

35 Analýza reziduí Homoskedasticita
! Příklad: Český hydrometeorologický ústav v Praze měřil ... MS EXCEL = FTEST (první oblast; druhá oblast) H0: rozptyly v obou polovinách jsou stejné resp. D1(ei) = D2(ei) HA: rozptyly v obou polovinách nejsou stejné resp. D1(ei) ≠ D2(ei) p-hodnota testu pro rezidua přímky = 0,9. Rezidua mají stejný rozptyl, jsou homoskedastická! p-hodnota testu pro rezidua hyperboly = 0,67. Oba testy dokázaly, že ani v jednom případě se heteroskedasticita nevyskytuje.

36 Analýza reziduí Závěr analýzy Rezidua jsou náhodná - prokázáno znaménkovým testem Rezidua jsou nezávislá - prokázáno D-W testem Rezidua obou modelů mají normální rozdělení N(0;σ2) – prokázáno K-S testem Rozptyl reziduí obou modelů je konstantní - prokázáno F-testem Modely přímky i paraboly splňují podmínky kladené na rezidua. Modely lze využít pro předpověď.

37 Předpovědi Vedle pochopení principu závislosti proměnných lze model použít i pro předpovědi neznámých hodnot vysvětlované proměnné. Předpovědi mohou být: bodové – neznámé hodnoty vysvětlované proměnné y jsou odhadnuty jedním číslem. intervalové – neznámé hodnoty vysvětlované proměnné y jsou odhadnuty oboustranným intervalem spolehlivosti.

38 Předpovědi Bodové předpovědi – do odhadnuté regresní rovnice dosadím požadovanou hodnotu vysvětlující proměnné (x) a vypočteme odpovídající hodnotu ŷi. Intervalové předpovědi – oboustranný interval spolehlivosti pro podmíněnou střední hodnotu (pro průměr) má tvar: ŷi - t1-α/2(n-p) · s(ŷi ) < ηi < ŷi + t1-α/2(n-p) · s(ŷi ) , ŷi … je bodová předpověď vysvětlované proměnné a s(ŷi ) … je směrodatná chyba odhadu:

39 Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x. Jaká bude průměrná teplota půdy ve 100 metrů n.m. a jaká v 1000 metrů n.m.? Pro x = 100 metrů n.m. ŷ = 10,795 – 0,00541·100 = 10,25 Pro x = 1000 metrů n.m. ŷ = 10,795 – 0,00541·1000 = 5,39 V nadmořské výšce 100 metrů bude podle modelu průměrná teplota půdy 10,25 0C. V nadmořské výšce 1000 metrů bude podle modelu průměrná teplota půdy 5,39 0C.

40 Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Jaká bude 95% intervalová předpověď průměrné teploty ve 100 m n.m.? Hodnoty a charakteristiky potřebné po výpočet: xi = 100 (hodnota proměnné x pro kterou se počítá předpověď) ŷi = 10,25 (bodový odhad); p = 2 (počet parametrů modelu) n = 9 (počet hodnot); α = 0,05 (pro 95% interval spolehlivosti) x = 302,89 (průměr z hodnot x) sx = 147,85 (směrodatná odchylka z hodnot x) se = 0,56 (reziduální směrodatná odchylka) Pozn.: součást výstupu nástroje Regrese v MS Excel Regresní statistika Násobné R 0,83649 Hodnota spolehlivosti R 0,699716 Nastavená hodnota spolehlivosti R 0,656818 Chyba stř. hodnoty 0,560452 Pozorování 9

41 Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Výpočet směrodatná chyby odhadu s(ŷi ). Výpočet mezí předpovědního intervalu: ŷi - t1-α/2(n-p) · syi < ηi < ŷi + t1-α/2(n-p) · syi , 10,25 – t0,975(9-2) · 0,65 < ηi < 10,25 + t0,975(9-2) · 0,65 , 10,25 – 2,36 · 0,65 < ηi < 10,25 + 2,36 · 0,65 , 8,716 < ηi < 11,784. S pravděpodobností 95% bude průměrná teplota půdy ve 100 m n.m. v rozmezí od 8,71 °C do 11,784 °C.

42 Předpovědi ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Předpovědní interval je vždy nejužší kolem střední hodnoty proměnné x (zde 302,89 m n.m.) na obě strany se pak rozšiřuje. Čím dále je předpověď od střední hodnoty proměnné x, tím nižší je její přesnost!

43 Analýza reziduí a Předpovědi v Regresní analýze Důležité pojmy – 9
Analýza reziduí a Předpovědi v Regresní analýze Důležité pojmy – 9. přednáška Náhodná složka modelu Rezidua modelu Podmínky regresního modelu Znaménkový test náhodnosti Durbin-Watsonův test nezávislosti Kolmogorov-Smirnovův test normality F-test homoskedasticity Bodová předpověď Intervalová předpověď


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google