Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 A NALÝZA REZIDUÍ A P ŘEDPOVĚDI V R EGRESNÍ ANALÝZE

3 A NALÝZA REZIDUÍ V R EGRESNÍ ANALÝZE Rezidua Podmínka náhodnosti Podmínka nezávislosti Podmínka normality rozdělení Podmínka homoskedasticity Bodová předpověď v regresním modelu Intervalová předpověď 3

4 Regresní model Zjednodušené zobrazení reality. y = η + ε Např. pomocí přímky: y = β 0 + β 1 x + ε (lineární závislost) Deterministická složka Náhodná složka (popisuje vliv vysvětlující(všechny ostatní, proměnné)nepopsané vlivy) A NALÝZA REZIDUÍ 4

5 Klasická rezidua e i jsou odchylky skutečných hodnot y i od modelem odhadnutých hodnot ŷ i, tedy e i = y i - ŷ i V grafu jde o odchylky bodů o křivky regresního modelu. e3e3 e1e1 e2e2 e4e4 e5e5 e6e6 e7e7 e8e8 e9e9 5

6 A NALÝZA REZIDUÍ Normovaná rezidua e Ni jsou rezidua modelu mající normální rozdělení se střední hodnotou 0 a rozptylem 1. Normalizace reziduí se provádí vydělením hodnoty rezidua směrodatnou odchylkou reziduí e Ni = e i /s ei. Hodnoty větší než trojnásobek směrodatné odchylky jsou brány jako odlehlé. 6

7 A NALÝZA REZIDUÍ Příklad: Český hydrometeorologický ústav v Praze měřil … Rezidua regresního modelu přímky. Pozo- rování Skutečná teplota y i Očekávaná teplota ŷ i Rezidua e i Normovaná rezidua e Ni 110,49, = 10,4 – 9,939 = = 0, = 0,460187/0, = = 0, ,59, , , ,39, , , ,29, , , ,99, , , ,79, , , , , , ,38, , , ,17, , , Směrodatná odchylka reziduí0,

8 A NALÝZA REZIDUÍ MS Excel: Data – Analýza – Analýza Dat – Regrese Program vykreslí graf reziduí pro jejich grafickou analýzu. Program vypíše tabulku reziduí modelu. Program dopočítá normovaná rezidua. 8

9 A NALÝZA REZIDUÍ Aby bylo možné model použít (např. pro předpověď), měla by rezidua splňovat následující podmínky: 1. Rezidua jsou náhodná a nezávislá. 2. Rezidua mají normální rozdělení N(0;σ 2 ). 3. Rozptyl reziduí σ 2 je konstantní. Pokud model nesplňuje některou z výše uvedených podmínek, nelze jej pro daná data použít, i kdyby byl lepší než alternativní modely (např. podle upraveného determinačního indexu I 2 upr. )! 9

10 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Náhodnost reziduí lze dobře posoudit pomocí bodového grafu (graf reziduí), ve kterém jsou na ose y rezidua a na ose x je vysvětlující (nezávislá proměnná). Počet kladných a záporných reziduí by měl být přibližně stejný, rezidua by měla být rozložena náhodně. Posuzování grafu je subjektivní! Zejména při malém počtu reziduí. 10

11 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: V tomto případě nejsou rezidua náhodná (je patrný systematický průběh - parabola), zvolený model je absolutně nevhodný! Pozn.: jedná se o rezidua regresního modelu přímky aplikovaného na data, která ve skutečnosti vykazují parabolickou závislost. 11

12 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: V tomto případě jsou rezidua náhodná, zvolený model je vhodný. Pozn.: jedná se o rezidua modelu paraboly aplikovaného na data, která mají ve skutečnosti parabolickou závislost. 12

13 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: Český hydrometeorologický ústav v Praze měřil... Hodnocení náhodnosti reziduí z grafů reziduí pro regresní přímku a regresní hyperbolu. Z grafů se zdá, že rezidua regresní přímky i regresní hyperboly jsou náhodná. Pozor však na malý počet reziduí v grafu. 13

14 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Vedle grafické analýzy lze použít i testy náhodnosti reziduí např.: znaménkový test, test založený na bodech zvratu a testy nezávislosti reziduí např.: Durbin-Watsonův test. 14

15 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Znaménkový test náhodnosti (neparametrický test) H 0 : rezidua jsou náhodná H A : rezidua nejsou náhodná Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Nejdříve se vypočtou rozdíly dvou po sobě jdoucích reziduí e i - e i-1 a určí se počet kladných S + a záporných rozdílů S -, jejichž součet je k. Hodnota S je větší z čísel S + a S -. Nulové rozdíly se vypustí (pak se sníží i k). Kritický obor: W = {U; |U| > u 1-α/2 }, v praxi postačuje srovnání s hodnotou u 0,975 = 1,96. 15

16 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: Český hydrometeorologický ústav v Praze měřil... Znaménkový test (přímka): H 0 : rezidua jsou náhodná H A : rezidua nejsou náhodná Pozo- rováníRezidua e i Rozdíl (e i – e i-1 ) 10, , , , , ,377150, , , , , , , ,032210, , , Počet kladných rozdílů S + je vyšší a je 5, tedy S=5. Kritický obor: |U| > u 1-α/2 = u 0,975 = 1,96. Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua přímky jsou dle testu náhodná! 16

17 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: Český hydrometeorologický ústav v Praze měřil... Znaménkový test (hyperbola): H 0 : rezidua jsou náhodná H A : rezidua nejsou náhodná Pozo- rováníRezidua e i Rozdíl (e i – e i-1 ) 1-0, , , , , , , , , , , , , , , , , Počet kladných rozdílů S + je vyšší a je 5, tedy S=5. Kritický obor: |U| > u 1-α/2 = u 0,975 = 1,96 Hodnota testového kritéria U není větší než kvantil normovaného normálního rozdělení, takže nezamítáme nulovou hypotézu. Rezidua hyperboly jsou dle testu také náhodná! 17

18 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Durbin-Watsonův test nezávislosti H 0 : rezidua jsou nezávislá H A : rezidua jsou závislá Testové kritérium Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. Kritický obor : nemá žádné ze standardních rozdělení, nutno použít tabulky (http://most.ujep.cz/~popelka/tabulky.xls), které obsahují kritické hodnoty d a h pro počet parametrů modelu p a počet hodnot n.http://most.ujep.cz/~popelka/tabulky.xls H 0 zamítáme, pokud platí DW 4 - d. H 0 nezamítáme, pokud platí h < DW < 2, nebo 2 < DW < 4 - h. V ostatních případech test mlčí! 18

19 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Durbin-Watsonův test nezávislosti - Kritický obor 19

20 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: Český hydrometeorologický ústav v Praze měřil... D-W test pro přímku H 0 : rezidua jsou nezávislá H A : rezidua jsou závislá Pozo- rováníei2ei2 (e i – e i-1 ) 2 1 0, , , , , , , , , , , , ,127E , , , , Suma 2, , Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d = 1,077 a h = 1,361. Protože platí h < DW < 2, nezamítáme H 0. Rezidua přímky jsou dle testu nezávislá! 20

21 A NALÝZA REZIDUÍ N ÁHODNOST A NEZÁVISLOST Příklad: Český hydrometeorologický ústav v Praze měřil... D-W test pro hyperbolu H 0 : rezidua jsou nezávislá H A : rezidua jsou závislá Pozo- rováníei2ei2 (e i – e i-1 ) 2 1 0, , , , , , , , , , , ,117090, , , ,048440, Suma 1, , Kritické hodnoty testu pro p=2 a n=9 nejsou v tabulce, proto použijeme nejbližší pro n=15, d = 1,077 a h = 1,361. Protože platí 2 < DW < 4 - h, tedy 2 < DW < 2,64, nezamítáme H 0. Rezidua hyperboly jsou dle testu nezávislá! 21

22 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ 2. Rezidua mají normální rozdělení N(0;σ 2 ) Lze zjistit několika způsoby: a) Grafické metody – histogram, kvantilový graf b) Popisné charakteristiky – šikmost a špičatost jsou obě blízké nule c) Testy statistických hypotéz – Kolmogorov-Smirnovův test, Chí- kvadrát test dobré shody Všechny postupy jsou detailně popsány v přednášce číslo 7. 22

23 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Kolmogorov-Smirnovův test Test lze aplikovat na klasická rezidua e i, pro která platí hypotézy: H 0 : rezidua mají normální rozdělení N(0;σ 2 ) H A : rezidua nemají normální rozdělení N(0;σ 2 ) V testu lze využít normalizovaná rezidua e Ni, pro která jsou hypotézy: H 0 : normovaná rezidua mají normální rozdělení N(0;1) H A : normovaná rezidua nemají normální rozdělení N(0;1) 23

24 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Kolmogorov-Smirnovův test Rezidua modelu se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(e (Ni) ) hypotetického rozdělení (= NORMDIST) Testové kritérium: je maximum z hodnot T 1 a T 2 vypočtených pro všechna seřazená rezidua e (Ni). 24

25 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Kolmogorov-Smirnovův test Kritický obor: W={D; D ≥ d(n; α )} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce nebo např. skriptech (str. 102).http://most.ujep.cz/~popelka/tabulky.xls Pro n > 50 pak d(n; 0,05) ≈ 1,36/n 1/2 25

26 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Příklad: Český hydrometeorologický ústav v Praze měřil... K-S test pro přímku Pořadí Seřazená norm. rezidua e (Ni) F(e (Ni) ) 1 -1,201530, ,187880, ,755810, ,719410, ,061430, , , , , , , , ,90769 Hodnoty distribuční funkce F(e (Ni) ) vypočteme pomocí funkce NORMDIST s argumenty = NORMDIST (e (i) ;0;1;1). Pro e (N1) konkrétně =NORMDIST (-1,20153;0;1;1) = 0, Jde o pravděpodobnost, že hodnota normovaného rezidua bude menší nebo rovna číslu -1,

27 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Příklad: Český hydrometeorologický ústav v Praze měřil... K-S test pro přímku Pořadí Seřazená norm. rezidua e (Ni) F(e (Ni) ) 1 -1,201530,114770, , ,187880,117440,006330, ,755810,224880,002660, ,719410,235940, , ,061430,475510, , , ,763950, , , ,809970, , , ,841960, , , ,907690,01880,

28 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Příklad: Český hydrometeorologický ústav v Praze měřil... K-S test pro přímku H 0 : normovaná rezidua mají normální rozdělení N(0;1) H A : normovaná rezidua nemají normální rozdělení N(0;1) Testovací statistika D = 0,2085. Kritický obor: pro 9 hodnot je D > 0,43 (podmínka zamítnutí H 0 ). Nezamítáme H 0, rezidua přímky mají normální rozdělení. 28

29 A NALÝZA REZIDUÍ N ORMALITA ROZDĚLENÍ Příklad: Český hydrometeorologický ústav v Praze měřil... K-S test pro hyperbolu H 0 : normovaná rezidua mají normální rozdělení N(0;1) H A : normovaná rezidua nemají normální rozdělení N(0;1) Test bude proveden stejným způsobem, ale bude založen na normovaných reziduích regresního modelu hyperboly. Testovací statistika D = 0,189 Kritický obor: pro 9 hodnot je D > 0,43 (podmínka zamítnutí H 0 ). Nezamítáme H 0, rezidua hyperboly mají normální rozdělení. 29

30 A NALÝZA REZIDUÍ H OMOSKEDASTICITA 3. Rozptyl reziduí σ 2 je konstantní – homoskedasticita. Vlastnosti rozptylu reziduí lze také posoudit pomocí grafu reziduí. Vzdálenost bodů od osy X by měla být stejná, neměla by tedy se změnou proměnné x ani růst ani klesat. Je-li rozptyl konstantní jde o tzv. homoskedasticitu. Není-li rozptyl konstantní jde o tzv. heteroskedasticitu. 30

31 A NALÝZA REZIDUÍ H OMOSKEDASTICITA Není-li rozptyl konstantní jde o tzv. heteroskedasticitu. S rostoucí hodnotou proměnné x se rezidua vzdalují od hodnoty 0. Tento model je nevhodný! 31

32 A NALÝZA REZIDUÍ H OMOSKEDASTICITA Je-li rozptyl konstantní jde o tzv. homoskedasticitu. S rostoucí hodnotou proměnné x zůstávají rezidua na stejné vzdálenosti od hodnoty 0. Tento model je vhodný! 32

33 A NALÝZA REZIDUÍ H OMOSKEDASTICITA Příklad: Český hydrometeorologický ústav v Praze měřil... Porovnání grafů reziduí pro regresní přímku a regresní hyperbolu. Z obou grafů se zdá, že u přímky ani u hyperboly se heteroskedasticita nevyskytuje. Z tohoto pohledu splňují oba modely podmínku konstantního rozptylu. 33

34 A NALÝZA REZIDUÍ H OMOSKEDASTICITA Podmínku lze testovat tak, že rezidua rozdělíme na dvě poloviny a provedeme dvouvýběrový test na srovnání rozptylů (viz přednáška číslo 5 – testování hypotéz) s hypotézami: H 0 : rozptyly v obou polovinách jsou stejné resp. D 1 (e i ) = D 2 (e i ) H A : rozptyly v obou polovinách nejsou stejné resp. D 1 (e i ) ≠ D 2 (e i ) Test předpokládá, že před aplikací MNČ byly hodnoty seřazeny dle vysvětlující proměnné. MS EXCEL = FTEST (první oblast; druhá oblast) nebo Nástroje – Analýza Dat – Dvouvýběrový F-test pro rozptyl 34

35 A NALÝZA REZIDUÍ H OMOSKEDASTICITA Příklad: Český hydrometeorologický ústav v Praze měřil... MS EXCEL = FTEST (první oblast; druhá oblast) H 0 : rozptyly v obou polovinách jsou stejné resp. D 1 (e i ) = D 2 (e i ) H A : rozptyly v obou polovinách nejsou stejné resp. D 1 (e i ) ≠ D 2 (e i ) p-hodnota testu pro rezidua přímky = 0,9. Rezidua mají stejný rozptyl, jsou homoskedastická! p-hodnota testu pro rezidua hyperboly = 0,67. Rezidua mají stejný rozptyl, jsou homoskedastická! Oba testy dokázaly, že ani v jednom případě se heteroskedasticita nevyskytuje. 35

36 A NALÝZA REZIDUÍ Závěr analýzy Rezidua jsou náhodná - prokázáno znaménkovým testem Rezidua jsou nezávislá - prokázáno D-W testem Rezidua obou modelů mají normální rozdělení N(0;σ 2 ) – prokázáno K-S testem Rozptyl reziduí obou modelů je konstantní - prokázáno F-testem Modely přímky i paraboly splňují podmínky kladené na rezidua. Modely lze využít pro předpověď. 36

37 P ŘEDPOVĚDI Vedle pochopení principu závislosti proměnných lze model použít i pro předpovědi neznámých hodnot vysvětlované proměnné. Předpovědi mohou být: 1. bodové – neznámé hodnoty vysvětlované proměnné y jsou odhadnuty jedním číslem. 2. intervalové – neznámé hodnoty vysvětlované proměnné y jsou odhadnuty oboustranným intervalem spolehlivosti. 37

38 P ŘEDPOVĚDI Bodové předpovědi – do odhadnuté regresní rovnice dosadím požadovanou hodnotu vysvětlující proměnné (x) a vypočteme odpovídající hodnotu ŷ i. Intervalové předpovědi – oboustranný interval spolehlivosti pro podmíněnou střední hodnotu (pro průměr) má tvar: ŷ i - t 1-α/2 (n-p) · s(ŷ i ) < η i < ŷ i + t 1-α/2 (n-p) · s(ŷ i ), ŷ i … je bodová předpověď vysvětlované proměnné a s(ŷ i ) … je směrodatná chyba odhadu: 38

39 P ŘEDPOVĚDI Příklad: Český hydrometeorologický ústav v Praze měřil... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 · x. Jaká bude průměrná teplota půdy ve 100 metrů n.m. a jaká v 1000 metrů n.m.? Pro x = 100 metrů n.m. ŷ = 10,795 – 0,00541·100 = 10,25 Pro x = 1000 metrů n.m. ŷ = 10,795 – 0,00541·1000 = 5,39 V nadmořské výšce 100 metrů bude podle modelu průměrná teplota půdy 10,25 0 C. V nadmořské výšce 1000 metrů bude podle modelu průměrná teplota půdy 5,39 0 C. 39

40 P ŘEDPOVĚDI Příklad: Český hydrometeorologický ústav v Praze měřil... Jaká bude 95% intervalová předpověď průměrné teploty ve 100 m n.m.? Hodnoty a charakteristiky potřebné po výpočet: x i = 100 (hodnota proměnné x pro kterou se počítá předpověď) ŷ i = 10,25 (bodový odhad); p = 2 (počet parametrů modelu) n = 9 (počet hodnot); α = 0,05 (pro 95% interval spolehlivosti) x = 302,89 (průměr z hodnot x) s x = 147,85 (směrodatná odchylka z hodnot x) s e = 0,56 (reziduální směrodatná odchylka) Pozn.: součást výstupu nástroje Regrese v MS Excel 40 Regresní statistika Násobné R0,83649 Hodnota spolehlivosti R0, Nastavená hodnota spolehlivosti R0, Chyba stř. hodnoty0, Pozorování9

41 P ŘEDPOVĚDI Příklad: Český hydrometeorologický ústav v Praze měřil... Výpočet směrodatná chyby odhadu s(ŷ i ). Výpočet mezí předpovědního intervalu: ŷ i - t 1-α/2 (n-p) · s yi < η i < ŷ i + t 1-α/2 (n-p) · s yi, 10,25 – t 0,975 (9-2) · 0,65 < η i < 10,25 + t 0,975 (9-2) · 0,65, 10,25 – 2,36 · 0,65 < η i < 10,25 + 2,36 · 0,65, 8,716 < η i < 11,784. S pravděpodobností 95% bude průměrná teplota půdy ve 100 m n.m. v rozmezí od 8,71 °C do 11,784 °C. 41

42 P ŘEDPOVĚDI Příklad: Český hydrometeorologický ústav v Praze měřil... Předpovědní interval je vždy nejužší kolem střední hodnoty proměnné x (zde 302,89 m n.m.) na obě strany se pak rozšiřuje. Čím dále je předpověď od střední hodnoty proměnné x, tím nižší je její přesnost! 42

43 Náhodná složka modelu Rezidua modelu Podmínky regresního modelu Znaménkový test náhodnosti Durbin-Watsonův test nezávislosti Kolmogorov-Smirnovův test normality F-test homoskedasticity Bodová předpověď Intervalová předpověď 43 A NALÝZA REZIDUÍ A P ŘEDPOVĚDI V R EGRESNÍ ANALÝZE D ŮLEŽITÉ POJMY – 9. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google