Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW: http://most.ujep.cz/~popelkahttp://most.ujep.cz/~popelka

2 A NALÝZA ČASOVÝCH ŘAD

3 Úvod do časových řad Elementární charakteristiky Jednorozměrné modely Trendová složka Sezónní složka Náhodná složka Předpovědi

4 Ú VOD DO ČASOVÝCH ŘAD Časová řada je posloupnost hodnot určitého statistického znaku (ukazatele) uspořádaných z hlediska času ve směru od minulosti k přítomnosti.

5 Ú VOD DO ČASOVÝCH ŘAD Musí se jednat o ukazatel, který je věcně a prostorově shodně vymezen po celé sledované období. Např.: měsíční ceny výrobku mohou být vyjádřeny v Kč, což ovšem vzhledem k neustále probíhající inflaci není dlouhodobě srovnatelný způsob vyjádření – věcně není stejně vymezen!

6 Ú VOD DO ČASOVÝCH ŘAD Např.: sledujeme-li počty krádeží ve sledované oblasti (okres, kraj) za rok, můžeme zaregistrovat jejich náhlý pokles, který je ovšem způsoben jen tím, že zákonem byla zvýšena hodnota minimální způsobené škody nutné k zahrnutí mezi krádeže - věcně není shodně vymezen! Prostorově však je shodně vymezen – je to tentýž kraj.

7 Ú VOD DO ČASOVÝCH ŘAD Hodnoty časové řady se standardně značí symbolem y t, kde t je pořadí hodnoty časové řady. t nabývá nejčastěji hodnot 1, 2, …, n nebo 0, 1, …, n. Hodnoty jsou řazeny od nejstarší po nejnovější.

8 Ú VOD DO ČASOVÝCH ŘAD Dále je možné značit konkrétněji y 1995, y 1996,..., y 1997, kde indexy označují přímo rok pozorování. Lze také psát y I/1995, y II/1995,..., y IV/1997 pro čtvrtletní údaje nebo y leden/1995, y únor/1995 … pro měsíční údaje atd.

9 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko b) periodicita sledování c) způsob vyjádření

10 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko 1. okamžikové časové řady - udávají stav ukazatele v určitých okamžicích. Hodnoty stavu nezávisejí na časových vzdálenostech (intervalech) mezi okamžiky sledování. Sčítání hodnot řady nemá logický význam. Např.: řada teplot ovzduší na hydrometeorologické stanici odečítaná každou hodinu; řada udávající počet zaměstnanců podniku na konci měsíce; řada koncentrací nečistoty v odpadních vodách měřená v pravidelných intervalech na výstupu ze závodu.

11 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko 2. intervalové časové řady - hodnoty sledují vznik nebo zánik prvků za časový interval a závisejí na délkách intervalů. Časová řada udává změny (přírůstek, úbytek) za určité období. Hodnotu ukazatele za delší časový úsek lze získat sčítáním hodnot za dílčí části tohoto úseku (roční údaj je součtem údajů měsíčních). Např.: počty narozených dětí ve státě za rok; produkce nebo spotřeba při výrobě za měsíc; počet autonehod za den.

12 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: b) periodicita sledování 1. dlouhodobé časové řady – údaje měřené jednou za rok nebo za delší období. Nejčastěji se vyskytují roční časové řady. Např.: výroba za komunisty oblíbenou pětiletku; počet narozených dětí v Čechách za rok.

13 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: b) periodicita sledování 2. krátkodobé časové řady – údaje měřené za období kratší než jeden rok. Např.: čtvrtletní, měsíční, týdenní, denní, hodinové (koncentrace NOx v ovzduší), minutové a dokonce i vteřinové časové řady (burza cenných papírů).

14 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: c) způsob vyjádření 1. peněžní časové řady – ukazatel je veden v peněžních jednotkách (domácí i zahraniční měny). Např.: nejčastěji u ekonomických časových řad – ceny téměř čehokoliv, platy, zisk, měnové kurzy.

15 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: c) způsob vyjádření 2. naturální časové řady – ukazatel je veden v naturálních jednotkách. Např.: jakékoliv jiné jednotky než peněžní (počty událostí, koncentrace látek ve vodě, vzduchu).

16 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 1993 a 1994 – měsíční údaje. Spojnicový graf je ideální pro zobrazení vývoje časové řady

17 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] 20092010 leden 4 413 3 887 únor 4 026 3 679 březen 4 085 3 957 duben 3 441 3 325 květen 3 338 3 332 červen 3 492 3 174 červenec 3 011 3 252 srpen 3 363 3 335 září 3 507 3 835 říjen 4 139 4 296 listopad 4 282 3 943 prosinec 4 063 3 759 Celkem 45 160 43 774 Časová řada je intervalová (udává celkové vytěžené množství za měsíc), krátkodobá (měsíční údaje) a naturální (ukazatel je v tisících tun). Intervalovou řadu má smysl sčítat. Roční součet udává celkovou těžbu za rok 2009 (45 160 tis. t) a za rok 2010 (43 774 tis t).

18 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Rozdíl 20092010 leden 4 413 3 887 -526 únor 4 026 3 679 -347 březen 4 085 3 957 -28 duben 3 441 3 325 -116 květen 3 338 3 332 -6 červen 3 492 3 174 -318 červenec 3 011 3 252 241 srpen 3 363 3 335 -28 září 3 507 3 835 328 říjen 4 139 4 296 157 listopad 4 282 3 943 -339 prosinec 4 063 3 759- 304 Celkem 45 160 43 774 - 1 386 Smysl mají i rozdíly. V roce 2010 bylo vytěženo o 1 386 tun uhlí méně než v roce 2009. Rozdíly pro jednotlivé měsíce pak udávají změny z pohledu jednotlivých měsíců. V lednu 2010 bylo vytěženo o 526 tun uhlí méně než v lednu předchozího roku.

19 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Klouzavé úhrny 2010 20092010 leden 4 413 3 887 44 634 únor 4 026 3 679 44 287 březen 4 085 3 957 44 159 duben 3 441 3 325 44 043 květen 3 338 3 332 44 037 červen 3 492 3 174 43 719 červenec 3 011 3 252 43 960 srpen 3 363 3 335 43 932 září 3 507 3 835 44 260 říjen 4 139 4 296 44 417 listopad 4 282 3 943 44 078 prosinec 4 063 3 759 43 774 Celkem 45 160 43 774 Klouzavé úhrny jsou součtem za určité období délky p: Y n (p) = y n-p+1 + y n-p+2 +...+ + y n-1 + y n = Za období červenec 2009 až červen 2010 (p=12) bylo vytěženo 43 719 tisíc tun uhlí.

20 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] 20092010 leden 4 413 3 887 únor 4 026 3 679 březen 4 085 3 957 duben 3 441 3 325 květen 3 338 3 332 červen 3 492 3 174 červenec 3 011 3 252 srpen 3 363 3 335 září 3 507 3 835 říjen 4 139 4 296 listopad 4 282 3 943 prosinec 4 063 3 759 průměr 3 763 3 648 Význam má i výpočet aritmetického průměru podle vzorce:  y i / n MS EXCEL = PRŮMĚR(oblast) V průměru bylo v letech 2009 a 2010 vytěženo 3 706 tis. tun uhlí měsíčně. V roce 2009 byl průměr 3 763 tis. tun a v roce 2010 3 648 tis. tun měsíčně.

21 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentra ce (mg/l) 5.1.20104,9 1.3.20104,5 5.5.20103,4 7.6.20102,6 12.7.201010 9.8.20105,3 6.9.20101,9 4.10.20106,6 1.11.20101,5 6.12.20103,1 Časová řada je okamžiková (udává zásobu uhlí k určitému datu), krátkodobá (měsíční údaje) a naturální (ukazatel je v tunách). Okamžikovou řadu nemá smysl sčítat.

22 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010).

23 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) 5.1.20104,9 1.3.20104,5 5.5.20103,4 7.6.20102,6 12.7.201010 9.8.20105,3 6.9.20101,9 4.10.20106,6 1.11.20101,5 6.12.20103,1 Počítá se tzv. chronologický průměr: který je průměrem z průměrů dvou po sobě jdoucích hodnot. Tento vzorec lze použít, pokud je doba mezi odečty vždy stejná.

24 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentra ce (mg/l) 5.1.20104,9 1.3.20104,5 5.5.20103,4 7.6.20102,6 12.7.201010 9.8.20105,3 6.9.20101,9 4.10.20106,6 1.11.20101,5 6.12.20103,1 Pokud doba mezi odečty není vždy stejná, je nutné počítat vážený chronologický průměr, kde vahami jsou délky intervalů mezi odečty (t i – t i-1 )/Σ(t i – t i-1 ).

25 E LEMENTÁRNÍ CHARAKTERISTIKY Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncen trace (mg/l) (y i-1 +y i ) 2 Délka intervalu (měsíce) (y i-1 +y i )·(t i -t i-1 ) 2 5.1.20104,9 --- 1.3.20104,54,7 2 9,4 5.5.20103,43,95 2 7,9 7.6.20102,63 1 3 12.7.2010106,3 1 9.8.20105,37,65 1 6.9.20101,93,6 1 4.10.20106,64,25 1 1.11.20101,54,05 1 6.12.20103,12,3 1 Celkem--11 48,45 Vážený chronologický průměr: Průměrná koncentrace v roce 2010 byla 4,41 mg/l.

26 E LEMENTÁRNÍ CHARAKTERISTIKY K orientačnímu posouzení vlastností časových řad lze využít: 1. absolutní diference 1. řádu – rozdíly dvou po sobě jdoucích hodnot časové řady. Vyjadřují absolutní změny mezi dvěma obdobími. Δ t,t-1 = y t – y t-1 pro t = 2,3,...,n. 2. absolutní diference 2. řádu – rozdíly dvou po sobě jdoucích hodnot řady diferencí 1. řádu. Δ (2) t,t-2 = Δ t,t-1 – Δ t-1,t-2 pro t = 3, 4...,n.

27 E LEMENTÁRNÍ CHARAKTERISTIKY K orientačnímu posouzení vlastností veškerých časových řad lze využít: 3. průměrné diference – průměrná hodnota diferencí za sledované období

28 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

29 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) 1. diference (Δ) 20031 878 960 - 20042 742 932863 972 20053 133 325390 393 20063 518 883385 558 20073 412 097-106 786 20083 731 013318 916 20094 654 969923 956 20105 903 1561 248 187 Celkem28 975 335 4 024 196 Absolutní diference (diference 1. řádu): Δ 2010,2009 = y 2010 – y 2009 = = 4 654 969 - 5 903 156 = 1 248 187 MWh V roce 2010 vzrostla oproti roku 2009 výroba el. z obnovených zdrojů v ČR o 1 248 187 MWh.

30 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

31 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné diference: Mezi roky 2003 až 2010 rostla výroby elektřiny z obnovitelných zdrojů v průměru o 574 885 MWh za rok. RokVýroba el. (MWh) 1. diference (Δ) 20031 878 960 - 20042 742 932863 972 20053 133 325390 393 20063 518 883385 558 20073 412 097-106 786 20083 731 013318 916 20094 654 969923 956 20105 903 1561 248 187 Průměr3 870 911 574 885

32 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) 1. diference (Δ) 2. diference (Δ (2) ) 20031 878 960 -- 20042 742 932863 972 - 20053 133 325390 393-473 579 20063 518 883385 558-4 835 20073 412 097-106 786-492 344 20083 731 013318 916425 702 20094 654 969923 956605 040 20105 903 1561 248 187324 231 Průměr3 870 911 574 885 64 036 Absolutní diference (diference 2. řádu): Δ (2) 2010,2008 = = Δ 2010,2009 – Δ 2009,2008 = = 1 248 187 - 923 956 = = 324 231 Praktická interpretace ukazatele již nemá smysl, používá se k odhalení trendu vývoje časové řady.

33 E LEMENTÁRNÍ CHARAKTERISTIKY 4. tempa růstu (řetězové indexy) – podíl dvou po sobě jdoucích hodnot. pro t = 2, 3,...n. Je to relativní (procentuální) změna mezi dvěma po sobě následujícími obdobími. 5. průměrná tempa růstu – jsou geometrickým průměrem vypočítaným z řady temp růstu a udávají průměrnou relativní (procentuální) změnu za sledované období.

34 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) Tempo růstu (%) 20031 878 960- 20042 742 932146% 20053 133 325114% 20063 518 883112% 20073 412 09797% 20083 731 013109% 20094 654 969125% 20105 903 156127% Průměr3 870 911 119% Tempo růstu: V roce 2010 vzrostla oproti roku 2009 výroba elektřiny z obnovitelných zdrojů o 27 %. V roce 2007 klesla oproti roku 2006 výroba elektřiny o 3 % (doplněk do 100%, tedy 100 % - 97 %).

35 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

36 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné tempo růstu: V období mezi roky 2003 – 2010 rostla výroby elektřiny v průměru o 19 % za rok. RokVýroba el. (MWh) Tempo růstu (%) 20031 878 960- 20042 742 932146% 20053 133 325114% 20063 518 883112% 20073 412 09797% 20083 731 013109% 20094 654 969125% 20105 903 156127% Průměr3 870 911 119%

37 Ú VOD DO ČASOVÝCH ŘAD Příklad 4: Výroba elektrické energie v ČSSR a ČR

38 J EDNOROZMĚRNÝ MODEL Jednorozměrný model časové řady je nejjednodušším modelem, ale zároveň i nejvíce využívaným. Stejně jako v regresní analýze je model zjednodušením reality.

39 J EDNOROZMĚRNÝ MODEL Klasický (formální) model nemá ambice nalézt a popsat věcné příčiny vývoje časové řady. Zabývá se pouze popisem pohybu časové řady. Vychází z historického vývoje ukazatele. Např.: nehledá příčiny rostoucí výroby elektřiny, jen popisuje, jak se tento ukazatel v čase vyvíjí.

40 J EDNOROZMĚRNÝ MODEL Formální model rozkládá časovou řadu na čtyři složky (dekompozice časové řady). Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy.

41 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 1. Trendová složka (T t ) Dlouhodobá tendence ve vývoji časové řady. Trend může být rostoucí, klesající, konstantní (časová řada kolísá kolem určité hodnoty) nebo může vykazovat parabolický průběh.

42 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Časová řada s rostoucím trendem.

43 Ú VOD DO ČASOVÝCH ŘAD Příklad 5: Průměrná roční teplota v letech 1775 – 2007. Časová řada s parabolickým trendem.

44 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 2. Sezónní složka (S t ) Jde o pravidelně se opakující odchylku od trendové složky. Tato odchylka je kratší než jeden rok nebo je rovna právě jednomu roku. Doba po které se odchylka opakuje se nazývá perioda.

45 Ú VOD DO ČASOVÝCH ŘAD Příklad 6: Spotřeba tepla na výměníku v Litvínově Časová řada se sezónní složkou s periodou dvanáct měsíců.

46 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 3. Cyklická složka (C t ) Jde o kolísání kolem trendu v důsledku dlouhodobého vývoje s délkou vlny delší než jeden rok. U kratších časových řad (maximálně několik let se téměř nevyskytují). Např.: hospodářské, demografické, strojírenské, inovační, klimatické cykly.

47

48 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 4. Náhodná složka (ε t ) Ta část časové řady, kterou nelze popsat pomocí trendu, sezónní nebo cyklické složky. Jsou to výkyvy časové řady vlivem drobných a nepostižitelných příčin nebo vlivem náhody. Analýza vlastností náhodné složky je stejně jako u regresní analýzy důležitým nástrojem pro volbu vhodného modelu.

49 J EDNOROZMĚRNÝ MODEL Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy. Aditivní model (složky se sčítají): Y t = T t + S t + C t + ε t V praxi velmi často používaný. Multiplikativní model (složky se násobí): Y t = T t · S t · C t · ε t

50 T RENDOVÁ SLOŽKA Ad 1. Trendová složka (T t ) je dlouhodobá tendence ve vývoji časové řady. Popis trendové složky vede k získání informací o hlavní tendenci ve vývoji analyzovaného ukazatele. Může také posloužit pro odhad (předpověď) ukazatele do budoucnosti. Nejčastěji se popisuje prostřednictvím konkrétní matematické funkce.

51 T RENDOVÁ SLOŽKA Při praktické analýze časových řad se uplatňují matematické funkce používané v regresní analýze – přímka, parabola, logaritmická funkce a další. Používají se i složitější např. exponenciální nebo logistická funkce (tzv. S-křivka).

52 T RENDOVÁ SLOŽKA Parametry trendových funkcí se odhadují metodou nejmenších čtverců. MS EXCEL: Nástroje – Analýza Dat – Regrese Vysvětlovanou (závislou) proměnnou jsou hodnoty časové řady y t. Vysvětlující (nezávislou) proměnnou jsou hodnoty času t. Pozn.: Ty mají v nejjednodušším případě hodnoty t = 1, 2, 3... nebo t = 0, 1, 2, 3... nebo mohou být definovány konkrétněji např. letopočtem t = 1970, 1971, 1972.... Musí však jít o číslo.

53 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) y t = b 0 + b 1 ·t Pozn.: jde o lineární (rostoucí) trend, proto směrnice trendové přímky b 1 bude kladné číslo. Lze zapsat i jako: Výroba = b 0 + b 1 ·rok

54 T RENDOVÁ SLOŽKA Příklad 5: Průměrná roční teplota v letech 1775 - 2007 Kvadratický trend (parabola) y t = b 0 + b 1 ·t + b 2 ·t 2 Lze zapsat i jako: Průměrná teplota = = b 0 + b 1 ·rok + b 2 ·rok 2

55 T RENDOVÁ SLOŽKA Příklad 7: Koncentrace CO 2 v atmosféře, 1600-2007 Exponenciální trend (exponenciála) y t = b 0 ·b 1 t Tuto funkci je třeba upravit (transformovat), aby mohly být parametry odhadnuty metodou nejmenších čtverců ln y t = ln b 0 + t·ln b 1 Sleduje se závislost ln y t na čase t.

56 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) y t = b 0 + b 1 ·t Odhad parametrů lineárního trendu provedeme pomocí MS Excel Nástroje – Analýza Dat – Regrese

57 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce má tvar: y t = -937 900 379 + 469 236·t (pro časovou proměnnou t uvedenou v letech t= 2003, 2004,..., 2010) Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice -937900379134917874-6,950,00-1268032525-607768234 rok 469236672406,980,00304704633767 Každý rok bylo podle modelu vyrobeno o 469 236 MWh elektřiny z obnovitelných zdrojů více než v roce předchozím. V roce 0 n.l. by podle modelu bylo vyrobeno -937 900 379 MWh elektřiny (hypotetická hodnota bez praktického významu).

58 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend Výroba = -937 900 379 + 469 236·rok

59 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend zobrazený v MS Excel pomocí volby vložit trendovou funkci Výroba = 2E+06 + 469 236·t.

60 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce má tvar: y t = 1 510 354 + 469 236·t (MS Excel: pro časovou proměnnou t = 1, 2,...) Každý rok bylo podle modelu vyrobeno o 469 236 MWh elektřiny z obnovitelných zdrojů více než v roce předchozím (parametr b 1 je stejný = směrnice obou modelů je stejná). V roce 2002 (t = 0, protože t = 1 odpovídá roku 2003) by podle modelu bylo vyrobeno 1 510 354 MWh elektřiny (parametr b 0 se mění). Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice 15103543395474,450,006795122341196 t 469236672406,980,00304705633767 Trendová funkce měla tvar: y t = -937 900 379 + 469 236·t (t uvedeno v letech t= 2003, 2004,..., 2010)

61 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce přímky má různý tvar v závislosti na hodnotách časové proměnné t. Tyto funkce se liší absolutním členem (parametrem b 0 ), ale obě funkce mají stejnou směrnici (parametr b 1 ). Z tohoto důvodu se v MS Excel mohou lišit odhady vypočtené v bodovém grafu funkcí „Přidat spojnici trendu“ pro spojnicový a bodový graf a odhady vypočtené v nabídce „Nástroje – Analýza Dat – Regrese“.

62 V OLBA VHODNÉHO MODELU Kritérií pro volbu vhodného modelu (vhodné trendové funkce) je několik: 1. věcná analýza 2. grafická analýza 3. analýza diferencí a koeficientů růstu 4. volba na základě determinačních indexů a interpolačních kritérií

63 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Jde o řadu rostoucí nebo klesající?

64 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Roste (resp. klesá řada) konstantně nebo se její růst (resp. klesání) zvyšuje nebo snižuje?

65 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Roste (resp. klesá) nade všechny meze nebo má asymptotu (přibližuje se k určité hodnotě)?

66 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Má řada nějaký bod zlomu (do něj roste, pak klesá nebo naopak)?

67 V OLBA VHODNÉHO MODELU 2. Grafická analýza Posouzení grafu časové řady. Stejný postup jako při regresní analýze. Snaha nalézt nejvhodnější funkci procházející zobrazenými body časové řady. Tento způsob je ovšem subjektivní.

68 V OLBA VHODNÉHO MODELU 2. Grafická analýza Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

69 V OLBA VHODNÉHO MODELU 3. Analýza diferencí a koeficientů růstu Pro elementární charakteristiky časových řad platí jednoduchá pravidla: Lineární trend – první diference Δ jsou přibližně konstantní Kvadratický trend – druhé diference Δ (2) jsou přibližně konstantní Exponenciální trend – koeficienty růstu k jsou přibližně konstantní

70 V OLBA VHODNÉHO MODELU 4. Volba na základě determinačních indexů a interpolačních kritérií Determinační indexy I 2 resp. R 2 používané v regresní analýze nejsou vhodné, pokud porovnáváme modely s různým počtem parametrů. Lepší je opravený det. index I 2 opr. Při analýze časových řad (i v regresi) se preferují jednodušší modely s nižším počtem parametrů.

71 V OLBA VHODNÉHO MODELU 4. Volba na základě determinačních indexů a interpolačních kritérií Pro některé typy modelů nelze det. indexy počítat. Komplexnějším nástrojem jsou interpolační kritéria, založená na porovnání skutečných hodnot časové řady y t a hodnot odhadnutých modelem. Počítají se z reziduí modelu. Model je tím vhodnější, čím je hodnota interpolačního kritéria nižší.

72 V OLBA VHODNÉHO MODELU 4. Volba na základě interpolačních kritérií M.S.E. (střední čtvercová chyba odhadu) v praxi se využívá nejvíce M.A.E. (střední absolutní chyba odhadu) M.E. (střední chyba odhadu) pokud je použit odhad MNČ, pak je vždy 0.

73 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

74 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí interpolačních kritérií TrendM.S.E.M.A.E.M.E. Lineární435 767319 9660 Kvadratický419 075319 9660 Exponenciální372 559308 91414 467 Podle kritérií M.S.E a M.A.E je nejvhodnější trendovou funkcí exponenciální funkce (hodnoty jsou nejnižší).

75 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí determinačních indexů TrendOpravený det. index Lineární87,20 % Kvadratický88,16 % Exponenciální89,16 % Podle opraveného determinačního indexu je nejvhodnějším modelem exponenciální funkce (hodnoty jsou nejvyšší). S přihlédnutím k principu jednoduchosti lze využít jednodušší model přímky.

76 S EZÓNNÍ SLOŽKA Sezónní složka (S t ) je pravidelně se opakující odchylkou od trendové složky s periodou kratší než jeden rok nebo právě jeden rok. Sezónní kolísaní do značné míry zakrývá trend časové řady. Není vhodné odhadovat trendovou funkci přímo z řady obsahující sezónní složku. Předpovědi pak nebudou příliš dobré.

77 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Odhad lineárního trendu bez popisu sezónní složky. Model řady tvořený jen trendem je zcela nevhodný pro předpověď dalšího vývoje. Neakceptuje totiž pravidelné sezónní výkyvy. Pozn.: rezidua modelu nebudou náhodná!!

78 S EZÓNNÍ SLOŽKA Model s konstantní sezónností (aditivní model) Y t = T t + S t + ε t Sezónní výkyvy jsou každý rok stejné. K popisu sezónní složky se používají tzv. sezónní rozdíly a j (S t = a j ). Jedná se o absolutní sezónní odchylku pro j-té období v rámci periody. Dle délky periody lze značit např. a leden, a únor nebo a pondělí, a úterý...

79 S EZÓNNÍ SLOŽKA Sezónní rozdíl a j vyjadřuje absolutní rozdíl, tedy o kolik je hodnota sledovaného ukazatele vyšší nebo nižší oproti dlouhodobému průměru. Tyto výkyvy se v rámci jedné periody kompenzují, tzn. že součet všech rozdílů a j je nulový. Např.: Pokud je délka periody jeden rok, pak platí: a leden + a únor +... + a prosinec = 0. Je-li délka periody jeden týden, pak platí: a pondělí + a úterý +... + a neděle = 0.

80 S EZÓNNÍ SLOŽKA Při odhadu sezónních rozdílů a j se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Ty vycházejí z klouzavých úhrnů a jsou vlastně průměrnou hodnotou za předem stanovené období. Např. sedmičlenný klouzavý průměr je průměrem za sedm po sobě jdoucích dní. Prostý m členný klouzavý průměr:

81 S EZÓNNÍ SLOŽKA Příklad 5: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla3-členný klouzavý pr. I.951071,33- II.95680,02852,05 III.95804,8662,07 IV.95501,4560,02 V.95373,87354,26 VI.95187,51211,62 VII.9573,5116,97 VIII.9589,9184 IX.95388,6298,76 X.95417,8510,54 XI.95725,22693,41 XII.95937,22856,15 I.96906,01-... Trojčlenný klouzavý průměr = (1 071,33 + 608,02 + 804,8)/3 = 852,05 Jde tedy o průměr tří po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde únor 1995).

82 S EZÓNNÍ SLOŽKA Příklad 5: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla5-členný klouzavý pr. I.951071,33- II.95680,02- III.95804,8686,284 IV.95501,4509,52 V.95373,87388,216 VI.95187,51245,236 VII.9573,5222,676 VIII.9589,9231,462 IX.95388,6339,004 X.95417,8511,748 XI.95725,22674,97 XII.95937,22- I.96906,01-... Pětičlenný klouzavý průměr = (608,02 + 804,8 + 501,4 + 373,87 + 187,51)/5 = = 509,52 Jde tedy o průměr pěti po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde duben 1995).

83 S EZÓNNÍ SLOŽKA Řada původních hodnot je při očišťování nahrazena řadou klouzavých průměrů. Průměr „klouže“, protože se postupuje tak, že nejstarší pozorování se vypustí a novější se přidá. Při výpočtu se tak postupuje se vždy o jedno pozorování dopředu.

84 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

85 S EZÓNNÍ SLOŽKA Centrovaný m členný klouzavý průměr (používá se pokud m je sudé) V případě, že je rozsah klouzavé části m sudé číslo, je třeba počítat tzv. centrovaný klouzavý průměr. Střední body klouzavých částí by jinak nebyla celá čísla. Průměr by nešlo přiřadit ke konkrétnímu měsíci, ale doprostřed mezi dva měsíce. Proto se počítají prosté klouzavé průměry, ale dvě sousední hodnoty se ještě jednou zprůměrují.

86 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla I.951071,33 II.95680,02 III.95804,8 IV.95501,4 V.95373,87 VI.95187,51 VII.9573,5 VIII.9589,9 IX.95388,6 X.95417,8 XI.95725,22 XII.95937,22 I.96906,01... Dvoučlenný prostý klouzavý průměr = (1 071,33 + 608,02)/ 2 = = 875,675 Střední bod průměru se však nachází mezi dvěma měsíci (zde mezi lednem a únorem 1995). 2-členný klouzavý pr. 875,675 742,41 653,1 437,635 280,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615

87 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla I.951071,33 II.95680,02 III.95804,8 IV.95501,4 V.95373,87 VI.95187,51 VII.9573,5 VIII.9589,9 IX.95388,6 X.95417,8 XI.95725,22 XII.95937,22 I.96906,01... Dvoučlenný centrovaný klouzavý průměr je průměrem dvou po obě jdoucích prostých průměrů = (875,675+742,41)/2= = 809,04 Střední bod průměru připadá na určitý měsíc (zde únor 1995). 2-členný klouzavý pr. 875,675 742,41 653,1 437,635 280,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615 2-členný centrovaný pr. - 809,04 697,75 545,36 359,16 205,59 106,10 160,47 321,22 487,35 701,36 876,41 -...

88 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

89 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Při porovnání časových řad klouzavých průměrů je patrné, že centrovaný 12-ti členný klouzavý průměr dokázal jako jediný odstranit z časové řady sezónní složku. Na jeho průběhu nejsou žádné pravidelné výkyvy patrné. Tento průměr je tedy vhodný po očištění časové řady.

90 S EZÓNNÍ SLOŽKA Při odhadu sezónních rozdílů a j se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Používá se klouzavý průměr s tolika členy (prostý nebo centrovaný), jak dlouhá je perioda. Např.: Délka periody je 12 měsíců – použije se 12-ti členný centrovaný klouzavý průměr. Délka periody je 7 dní – použije se 7 členný prostý klouzavý průměr.

91 S EZÓNNÍ SLOŽKA Samotné sezónní rozdíly a j se pak odvozují z rozdílu mezi skutečnými hodnotami a hodnotami klouzavých průměrů. Sezónní rozdíl je pak průměrem všech rozdílů spojených se stejným obdobím. Např.: Zprůměrují se všechny rozdíly odpovídající měsíci lednu za celé sledované období a získá se sezónní rozdíl za leden.

92 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

93 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově. Měsíc, rokSpotřeba tepla12-členný klouzavý pr. Rozdíl... -- VI.95187,51-- VII.9573,5514,04-440,54 VIII.9589,9512,69-422,79 IX.95388,6517,32-128,72 X.95417,8513,41-95,61 XI.95725,22508,05217,16 XII.95937,22503,19434,02 I.96906,01500,64405,36 II.96812,92501,60311,31 III.96783,14500,65282,48 IV.96429,21500,30-71,09 V.96317,31496,96-179,65... Rozdíl mezi hodnotou časové řady y I.96 pro leden roku 1996 a odpovídajícím klouzavým průměrem je 405,36 = = 906,01 – 500,64.

94 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícSpotřeba tepla12-členný klouzavý pr. Rozdíl I.951071,33-- I.96906,01500,64405,36 I.97932,74459,71473,02 I.98716,4384,47331,92 I.99751,41426,04325,36 Průměr383,91 Rozdíly v měsíci lednu. Empirický sezónní rozdíl je pak aritmetickým průměrem všech lednových rozdílů. Pozn.: rozdíl za leden 1995 chybí, protože nelze spočítat klouzavý průměr.

95 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícEmpirický sezónní rozdíl leden383,9195 únor216,0355 březen189,35075 duben-12,20725 květen-189,02225 červen-318,33825 červenec-386,0865 srpen-346,2545 září-170,91875 říjen1,8905 listopad213,61475 prosinec395,59275 Celkem-22,42375 V tabulce jsou uvedeny empirické sezónní rozdíly. Výkyvy se v rámci jedné periody mají kompenzovat, tzn. že jejich součet za rok by měl být nulový. To ovšem pro empirické sezónní rozdíly neplatí, a proto je třeba je ještě upravit.

96 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícEmpirický sezónní rozdíl Upravený sezónní rozdíl leden383,9195385,79 únor216,0355217,90 březen189,35075191,22 duben-12,20725-10,34 květen-189,02225-187,15 červen-318,33825-316,47 červenec-386,0865-384,22 srpen-346,2545-344,38 září-170,91875-169,05 říjen1,89053,76 listopad213,61475215,48 prosinec395,59275397,46 Celkem-22,423750 Upravené sezónní rozdíly se kompenzují, jejich součet je 0. Vypočtou se: empirický a j – (Σa j / s), kde s je délka periody. a * květen = = -189,02 – (-22,42/12) = = -187,15

97 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícUpravený sezónní rozdíl leden385,79 únor217,90 březen191,22 duben-10,34 květen-187,15 červen-316,47 červenec-384,22 srpen-344,38 září-169,05 říjen3,76 listopad215,48 prosinec397,46 Celkem0 a * květen = -187,15 V květnu je spotřeba tepla o 187,15 GJ nižší než je dlouhodobý průměr. a * leden = 385,79 V lednu je spotřeba tepla o 385,79 GJ vyšší než je dlouhodobý průměr. Takto je popsána sezónní složka S t v modelu. Pro každý měsíc zvlášť.

98 S EZÓNNÍ SLOŽKA Protože model konstantní sezónnosti (aditivní model) má tvar: Y t = T t + S t + ε t, provede se odstranění sezónnosti (očištění) podle vzorce: Y t - S t = T t + ε t (od každé hodnoty časové řady odečteme odpovídající upravený sezónní rozdíl). Pro očištěnou časovou řadu se pak snažíme nalézt vhodnou trendovou funkci.

99 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba teplaSezónní rozdílOčištěná řada I.951071,33385,79685,54 II.95680,02217,90462,11 III.95804,8191,22613,58 IV.95501,4-10,34511,73 V.95373,87-187,15561,02 VI.95187,51-316,47503,97 VII.9573,5-384,22457,71 VIII.9589,9-344,38434,28 IX.95388,6-169,05557,65 X.95417,83,76414,04 XI.95725,22215,48509,73 XII.95937,22397,46539,75 I.96906,01385,79520,22... Očištěná časová řada od hodnot původní časové řady odčítáme odpovídající upravené sezónní rozdíly. 685,54 = y I.95 – a * leden = = 1 071,33 – 685,54

100 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

101 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Pro očištěnou časovou řadu se zdá být vhodným trendem trend lineární. Jeho tvar je 533,64 - 2,77174·t Model časové řady spotřeby tepla má tedy následující tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j trendová složka modelusezónní složka modelu

102 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tedy tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j Pro odhad hodnot se za t dosazuje časová proměnná (1 až 60) a za a * j odpovídající upravené sezónní rozdíly. Y I.95 = 533,64 – 2,77174·1 + 385,79 = 916,65 GJ Model časové řady odhadl, že v lednu roku 1995 byla spotřeba tepla ve výši 916,65 GJ. Skutečná spotřeba tepla byla 1071,33 GJ. Rozdíl mezi oběma hodnotami je modelem nevysvětlená část (náhodná složka ε t ).

103 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

104 P OSTUP ODHADU MODELU SE SEZÓNNÍ SLOŽKOU 1. Stanovení délky periody a výpočet odpovídajícího klouzavého průměru ČŘ. 2. Očištění ČŘ od sezónní složky pomocí klouzavého průměru. 3. Výpočte empirických sezónních rozdílů a korekce na upravené sezónní rozdíly. 4. Očištění ČŘ pomocí upravených sezónních rozdílů. 5. Volba vhodné trendové funkce očištěné ČŘ a výpočet parametrů trendu.

105 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

106 N ÁHODNÁ SLOŽKA Náhodná složka (ε t ) Ta část časové řady, kterou nelze popsat ani pomocí trendu ani sezónní nebo cyklické složky. Aby byl model vhodný musí splňovat stejné podmínky jako u regresní analýzy (viz. přednáška 7). 1. Rezidua jsou náhodná a nezávislá. 2. Rezidua mají normální rozdělení N(0;σ 2 ). 3. Rozptyl reziduí σ 2 je konstantní.

107 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově 1. Rezidua jsou náhodná (Znaménkový test) Testovací statistika U = 0,26 < u 0,975 = 1,96 Nezamítáme Ho. Rezidua jsou náhodná. 1. Rezidua jsou nezávislá (Durbin-Watsonův test) Testovací statistika DW = 1,98. d = 1,549, h = 1,616. h < DW < 2 Nezamítáme Ho. Rezidua jsou nezávislá.

108 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově 2. Rezidua mají normální rozdělení N(0;62,54 2 ).(Kolmogorov- Smirnovův test) Testovací statistika D = 0,063 < 1,36/√60 = 0,18 Nezamítáme Ho. Rezidua mají normální rozdělení. Poznámka: za σ volíme výběrovou sm. odchylku reziduí modelu. 3. Rozptyl reziduí σ 2 je konstantní (F-test o shodě rozptylů) p-hodnota F-testu = 0,817 > α = 0,05 Rezidua mají konstantní rozptyl.

109 P ŘEDPOVĚDI Pokud rezidua splňují všechny podmínky, lze model použít pro předpověď hodnot na určité období dopředu. Pozor! To že model dobře popisuje minulost (dobře přiléhá k pozorovaným hodnotám časové řady) ještě neznamená, že předpovědi budoucího vývoje budou také dobré.

110 P ŘEDPOVĚDI Naopak! Je možné, že slabší model, který ne tak přesně popisoval minulost, bude mít přesnější předpovědi do budoucnosti.

111 P ŘEDPOVĚDI Co lze a nelze předpovědět? S jistotou 100%: fyzikální procesy – přesný pohyb vesmírných těles, přesný čas východu a západu slunce na 100 let dopředu, odpor vodiče z určitého materiálu.

112 P ŘEDPOVĚDI Co lze a nelze předpovědět? S vysokou jistotou: události, které se v čase nemění, události, které nemohou být ovlivněny lidským jednáním, Události na které nepůsobí náhoda.

113 P ŘEDPOVĚDI Co lze a nelze předpovědět? Velmi nepřesné: události ovlivněné kolektivním jednáním lidí (burzy, kurzy měn), události, které mohou být ovlivněny lidským jednáním, události, na které působí velké množství vlivů a náhoda.

114 P ŘEDPOVĚDI Pro předpovědi obecně platí: Čím dále do budoucnosti předpovídáme, tím je předpověď méně přesná.

115 P ŘEDPOVĚDI Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j Pro odhad hodnot na rok 2000 dosazujeme za časovou proměnnou t postupně hodnoty 61 – 72 a za a * j odpovídající upravené sezónní rozdíly. Y I.2000 = 533,64 – 2,77174·61 + 385,79 = 750,35 GJ Y II.2000 = 533,64 – 2,77174·62 + 217,90 = 579,70 GJ

116 P ŘEDPOVĚDI Příklad 6: Spotřeba tepla na výměníku v Litvínově

117 Intervalové a okamžikové časové řady Krátkodobé a dlouhodobé časové řady Klouzavé úhrny Diference a tempa růstu Model časové řady Trendová složka, Sezónní složka, Cyklická složka, Náhodná složka Interpolační kritéria Předpovídání 117 A NALÝZA Č ASOVÝCH Ř AD D ŮLEŽITÉ POJMY – 11. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google