Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Analýza časových řad

3 Analýza časových řad Úvod do časových řad Elementární charakteristiky
Jednorozměrné modely Trendová složka Sezónní složka Náhodná složka Předpovědi

4 Úvod do časových řad Časová řada je posloupnost hodnot určitého statistického znaku (ukazatele) uspořádaných z hlediska času ve směru od minulosti k přítomnosti.

5 Úvod do časových řad Musí se jednat o ukazatel, který je věcně a prostorově shodně vymezen po celé sledované období. Např.: měsíční ceny výrobku mohou být vyjádřeny v Kč, což ovšem vzhledem k neustále probíhající inflaci není dlouhodobě srovnatelný způsob vyjádření – věcně není stejně vymezen!

6 Úvod do časových řad Např.: sledujeme-li počty krádeží ve sledované oblasti (okres, kraj) za rok, můžeme zaregistrovat jejich náhlý pokles, který je ovšem způsoben jen tím, že zákonem byla zvýšena hodnota minimální způsobené škody nutné k zahrnutí mezi krádeže - věcně není shodně vymezen! Prostorově však je shodně vymezen – je to tentýž kraj.

7 Úvod do časových řad Hodnoty časové řady se standardně značí symbolem yt, kde t je pořadí hodnoty časové řady. t nabývá nejčastěji hodnot 1, 2, … , n nebo 0, 1, … , n. Hodnoty jsou řazeny od nejstarší po nejnovější.

8 Úvod do časových řad Dále je možné značit konkrétněji y1995, y1996, ... , y1997 , kde indexy označují přímo rok pozorování. Lze také psát yI/1995, yII/1995, ... , yIV/1997 pro čtvrtletní údaje nebo yleden/1995, yúnor/1995 … pro měsíční údaje atd.

9 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
časové hledisko periodicita sledování způsob vyjádření

10 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
časové hledisko 1. okamžikové časové řady - udávají stav ukazatele v určitých okamžicích. Hodnoty stavu nezávisejí na časových vzdálenostech (intervalech) mezi okamžiky sledování. Sčítání hodnot řady nemá logický význam. Např.: řada teplot ovzduší na hydrometeorologické stanici odečítaná každou hodinu; řada udávající počet zaměstnanců podniku na konci měsíce; řada koncentrací nečistoty v odpadních vodách měřená v pravidelných intervalech na výstupu ze závodu.

11 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
časové hledisko 2. intervalové časové řady - hodnoty sledují vznik nebo zánik prvků za časový interval a závisejí na délkách intervalů. Časová řada udává změny (přírůstek, úbytek) za určité období. Hodnotu ukazatele za delší časový úsek lze získat sčítáním hodnot za dílčí části tohoto úseku (roční údaj je součtem údajů měsíčních). Např.: počty narozených dětí ve státě za rok; produkce nebo spotřeba při výrobě za měsíc; počet autonehod za den.

12 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
periodicita sledování 1. dlouhodobé časové řady – údaje měřené jednou za rok nebo za delší období. Nejčastěji se vyskytují roční časové řady. Např.: výroba za komunisty oblíbenou pětiletku; počet narozených dětí v Čechách za rok.

13 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
periodicita sledování 2. krátkodobé časové řady – údaje měřené za období kratší než jeden rok. Např.: čtvrtletní, měsíční, týdenní, denní, hodinové (koncentrace NOx v ovzduší), minutové a dokonce i vteřinové časové řady (burza cenných papírů).

14 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
způsob vyjádření 1. peněžní časové řady – ukazatel je veden v peněžních jednotkách (domácí i zahraniční měny). Např.: nejčastěji u ekonomických časových řad – ceny téměř čehokoliv, platy, zisk, měnové kurzy.

15 Úvod do časových řad Časové řady lze dělit podle několika hledisek:
způsob vyjádření 2. naturální časové řady – ukazatel je veden v naturálních jednotkách. Např.: jakékoliv jiné jednotky než peněžní (počty událostí, koncentrace látek ve vodě, vzduchu).

16 Úvod do časových řad Příklad 1: Těžba uhlí v letech 1993 a 1994 – měsíční údaje. Spojnicový graf je ideální pro zobrazení vývoje časové řady

17 Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] 2009 2010 leden 4 413 3 887 únor 4 026 3 679 březen 4 085 3 957 duben 3 441 3 325 květen 3 338 3 332 červen 3 492 3 174 červenec 3 011 3 252 srpen 3 363 3 335 září 3 507 3 835 říjen 4 139 4 296 listopad 4 282 3 943 prosinec 4 063 3 759 Celkem 45 160 43 774 Časová řada je intervalová (udává celkové vytěžené množství za měsíc), krátkodobá (měsíční údaje) a naturální (ukazatel je v tisících tun). Intervalovou řadu má smysl sčítat. Roční součet udává celkovou těžbu za rok 2009 ( tis. t) a za rok 2010 ( tis t).

18 Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Rozdíl 2009 2010 leden 4 413 3 887 -526 únor 4 026 3 679 -347 březen 4 085 3 957 -28 duben 3 441 3 325 -116 květen 3 338 3 332 -6 červen 3 492 3 174 -318 červenec 3 011 3 252 241 srpen 3 363 3 335 září 3 507 3 835 328 říjen 4 139 4 296 157 listopad 4 282 3 943 -339 prosinec 4 063 3 759 - 304 Celkem 45 160 43 774 Smysl mají i rozdíly. V roce 2010 bylo vytěženo o tun uhlí méně než v roce 2009. Rozdíly pro jednotlivé měsíce pak udávají změny z pohledu jednotlivých měsíců. V lednu 2010 bylo vytěženo o 526 tun uhlí méně než v lednu předchozího roku.

19 Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Klouzavé úhrny 2010 2009 2010 leden 4 413 3 887 44 634 únor 4 026 3 679 44 287 březen 4 085 3 957 44 159 duben 3 441 3 325 44 043 květen 3 338 3 332 44 037 červen 3 492 3 174 43 719 červenec 3 011 3 252 43 960 srpen 3 363 3 335 43 932 září 3 507 3 835 44 260 říjen 4 139 4 296 44 417 listopad 4 282 3 943 44 078 prosinec 4 063 3 759 43 774 Celkem 45 160 Klouzavé úhrny jsou součtem za určité období délky p: Yn(p)= yn-p+1 + yn-p yn-1 + yn = Za období červenec 2009 až červen 2010 (p=12) bylo vytěženo tisíc tun uhlí.

20 Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] 2009 2010 leden 4 413 3 887 únor 4 026 3 679 březen 4 085 3 957 duben 3 441 3 325 květen 3 338 3 332 červen 3 492 3 174 červenec 3 011 3 252 srpen 3 363 3 335 září 3 507 3 835 říjen 4 139 4 296 listopad 4 282 3 943 prosinec 4 063 3 759 průměr 3 763 3 648 Význam má i výpočet aritmetického průměru podle vzorce: yi / n MS EXCEL = PRŮMĚR(oblast) V průměru bylo v letech 2009 a 2010 vytěženo tis. tun uhlí měsíčně. V roce 2009 byl průměr tis. tun a v roce tis. tun měsíčně.

21 Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) 4,9 4,5 3,4 2,6 10 5,3 1,9 6,6 1,5 3,1 Časová řada je okamžiková (udává zásobu uhlí k určitému datu), krátkodobá (měsíční údaje) a naturální (ukazatel je v tunách). Okamžikovou řadu nemá smysl sčítat.

22 Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010).

23 Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) 4,9 4,5 3,4 2,6 10 5,3 1,9 6,6 1,5 3,1 Počítá se tzv. chronologický průměr: který je průměrem z průměrů dvou po sobě jdoucích hodnot. Tento vzorec lze použít, pokud je doba mezi odečty vždy stejná.

24 Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) 4,9 4,5 3,4 2,6 10 5,3 1,9 6,6 1,5 3,1 Pokud doba mezi odečty není vždy stejná, je nutné počítat vážený chronologický průměr, kde vahami jsou délky intervalů mezi odečty (ti – ti-1)/Σ(ti – ti-1).

25 Elementární charakteristiky
Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) (yi-1+yi) 2 Délka intervalu (měsíce) (yi-1+yi)·(ti-ti-1) 4,9 - 4,5 4,7 9,4 3,4 3,95 7,9 2,6 3 1 10 6,3 5,3 7,65 1,9 3,6 6,6 4,25 1,5 4,05 3,1 2,3 Celkem 11 48,45 Vážený chronologický průměr: Průměrná koncentrace v roce 2010 byla 4,41 mg/l.

26 Elementární charakteristiky
K orientačnímu posouzení vlastností časových řad lze využít: absolutní diference 1. řádu – rozdíly dvou po sobě jdoucích hodnot časové řady. Vyjadřují absolutní změny mezi dvěma obdobími. Δt,t-1 = yt – yt-1 pro t = 2,3,...,n. absolutní diference 2. řádu – rozdíly dvou po sobě jdoucích hodnot řady diferencí 1. řádu. Δ(2)t,t-2 = Δt,t-1 – Δt-1,t-2 pro t = 3, 4 ...,n.

27 Elementární charakteristiky
K orientačnímu posouzení vlastností veškerých časových řad lze využít: průměrné diference – průměrná hodnota diferencí za sledované období

28 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

29 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Rok Výroba el. (MWh) 1. diference (Δ) 2003 - 2004 2005 2006 2007 2008 2009 2010 Celkem Absolutní diference (diference 1. řádu): Δ2010,2009 = y2010 – y2009 = = = MWh V roce 2010 vzrostla oproti roku 2009 výroba el. z obnovených zdrojů v ČR o MWh.

30 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

31 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Rok Výroba el. (MWh) 1. diference (Δ) 2003 - 2004 2005 2006 2007 2008 2009 2010 Průměr Průměrné diference: Mezi roky 2003 až 2010 rostla výroby elektřiny z obnovitelných zdrojů v průměru o MWh za rok.

32 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Rok Výroba el. (MWh) 1. diference (Δ) 2. diference (Δ(2)) 2003 - 2004 2005 2006 -4 835 2007 2008 2009 2010 Průměr 64 036 Absolutní diference (diference 2. řádu): Δ(2)2010,2008 = = Δ2010,2009 – Δ2009,2008 = = = = Praktická interpretace ukazatele již nemá smysl, používá se k odhalení trendu vývoje časové řady.

33 Elementární charakteristiky
tempa růstu (řetězové indexy) – podíl dvou po sobě jdoucích hodnot pro t = 2, 3, ...n. Je to relativní (procentuální) změna mezi dvěma po sobě následujícími obdobími. průměrná tempa růstu – jsou geometrickým průměrem vypočítaným z řady temp růstu a udávají průměrnou relativní (procentuální) změnu za sledované období.

34 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Rok Výroba el. (MWh) Tempo růstu (%) 2003 - 2004 146% 2005 114% 2006 112% 2007 97% 2008 109% 2009 125% 2010 127% Průměr 119% Tempo růstu: V roce 2010 vzrostla oproti roku 2009 výroba elektřiny z obnovitelných zdrojů o 27 %. V roce 2007 klesla oproti roku 2006 výroba elektřiny o 3 % (doplněk do 100%, tedy 100 % - 97 %).

35 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

36 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Rok Výroba el. (MWh) Tempo růstu (%) 2003 - 2004 146% 2005 114% 2006 112% 2007 97% 2008 109% 2009 125% 2010 127% Průměr 119% Průměrné tempo růstu: V období mezi roky 2003 – 2010 rostla výroby elektřiny v průměru o 19 % za rok.

37 Úvod do časových řad Příklad 4: Výroba elektrické energie v ČSSR a ČR

38 Jednorozměrný model Jednorozměrný model časové řady je nejjednodušším modelem, ale zároveň i nejvíce využívaným. Stejně jako v regresní analýze je model zjednodušením reality.

39 Jednorozměrný model Klasický (formální) model nemá ambice nalézt a popsat věcné příčiny vývoje časové řady. Zabývá se pouze popisem pohybu časové řady. Vychází z historického vývoje ukazatele. Např.: nehledá příčiny rostoucí výroby elektřiny, jen popisuje, jak se tento ukazatel v čase vyvíjí.

40 Jednorozměrný model Formální model rozkládá časovou řadu na čtyři složky (dekompozice časové řady). Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy.

41 Jednorozměrný model Jednotlivé složky časové řady jsou:
Trendová složka (Tt) Dlouhodobá tendence ve vývoji časové řady. Trend může být rostoucí, klesající, konstantní (časová řada kolísá kolem určité hodnoty) nebo může vykazovat parabolický průběh.

42 Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Časová řada s rostoucím trendem.

43 Úvod do časových řad Příklad 5: Průměrná roční teplota v letech 1775 – 2007. Časová řada s parabolickým trendem.

44 Jednorozměrný model Jednotlivé složky časové řady jsou:
Sezónní složka (St) Jde o pravidelně se opakující odchylku od trendové složky. Tato odchylka je kratší než jeden rok nebo je rovna právě jednomu roku. Doba po které se odchylka opakuje se nazývá perioda.

45 Úvod do časových řad Příklad 6: Spotřeba tepla na výměníku v Litvínově
Časová řada se sezónní složkou s periodou dvanáct měsíců.

46 Jednorozměrný model Jednotlivé složky časové řady jsou:
Cyklická složka (Ct) Jde o kolísání kolem trendu v důsledku dlouhodobého vývoje s délkou vlny delší než jeden rok. U kratších časových řad (maximálně několik let se téměř nevyskytují). Např.: hospodářské, demografické, strojírenské, inovační, klimatické cykly.

47

48 Jednorozměrný model Jednotlivé složky časové řady jsou:
Náhodná složka (εt) Ta část časové řady, kterou nelze popsat pomocí trendu, sezónní nebo cyklické složky. Jsou to výkyvy časové řady vlivem drobných a nepostižitelných příčin nebo vlivem náhody. Analýza vlastností náhodné složky je stejně jako u regresní analýzy důležitým nástrojem pro volbu vhodného modelu.

49 Jednorozměrný model Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy. Aditivní model (složky se sčítají): Yt = Tt + St + Ct + εt V praxi velmi často používaný. Multiplikativní model (složky se násobí): Yt = Tt · St · Ct · εt

50 Trendová složka Ad 1. Trendová složka (Tt) je dlouhodobá tendence ve vývoji časové řady. Popis trendové složky vede k získání informací o hlavní tendenci ve vývoji analyzovaného ukazatele. Může také posloužit pro odhad (předpověď) ukazatele do budoucnosti. Nejčastěji se popisuje prostřednictvím konkrétní matematické funkce.

51 Trendová složka Při praktické analýze časových řad se uplatňují matematické funkce používané v regresní analýze – přímka, parabola, logaritmická funkce a další. Používají se i složitější např. exponenciální nebo logistická funkce (tzv. S-křivka).

52 Trendová složka Parametry trendových funkcí se odhadují metodou nejmenších čtverců. MS EXCEL: Nástroje – Analýza Dat – Regrese Vysvětlovanou (závislou) proměnnou jsou hodnoty časové řady yt. Vysvětlující (nezávislou) proměnnou jsou hodnoty času t. Pozn.: Ty mají v nejjednodušším případě hodnoty t = 1, 2, nebo t = 0, 1, 2, nebo mohou být definovány konkrétněji např. letopočtem t = 1970, 1971, Musí však jít o číslo.

53 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) yt = b0 + b1·t Pozn.: jde o lineární (rostoucí) trend, proto směrnice trendové přímky b1 bude kladné číslo. Lze zapsat i jako: Výroba = b0 + b1·rok

54 Trendová složka Příklad 5: Průměrná roční teplota v letech 1775 - 2007
Kvadratický trend (parabola) yt = b0 + b1·t + b2·t2 Lze zapsat i jako: Průměrná teplota = = b0 + b1·rok + b2·rok2

55 Trendová složka Příklad 7: Koncentrace CO2 v atmosféře, 1600-2007
Exponenciální trend (exponenciála) yt = b0·b1t Tuto funkci je třeba upravit (transformovat), aby mohly být parametry odhadnuty metodou nejmenších čtverců ln yt = ln b0 + t·ln b1 Sleduje se závislost ln yt na čase t.

56 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) yt = b0 + b1·t Odhad parametrů lineárního trendu provedeme pomocí MS Excel Nástroje – Analýza Dat – Regrese

57 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hranice -6,95 0,00 rok 469236 67240 6,98 304704 633767 Trendová funkce má tvar: yt = ·t (pro časovou proměnnou t uvedenou v letech t= 2003, 2004, ..., 2010) Každý rok bylo podle modelu vyrobeno o MWh elektřiny z obnovitelných zdrojů více než v roce předchozím. V roce 0 n.l. by podle modelu bylo vyrobeno MWh elektřiny (hypotetická hodnota bez praktického významu).

58 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend Výroba = ·rok

59 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend zobrazený v MS Excel pomocí volby vložit trendovou funkci Výroba = 2E ·t.

60 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Koeficienty Chyba stř. hodnoty t stat Hodnota P Dolní 95% Horní 95% Hranice 339547 4,45 0,00 679512 t 469236 67240 6,98 304705 633767 Trendová funkce má tvar: yt = ·t (MS Excel: pro časovou proměnnou t = 1, 2, ...) Každý rok bylo podle modelu vyrobeno o MWh elektřiny z obnovitelných zdrojů více než v roce předchozím (parametr b1 je stejný = směrnice obou modelů je stejná). V roce 2002 (t = 0, protože t = 1 odpovídá roku 2003) by podle modelu bylo vyrobeno MWh elektřiny (parametr b0 se mění). Trendová funkce měla tvar: yt = ·t (t uvedeno v letech t= 2003, 2004, ..., 2010)

61 Trendová složka Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce přímky má různý tvar v závislosti na hodnotách časové proměnné t. Tyto funkce se liší absolutním členem (parametrem b0), ale obě funkce mají stejnou směrnici (parametr b1). Z tohoto důvodu se v MS Excel mohou lišit odhady vypočtené v bodovém grafu funkcí „Přidat spojnici trendu“ pro spojnicový a bodový graf a odhady vypočtené v nabídce „Nástroje – Analýza Dat – Regrese“.

62 Volba vhodného modelu Kritérií pro volbu vhodného modelu (vhodné trendové funkce) je několik: věcná analýza grafická analýza analýza diferencí a koeficientů růstu volba na základě determinačních indexů a interpolačních kritérií

63 Volba vhodného modelu Věcná analýza
Posouzení na základě věcné znalosti problému. Jde o řadu rostoucí nebo klesající?

64 Volba vhodného modelu Věcná analýza
Posouzení na základě věcné znalosti problému. Roste (resp. klesá řada) konstantně nebo se její růst (resp. klesání) zvyšuje nebo snižuje?

65 Volba vhodného modelu Věcná analýza
Posouzení na základě věcné znalosti problému. Roste (resp. klesá) nade všechny meze nebo má asymptotu (přibližuje se k určité hodnotě)?

66 Volba vhodného modelu Věcná analýza
Posouzení na základě věcné znalosti problému. Má řada nějaký bod zlomu (do něj roste, pak klesá nebo naopak)?

67 Volba vhodného modelu Grafická analýza Posouzení grafu časové řady.
Stejný postup jako při regresní analýze. Snaha nalézt nejvhodnější funkci procházející zobrazenými body časové řady. Tento způsob je ovšem subjektivní.

68 Volba vhodného modelu Grafická analýza
Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

69 Volba vhodného modelu Analýza diferencí a koeficientů růstu
Pro elementární charakteristiky časových řad platí jednoduchá pravidla: Lineární trend – první diference Δ jsou přibližně konstantní Kvadratický trend – druhé diference Δ(2) jsou přibližně konstantní Exponenciální trend – koeficienty růstu k jsou přibližně konstantní

70 Volba vhodného modelu Volba na základě determinačních indexů a interpolačních kritérií Determinační indexy I2 resp. R2 používané v regresní analýze nejsou vhodné, pokud porovnáváme modely s různým počtem parametrů. Lepší je opravený det. index I2opr. Při analýze časových řad (i v regresi) se preferují jednodušší modely s nižším počtem parametrů.

71 Volba vhodného modelu Volba na základě determinačních indexů a interpolačních kritérií Pro některé typy modelů nelze det. indexy počítat. Komplexnějším nástrojem jsou interpolační kritéria, založená na porovnání skutečných hodnot časové řady yt a hodnot odhadnutých modelem . Počítají se z reziduí modelu. Model je tím vhodnější, čím je hodnota interpolačního kritéria nižší.

72 Volba vhodného modelu Volba na základě interpolačních kritérií
M.S.E. (střední čtvercová chyba odhadu) v praxi se využívá nejvíce M.A.E. (střední absolutní chyba odhadu) M.E. (střední chyba odhadu) pokud je použit odhad MNČ, pak je vždy 0.

73 Volba vhodného modelu Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

74 Volba vhodného modelu Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí interpolačních kritérií Trend M.S.E. M.A.E. M.E. Lineární Kvadratický Exponenciální 14 467 Podle kritérií M.S.E a M.A.E je nejvhodnější trendovou funkcí exponenciální funkce (hodnoty jsou nejnižší).

75 Volba vhodného modelu Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí determinačních indexů Trend Opravený det. index Lineární 87,20 % Kvadratický 88,16 % Exponenciální 89,16 % Podle opraveného determinačního indexu je nejvhodnějším modelem exponenciální funkce (hodnoty jsou nejvyšší). S přihlédnutím k principu jednoduchosti lze využít jednodušší model přímky.

76 Sezónní složka Sezónní složka (St) je pravidelně se opakující odchylkou od trendové složky s periodou kratší než jeden rok nebo právě jeden rok. Sezónní kolísaní do značné míry zakrývá trend časové řady. Není vhodné odhadovat trendovou funkci přímo z řady obsahující sezónní složku. Předpovědi pak nebudou příliš dobré.

77 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově Odhad lineárního trendu bez popisu sezónní složky. Model řady tvořený jen trendem je zcela nevhodný pro předpověď dalšího vývoje. Neakceptuje totiž pravidelné sezónní výkyvy. Pozn.: rezidua modelu nebudou náhodná!!

78 Sezónní složka Yt = Tt + St + εt
Model s konstantní sezónností (aditivní model) Yt = Tt + St + εt Sezónní výkyvy jsou každý rok stejné. K popisu sezónní složky se používají tzv. sezónní rozdíly aj (St = aj). Jedná se o absolutní sezónní odchylku pro j-té období v rámci periody. Dle délky periody lze značit např. aleden, aúnor nebo apondělí, aúterý ...

79 Sezónní složka Sezónní rozdíl aj vyjadřuje absolutní rozdíl, tedy o kolik je hodnota sledovaného ukazatele vyšší nebo nižší oproti dlouhodobému průměru. Tyto výkyvy se v rámci jedné periody kompenzují, tzn. že součet všech rozdílů aj je nulový. Např.: Pokud je délka periody jeden rok, pak platí: aleden + aúnor aprosinec = 0. Je-li délka periody jeden týden, pak platí: apondělí + aúterý aneděle = 0.

80 Sezónní složka Při odhadu sezónních rozdílů aj se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Ty vycházejí z klouzavých úhrnů a jsou vlastně průměrnou hodnotou za předem stanovené období. Např. sedmičlenný klouzavý průměr je průměrem za sedm po sobě jdoucích dní. Prostý m členný klouzavý průměr:

81 Sezónní složka Příklad 5: Spotřeba tepla na výměníku v Litvínově
Měsíc, rok Spotřeba tepla 3-členný klouzavý pr. I.95 1071,33 - II.95 680,02 852,05 III.95 804,8 662,07 IV.95 501,4 560,02 V.95 373,87 354,26 VI.95 187,51 211,62 VII.95 73,5 116,97 VIII.95 89,9 184 IX.95 388,6 298,76 X.95 417,8 510,54 XI.95 725,22 693,41 XII.95 937,22 856,15 I.96 906,01 ... Trojčlenný klouzavý průměr = (1 071, , ,8)/3 = 852,05 Jde tedy o průměr tří po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde únor 1995).

82 Sezónní složka Příklad 5: Spotřeba tepla na výměníku v Litvínově
Měsíc, rok Spotřeba tepla 5-členný klouzavý pr. I.95 1071,33 - II.95 680,02 III.95 804,8 686,284 IV.95 501,4 509,52 V.95 373,87 388,216 VI.95 187,51 245,236 VII.95 73,5 222,676 VIII.95 89,9 231,462 IX.95 388,6 339,004 X.95 417,8 511,748 XI.95 725,22 674,97 XII.95 937,22 I.96 906,01 ... Pětičlenný klouzavý průměr = (608, , , , ,51)/5 = = 509,52 Jde tedy o průměr pěti po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde duben 1995).

83 Sezónní složka Řada původních hodnot je při očišťování nahrazena řadou klouzavých průměrů. Průměr „klouže“, protože se postupuje tak, že nejstarší pozorování se vypustí a novější se přidá. Při výpočtu se tak postupuje se vždy o jedno pozorování dopředu.

84 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

85 Sezónní složka Centrovaný m členný klouzavý průměr (používá se pokud m je sudé) V případě, že je rozsah klouzavé části m sudé číslo, je třeba počítat tzv. centrovaný klouzavý průměr. Střední body klouzavých částí by jinak nebyla celá čísla. Průměr by nešlo přiřadit ke konkrétnímu měsíci, ale doprostřed mezi dva měsíce. Proto se počítají prosté klouzavé průměry, ale dvě sousední hodnoty se ještě jednou zprůměrují.

86 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc, rok Spotřeba tepla I.95 1071,33 II.95 680,02 III.95 804,8 IV.95 501,4 V.95 373,87 VI.95 187,51 VII.95 73,5 VIII.95 89,9 IX.95 388,6 X.95 417,8 XI.95 725,22 XII.95 937,22 I.96 906,01 ... 2-členný klouzavý pr. 875,675 742,41 653,1 437,635 280,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615 Dvoučlenný prostý klouzavý průměr = (1 071, ,02)/ 2 = = 875,675 Střední bod průměru se však nachází mezi dvěma měsíci (zde mezi lednem a únorem 1995).

87 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc, rok Spotřeba tepla I.95 1071,33 II.95 680,02 III.95 804,8 IV.95 501,4 V.95 373,87 VI.95 187,51 VII.95 73,5 VIII.95 89,9 IX.95 388,6 X.95 417,8 XI.95 725,22 XII.95 937,22 I.96 906,01 ... 2-členný klouzavý pr. 875,675 742,41 653,1 437,635 280,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615 2-členný centrovaný pr. - 809,04 697,75 545,36 359,16 205,59 106,10 160,47 321,22 487,35 701,36 876,41 ... Dvoučlenný centrovaný klouzavý průměr je průměrem dvou po obě jdoucích prostých průměrů = (875, ,41)/2= = 809,04 Střední bod průměru připadá na určitý měsíc (zde únor 1995).

88 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

89 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově Při porovnání časových řad klouzavých průměrů je patrné, že centrovaný 12-ti členný klouzavý průměr dokázal jako jediný odstranit z časové řady sezónní složku. Na jeho průběhu nejsou žádné pravidelné výkyvy patrné. Tento průměr je tedy vhodný po očištění časové řady.

90 Sezónní složka Při odhadu sezónních rozdílů aj se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Používá se klouzavý průměr s tolika členy (prostý nebo centrovaný), jak dlouhá je perioda. Např.: Délka periody je 12 měsíců – použije se 12-ti členný centrovaný klouzavý průměr. Délka periody je 7 dní – použije se 7 členný prostý klouzavý průměr.

91 Sezónní složka Samotné sezónní rozdíly aj se pak odvozují z rozdílu mezi skutečnými hodnotami a hodnotami klouzavých průměrů. Sezónní rozdíl je pak průměrem všech rozdílů spojených se stejným obdobím. Např.: Zprůměrují se všechny rozdíly odpovídající měsíci lednu za celé sledované období a získá se sezónní rozdíl za leden.

92 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

93 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově . Měsíc, rok Spotřeba tepla 12-členný klouzavý pr. Rozdíl ... - VI.95 187,51 VII.95 73,5 514,04 -440,54 VIII.95 89,9 512,69 -422,79 IX.95 388,6 517,32 -128,72 X.95 417,8 513,41 -95,61 XI.95 725,22 508,05 217,16 XII.95 937,22 503,19 434,02 I.96 906,01 500,64 405,36 II.96 812,92 501,60 311,31 III.96 783,14 500,65 282,48 IV.96 429,21 500,30 -71,09 V.96 317,31 496,96 -179,65 Rozdíl mezi hodnotou časové řady yI.96 pro leden roku 1996 a odpovídajícím klouzavým průměrem je 405,36 = = 906,01 – 500,64.

94 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc Spotřeba tepla 12-členný klouzavý pr. Rozdíl I.95 1071,33 - I.96 906,01 500,64 405,36 I.97 932,74 459,71 473,02 I.98 716,4 384,47 331,92 I.99 751,41 426,04 325,36 Průměr 383,91 Rozdíly v měsíci lednu. Empirický sezónní rozdíl je pak aritmetickým průměrem všech lednových rozdílů. Pozn.: rozdíl za leden 1995 chybí, protože nelze spočítat klouzavý průměr.

95 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc Empirický sezónní rozdíl leden 383,9195 únor 216,0355 březen 189,35075 duben -12,20725 květen -189,02225 červen -318,33825 červenec -386,0865 srpen -346,2545 září -170,91875 říjen 1,8905 listopad 213,61475 prosinec 395,59275 Celkem -22,42375 V tabulce jsou uvedeny empirické sezónní rozdíly. Výkyvy se v rámci jedné periody mají kompenzovat, tzn. že jejich součet za rok by měl být nulový. To ovšem pro empirické sezónní rozdíly neplatí, a proto je třeba je ještě upravit.

96 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc Empirický sezónní rozdíl Upravený sezónní rozdíl leden 383,9195 385,79 únor 216,0355 217,90 březen 189,35075 191,22 duben -12,20725 -10,34 květen -189,02225 -187,15 červen -318,33825 -316,47 červenec -386,0865 -384,22 srpen -346,2545 -344,38 září -170,91875 -169,05 říjen 1,8905 3,76 listopad 213,61475 215,48 prosinec 395,59275 397,46 Celkem -22,42375 Upravené sezónní rozdíly se kompenzují, jejich součet je 0. Vypočtou se: empirický aj – (Σaj / s), kde s je délka periody. a*květen = = -189,02 – (-22,42/12) = = -187,15

97 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Měsíc Upravený sezónní rozdíl leden 385,79 únor 217,90 březen 191,22 duben -10,34 květen -187,15 červen -316,47 červenec -384,22 srpen -344,38 září -169,05 říjen 3,76 listopad 215,48 prosinec 397,46 Celkem a*květen = -187,15 V květnu je spotřeba tepla o 187,15 GJ nižší než je dlouhodobý průměr. a*leden = 385,79 V lednu je spotřeba tepla o 385,79 GJ vyšší než je dlouhodobý průměr. Takto je popsána sezónní složka St v modelu. Pro každý měsíc zvlášť.

98 Sezónní složka Yt = Tt + St + εt ,
Protože model konstantní sezónnosti (aditivní model) má tvar: Yt = Tt + St + εt , provede se odstranění sezónnosti (očištění) podle vzorce: Yt - St = Tt + εt (od každé hodnoty časové řady odečteme odpovídající upravený sezónní rozdíl). Pro očištěnou časovou řadu se pak snažíme nalézt vhodnou trendovou funkci.

99 Sezónní složka Očištěná časová řada
Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rok Spotřeba tepla Sezónní rozdíl Očištěná řada I.95 1071,33 385,79 685,54 II.95 680,02 217,90 462,11 III.95 804,8 191,22 613,58 IV.95 501,4 -10,34 511,73 V.95 373,87 -187,15 561,02 VI.95 187,51 -316,47 503,97 VII.95 73,5 -384,22 457,71 VIII.95 89,9 -344,38 434,28 IX.95 388,6 -169,05 557,65 X.95 417,8 3,76 414,04 XI.95 725,22 215,48 509,73 XII.95 937,22 397,46 539,75 I.96 906,01 520,22 ... Očištěná časová řada od hodnot původní časové řady odčítáme odpovídající upravené sezónní rozdíly. 685,54 = yI.95 – a*leden = = 1 071,33 – 685,54

100 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

101 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově Pro očištěnou časovou řadu se zdá být vhodným trendem trend lineární. Jeho tvar je 533,64 - 2,77174·t Model časové řady spotřeby tepla má tedy následující tvar: Yt = Tt + St = 533,64 - 2,77174·t + a*j trendová složka modelu sezónní složka modelu

102 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tedy tvar: Yt = Tt + St = 533,64 - 2,77174·t + a*j Pro odhad hodnot se za t dosazuje časová proměnná (1 až 60) a za a*j odpovídající upravené sezónní rozdíly. YI.95 = 533,64 – 2,77174· ,79 = 916,65 GJ Model časové řady odhadl, že v lednu roku 1995 byla spotřeba tepla ve výši 916,65 GJ. Skutečná spotřeba tepla byla 1071,33 GJ. Rozdíl mezi oběma hodnotami je modelem nevysvětlená část (náhodná složka εt).

103 Sezónní složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

104 Postup odhadu modelu se sezónní složkou
1. Stanovení délky periody a výpočet odpovídajícího klouzavého průměru ČŘ. 2. Očištění ČŘ od sezónní složky pomocí klouzavého průměru. 3. Výpočte empirických sezónních rozdílů a korekce na upravené sezónní rozdíly. 4. Očištění ČŘ pomocí upravených sezónních rozdílů. 5. Volba vhodné trendové funkce očištěné ČŘ a výpočet parametrů trendu.

105 Náhodná složka Příklad 6: Spotřeba tepla na výměníku v Litvínově

106 Náhodná složka Náhodná složka (εt) Ta část časové řady, kterou nelze popsat ani pomocí trendu ani sezónní nebo cyklické složky. Aby byl model vhodný musí splňovat stejné podmínky jako u regresní analýzy (viz. přednáška 7). Rezidua jsou náhodná a nezávislá. Rezidua mají normální rozdělení N(0;σ2). Rozptyl reziduí σ2 je konstantní.

107 Náhodná složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Rezidua jsou náhodná (Znaménkový test) Testovací statistika U = 0,26 < u0,975 = 1,96 Nezamítáme Ho. Rezidua jsou náhodná. Rezidua jsou nezávislá (Durbin-Watsonův test) Testovací statistika DW = 1,98. d = 1,549, h = 1,616. h < DW < 2 Nezamítáme Ho. Rezidua jsou nezávislá.

108 Náhodná složka Příklad 6: Spotřeba tepla na výměníku v Litvínově
Rezidua mají normální rozdělení N(0;62,542).(Kolmogorov- Smirnovův test) Testovací statistika D = 0,063 < 1,36/√60 = 0,18 Nezamítáme Ho. Rezidua mají normální rozdělení. Poznámka: za σ volíme výběrovou sm. odchylku reziduí modelu. Rozptyl reziduí σ2 je konstantní (F-test o shodě rozptylů) p-hodnota F-testu = 0,817 > α = 0,05 Rezidua mají konstantní rozptyl.

109 Předpovědi Pokud rezidua splňují všechny podmínky, lze model použít pro předpověď hodnot na určité období dopředu. Pozor! To že model dobře popisuje minulost (dobře přiléhá k pozorovaným hodnotám časové řady) ještě neznamená, že předpovědi budoucího vývoje budou také dobré.

110 Předpovědi Naopak! Je možné, že slabší model, který ne tak přesně popisoval minulost, bude mít přesnější předpovědi do budoucnosti.

111 Předpovědi Co lze a nelze předpovědět? S jistotou 100%:
fyzikální procesy – přesný pohyb vesmírných těles, přesný čas východu a západu slunce na 100 let dopředu, odpor vodiče z určitého materiálu.

112 Předpovědi Co lze a nelze předpovědět? S vysokou jistotou:
události, které se v čase nemění, události, které nemohou být ovlivněny lidským jednáním, Události na které nepůsobí náhoda.

113 Předpovědi Co lze a nelze předpovědět? Velmi nepřesné:
události ovlivněné kolektivním jednáním lidí (burzy, kurzy měn), události, které mohou být ovlivněny lidským jednáním, události, na které působí velké množství vlivů a náhoda.

114 Předpovědi Pro předpovědi obecně platí: Čím dále do budoucnosti předpovídáme, tím je předpověď méně přesná.

115 Předpovědi Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tvar: Yt = Tt + St = 533,64 - 2,77174·t + a*j Pro odhad hodnot na rok 2000 dosazujeme za časovou proměnnou t postupně hodnoty 61 – 72 a za a*j odpovídající upravené sezónní rozdíly. YI.2000 = 533,64 – 2,77174· ,79 = 750,35 GJ YII.2000 = 533,64 – 2,77174· ,90 = 579,70 GJ

116 Předpovědi Příklad 6: Spotřeba tepla na výměníku v Litvínově

117 Analýza Časových Řad Důležité pojmy – 11. přednáška
Intervalové a okamžikové časové řady Krátkodobé a dlouhodobé časové řady Klouzavé úhrny Diference a tempa růstu Model časové řady Trendová složka, Sezónní složka, Cyklická složka, Náhodná složka Interpolační kritéria Předpovídání


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google