Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 A NALÝZA ČASOVÝCH ŘAD

3 Úvod do časových řad Elementární charakteristiky Jednorozměrné modely Trendová složka Sezónní složka Náhodná složka Předpovědi

4 Ú VOD DO ČASOVÝCH ŘAD Časová řada je posloupnost hodnot určitého statistického znaku (ukazatele) uspořádaných z hlediska času ve směru od minulosti k přítomnosti.

5 Ú VOD DO ČASOVÝCH ŘAD Musí se jednat o ukazatel, který je věcně a prostorově shodně vymezen po celé sledované období. Např.: měsíční ceny výrobku mohou být vyjádřeny v Kč, což ovšem vzhledem k neustále probíhající inflaci není dlouhodobě srovnatelný způsob vyjádření – věcně není stejně vymezen!

6 Ú VOD DO ČASOVÝCH ŘAD Např.: sledujeme-li počty krádeží ve sledované oblasti (okres, kraj) za rok, můžeme zaregistrovat jejich náhlý pokles, který je ovšem způsoben jen tím, že zákonem byla zvýšena hodnota minimální způsobené škody nutné k zahrnutí mezi krádeže - věcně není shodně vymezen! Prostorově však je shodně vymezen – je to tentýž kraj.

7 Ú VOD DO ČASOVÝCH ŘAD Hodnoty časové řady se standardně značí symbolem y t, kde t je pořadí hodnoty časové řady. t nabývá nejčastěji hodnot 1, 2, …, n nebo 0, 1, …, n. Hodnoty jsou řazeny od nejstarší po nejnovější.

8 Ú VOD DO ČASOVÝCH ŘAD Dále je možné značit konkrétněji y 1995, y 1996,..., y 1997, kde indexy označují přímo rok pozorování. Lze také psát y I/1995, y II/1995,..., y IV/1997 pro čtvrtletní údaje nebo y leden/1995, y únor/1995 … pro měsíční údaje atd.

9 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko b) periodicita sledování c) způsob vyjádření

10 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko 1. okamžikové časové řady - udávají stav ukazatele v určitých okamžicích. Hodnoty stavu nezávisejí na časových vzdálenostech (intervalech) mezi okamžiky sledování. Sčítání hodnot řady nemá logický význam. Např.: řada teplot ovzduší na hydrometeorologické stanici odečítaná každou hodinu; řada udávající počet zaměstnanců podniku na konci měsíce; řada koncentrací nečistoty v odpadních vodách měřená v pravidelných intervalech na výstupu ze závodu.

11 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: a) časové hledisko 2. intervalové časové řady - hodnoty sledují vznik nebo zánik prvků za časový interval a závisejí na délkách intervalů. Časová řada udává změny (přírůstek, úbytek) za určité období. Hodnotu ukazatele za delší časový úsek lze získat sčítáním hodnot za dílčí části tohoto úseku (roční údaj je součtem údajů měsíčních). Např.: počty narozených dětí ve státě za rok; produkce nebo spotřeba při výrobě za měsíc; počet autonehod za den.

12 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: b) periodicita sledování 1. dlouhodobé časové řady – údaje měřené jednou za rok nebo za delší období. Nejčastěji se vyskytují roční časové řady. Např.: výroba za komunisty oblíbenou pětiletku; počet narozených dětí v Čechách za rok.

13 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: b) periodicita sledování 2. krátkodobé časové řady – údaje měřené za období kratší než jeden rok. Např.: čtvrtletní, měsíční, týdenní, denní, hodinové (koncentrace NOx v ovzduší), minutové a dokonce i vteřinové časové řady (burza cenných papírů).

14 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: c) způsob vyjádření 1. peněžní časové řady – ukazatel je veden v peněžních jednotkách (domácí i zahraniční měny). Např.: nejčastěji u ekonomických časových řad – ceny téměř čehokoliv, platy, zisk, měnové kurzy.

15 Ú VOD DO ČASOVÝCH ŘAD Časové řady lze dělit podle několika hledisek: c) způsob vyjádření 2. naturální časové řady – ukazatel je veden v naturálních jednotkách. Např.: jakékoliv jiné jednotky než peněžní (počty událostí, koncentrace látek ve vodě, vzduchu).

16 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 1993 a 1994 – měsíční údaje. Spojnicový graf je ideální pro zobrazení vývoje časové řady

17 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] leden únor březen duben květen červen červenec srpen září říjen listopad prosinec Celkem Časová řada je intervalová (udává celkové vytěžené množství za měsíc), krátkodobá (měsíční údaje) a naturální (ukazatel je v tisících tun). Intervalovou řadu má smysl sčítat. Roční součet udává celkovou těžbu za rok 2009 ( tis. t) a za rok 2010 ( tis t).

18 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Rozdíl leden únor březen duben květen červen červenec srpen září říjen listopad prosinec Celkem Smysl mají i rozdíly. V roce 2010 bylo vytěženo o tun uhlí méně než v roce Rozdíly pro jednotlivé měsíce pak udávají změny z pohledu jednotlivých měsíců. V lednu 2010 bylo vytěženo o 526 tun uhlí méně než v lednu předchozího roku.

19 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] Klouzavé úhrny leden únor březen duben květen červen červenec srpen září říjen listopad prosinec Celkem Klouzavé úhrny jsou součtem za určité období délky p: Y n (p) = y n-p+1 + y n-p y n-1 + y n = Za období červenec 2009 až červen 2010 (p=12) bylo vytěženo tisíc tun uhlí.

20 Ú VOD DO ČASOVÝCH ŘAD Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Měsíc Těžba uhlí [tisíce tun] leden únor březen duben květen červen červenec srpen září říjen listopad prosinec průměr Význam má i výpočet aritmetického průměru podle vzorce:  y i / n MS EXCEL = PRŮMĚR(oblast) V průměru bylo v letech 2009 a 2010 vytěženo tis. tun uhlí měsíčně. V roce 2009 byl průměr tis. tun a v roce tis. tun měsíčně.

21 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentra ce (mg/l) , , , , , , , , ,1 Časová řada je okamžiková (udává zásobu uhlí k určitému datu), krátkodobá (měsíční údaje) a naturální (ukazatel je v tunách). Okamžikovou řadu nemá smysl sčítat.

22 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010).

23 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentrace (mg/l) , , , , , , , , ,1 Počítá se tzv. chronologický průměr: který je průměrem z průměrů dvou po sobě jdoucích hodnot. Tento vzorec lze použít, pokud je doba mezi odečty vždy stejná.

24 Ú VOD DO ČASOVÝCH ŘAD Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncentra ce (mg/l) , , , , , , , , ,1 Pokud doba mezi odečty není vždy stejná, je nutné počítat vážený chronologický průměr, kde vahami jsou délky intervalů mezi odečty (t i – t i-1 )/Σ(t i – t i-1 ).

25 E LEMENTÁRNÍ CHARAKTERISTIKY Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Okamžik měření Koncen trace (mg/l) (y i-1 +y i ) 2 Délka intervalu (měsíce) (y i-1 +y i )·(t i -t i-1 ) , ,54,7 2 9, ,43,95 2 7, , , ,37, ,93, ,64, ,54, ,12,3 1 Celkem ,45 Vážený chronologický průměr: Průměrná koncentrace v roce 2010 byla 4,41 mg/l.

26 E LEMENTÁRNÍ CHARAKTERISTIKY K orientačnímu posouzení vlastností časových řad lze využít: 1. absolutní diference 1. řádu – rozdíly dvou po sobě jdoucích hodnot časové řady. Vyjadřují absolutní změny mezi dvěma obdobími. Δ t,t-1 = y t – y t-1 pro t = 2,3,...,n. 2. absolutní diference 2. řádu – rozdíly dvou po sobě jdoucích hodnot řady diferencí 1. řádu. Δ (2) t,t-2 = Δ t,t-1 – Δ t-1,t-2 pro t = 3, 4...,n.

27 E LEMENTÁRNÍ CHARAKTERISTIKY K orientačnímu posouzení vlastností veškerých časových řad lze využít: 3. průměrné diference – průměrná hodnota diferencí za sledované období

28 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

29 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) 1. diference (Δ) Celkem Absolutní diference (diference 1. řádu): Δ 2010,2009 = y 2010 – y 2009 = = = MWh V roce 2010 vzrostla oproti roku 2009 výroba el. z obnovených zdrojů v ČR o MWh.

30 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

31 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné diference: Mezi roky 2003 až 2010 rostla výroby elektřiny z obnovitelných zdrojů v průměru o MWh za rok. RokVýroba el. (MWh) 1. diference (Δ) Průměr

32 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) 1. diference (Δ) 2. diference (Δ (2) ) Průměr Absolutní diference (diference 2. řádu): Δ (2) 2010,2008 = = Δ 2010,2009 – Δ 2009,2008 = = = = Praktická interpretace ukazatele již nemá smysl, používá se k odhalení trendu vývoje časové řady.

33 E LEMENTÁRNÍ CHARAKTERISTIKY 4. tempa růstu (řetězové indexy) – podíl dvou po sobě jdoucích hodnot. pro t = 2, 3,...n. Je to relativní (procentuální) změna mezi dvěma po sobě následujícími obdobími. 5. průměrná tempa růstu – jsou geometrickým průměrem vypočítaným z řady temp růstu a udávají průměrnou relativní (procentuální) změnu za sledované období.

34 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. RokVýroba el. (MWh) Tempo růstu (%) % % % % % % % Průměr % Tempo růstu: V roce 2010 vzrostla oproti roku 2009 výroba elektřiny z obnovitelných zdrojů o 27 %. V roce 2007 klesla oproti roku 2006 výroba elektřiny o 3 % (doplněk do 100%, tedy 100 % - 97 %).

35 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

36 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné tempo růstu: V období mezi roky 2003 – 2010 rostla výroby elektřiny v průměru o 19 % za rok. RokVýroba el. (MWh) Tempo růstu (%) % % % % % % % Průměr %

37 Ú VOD DO ČASOVÝCH ŘAD Příklad 4: Výroba elektrické energie v ČSSR a ČR

38 J EDNOROZMĚRNÝ MODEL Jednorozměrný model časové řady je nejjednodušším modelem, ale zároveň i nejvíce využívaným. Stejně jako v regresní analýze je model zjednodušením reality.

39 J EDNOROZMĚRNÝ MODEL Klasický (formální) model nemá ambice nalézt a popsat věcné příčiny vývoje časové řady. Zabývá se pouze popisem pohybu časové řady. Vychází z historického vývoje ukazatele. Např.: nehledá příčiny rostoucí výroby elektřiny, jen popisuje, jak se tento ukazatel v čase vyvíjí.

40 J EDNOROZMĚRNÝ MODEL Formální model rozkládá časovou řadu na čtyři složky (dekompozice časové řady). Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy.

41 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 1. Trendová složka (T t ) Dlouhodobá tendence ve vývoji časové řady. Trend může být rostoucí, klesající, konstantní (časová řada kolísá kolem určité hodnoty) nebo může vykazovat parabolický průběh.

42 Ú VOD DO ČASOVÝCH ŘAD Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Časová řada s rostoucím trendem.

43 Ú VOD DO ČASOVÝCH ŘAD Příklad 5: Průměrná roční teplota v letech 1775 – Časová řada s parabolickým trendem.

44 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 2. Sezónní složka (S t ) Jde o pravidelně se opakující odchylku od trendové složky. Tato odchylka je kratší než jeden rok nebo je rovna právě jednomu roku. Doba po které se odchylka opakuje se nazývá perioda.

45 Ú VOD DO ČASOVÝCH ŘAD Příklad 6: Spotřeba tepla na výměníku v Litvínově Časová řada se sezónní složkou s periodou dvanáct měsíců.

46 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 3. Cyklická složka (C t ) Jde o kolísání kolem trendu v důsledku dlouhodobého vývoje s délkou vlny delší než jeden rok. U kratších časových řad (maximálně několik let se téměř nevyskytují). Např.: hospodářské, demografické, strojírenské, inovační, klimatické cykly.

47

48 J EDNOROZMĚRNÝ MODEL Jednotlivé složky časové řady jsou: 4. Náhodná složka (ε t ) Ta část časové řady, kterou nelze popsat pomocí trendu, sezónní nebo cyklické složky. Jsou to výkyvy časové řady vlivem drobných a nepostižitelných příčin nebo vlivem náhody. Analýza vlastností náhodné složky je stejně jako u regresní analýzy důležitým nástrojem pro volbu vhodného modelu.

49 J EDNOROZMĚRNÝ MODEL Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy. Aditivní model (složky se sčítají): Y t = T t + S t + C t + ε t V praxi velmi často používaný. Multiplikativní model (složky se násobí): Y t = T t · S t · C t · ε t

50 T RENDOVÁ SLOŽKA Ad 1. Trendová složka (T t ) je dlouhodobá tendence ve vývoji časové řady. Popis trendové složky vede k získání informací o hlavní tendenci ve vývoji analyzovaného ukazatele. Může také posloužit pro odhad (předpověď) ukazatele do budoucnosti. Nejčastěji se popisuje prostřednictvím konkrétní matematické funkce.

51 T RENDOVÁ SLOŽKA Při praktické analýze časových řad se uplatňují matematické funkce používané v regresní analýze – přímka, parabola, logaritmická funkce a další. Používají se i složitější např. exponenciální nebo logistická funkce (tzv. S-křivka).

52 T RENDOVÁ SLOŽKA Parametry trendových funkcí se odhadují metodou nejmenších čtverců. MS EXCEL: Nástroje – Analýza Dat – Regrese Vysvětlovanou (závislou) proměnnou jsou hodnoty časové řady y t. Vysvětlující (nezávislou) proměnnou jsou hodnoty času t. Pozn.: Ty mají v nejjednodušším případě hodnoty t = 1, 2, 3... nebo t = 0, 1, 2, 3... nebo mohou být definovány konkrétněji např. letopočtem t = 1970, 1971, Musí však jít o číslo.

53 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) y t = b 0 + b 1 ·t Pozn.: jde o lineární (rostoucí) trend, proto směrnice trendové přímky b 1 bude kladné číslo. Lze zapsat i jako: Výroba = b 0 + b 1 ·rok

54 T RENDOVÁ SLOŽKA Příklad 5: Průměrná roční teplota v letech Kvadratický trend (parabola) y t = b 0 + b 1 ·t + b 2 ·t 2 Lze zapsat i jako: Průměrná teplota = = b 0 + b 1 ·rok + b 2 ·rok 2

55 T RENDOVÁ SLOŽKA Příklad 7: Koncentrace CO 2 v atmosféře, Exponenciální trend (exponenciála) y t = b 0 ·b 1 t Tuto funkci je třeba upravit (transformovat), aby mohly být parametry odhadnuty metodou nejmenších čtverců ln y t = ln b 0 + t·ln b 1 Sleduje se závislost ln y t na čase t.

56 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend (přímka) y t = b 0 + b 1 ·t Odhad parametrů lineárního trendu provedeme pomocí MS Excel Nástroje – Analýza Dat – Regrese

57 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce má tvar: y t = ·t (pro časovou proměnnou t uvedenou v letech t= 2003, 2004,..., 2010) Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice ,950, rok ,980, Každý rok bylo podle modelu vyrobeno o MWh elektřiny z obnovitelných zdrojů více než v roce předchozím. V roce 0 n.l. by podle modelu bylo vyrobeno MWh elektřiny (hypotetická hodnota bez praktického významu).

58 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend Výroba = ·rok

59 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Lineární trend zobrazený v MS Excel pomocí volby vložit trendovou funkci Výroba = 2E ·t.

60 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce má tvar: y t = ·t (MS Excel: pro časovou proměnnou t = 1, 2,...) Každý rok bylo podle modelu vyrobeno o MWh elektřiny z obnovitelných zdrojů více než v roce předchozím (parametr b 1 je stejný = směrnice obou modelů je stejná). V roce 2002 (t = 0, protože t = 1 odpovídá roku 2003) by podle modelu bylo vyrobeno MWh elektřiny (parametr b 0 se mění). Koeficienty Chyba stř. hodnotyt statHodnota PDolní 95%Horní 95% Hranice ,450, t ,980, Trendová funkce měla tvar: y t = ·t (t uvedeno v letech t= 2003, 2004,..., 2010)

61 T RENDOVÁ SLOŽKA Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Trendová funkce přímky má různý tvar v závislosti na hodnotách časové proměnné t. Tyto funkce se liší absolutním členem (parametrem b 0 ), ale obě funkce mají stejnou směrnici (parametr b 1 ). Z tohoto důvodu se v MS Excel mohou lišit odhady vypočtené v bodovém grafu funkcí „Přidat spojnici trendu“ pro spojnicový a bodový graf a odhady vypočtené v nabídce „Nástroje – Analýza Dat – Regrese“.

62 V OLBA VHODNÉHO MODELU Kritérií pro volbu vhodného modelu (vhodné trendové funkce) je několik: 1. věcná analýza 2. grafická analýza 3. analýza diferencí a koeficientů růstu 4. volba na základě determinačních indexů a interpolačních kritérií

63 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Jde o řadu rostoucí nebo klesající?

64 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Roste (resp. klesá řada) konstantně nebo se její růst (resp. klesání) zvyšuje nebo snižuje?

65 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Roste (resp. klesá) nade všechny meze nebo má asymptotu (přibližuje se k určité hodnotě)?

66 V OLBA VHODNÉHO MODELU 1. Věcná analýza Posouzení na základě věcné znalosti problému. Má řada nějaký bod zlomu (do něj roste, pak klesá nebo naopak)?

67 V OLBA VHODNÉHO MODELU 2. Grafická analýza Posouzení grafu časové řady. Stejný postup jako při regresní analýze. Snaha nalézt nejvhodnější funkci procházející zobrazenými body časové řady. Tento způsob je ovšem subjektivní.

68 V OLBA VHODNÉHO MODELU 2. Grafická analýza Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

69 V OLBA VHODNÉHO MODELU 3. Analýza diferencí a koeficientů růstu Pro elementární charakteristiky časových řad platí jednoduchá pravidla: Lineární trend – první diference Δ jsou přibližně konstantní Kvadratický trend – druhé diference Δ (2) jsou přibližně konstantní Exponenciální trend – koeficienty růstu k jsou přibližně konstantní

70 V OLBA VHODNÉHO MODELU 4. Volba na základě determinačních indexů a interpolačních kritérií Determinační indexy I 2 resp. R 2 používané v regresní analýze nejsou vhodné, pokud porovnáváme modely s různým počtem parametrů. Lepší je opravený det. index I 2 opr. Při analýze časových řad (i v regresi) se preferují jednodušší modely s nižším počtem parametrů.

71 V OLBA VHODNÉHO MODELU 4. Volba na základě determinačních indexů a interpolačních kritérií Pro některé typy modelů nelze det. indexy počítat. Komplexnějším nástrojem jsou interpolační kritéria, založená na porovnání skutečných hodnot časové řady y t a hodnot odhadnutých modelem. Počítají se z reziduí modelu. Model je tím vhodnější, čím je hodnota interpolačního kritéria nižší.

72 V OLBA VHODNÉHO MODELU 4. Volba na základě interpolačních kritérií M.S.E. (střední čtvercová chyba odhadu) v praxi se využívá nejvíce M.A.E. (střední absolutní chyba odhadu) M.E. (střední chyba odhadu) pokud je použit odhad MNČ, pak je vždy 0.

73 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

74 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí interpolačních kritérií TrendM.S.E.M.A.E.M.E. Lineární Kvadratický Exponenciální Podle kritérií M.S.E a M.A.E je nejvhodnější trendovou funkcí exponenciální funkce (hodnoty jsou nejnižší).

75 V OLBA VHODNÉHO MODELU Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Porovnání alternativních modelů pomocí determinačních indexů TrendOpravený det. index Lineární87,20 % Kvadratický88,16 % Exponenciální89,16 % Podle opraveného determinačního indexu je nejvhodnějším modelem exponenciální funkce (hodnoty jsou nejvyšší). S přihlédnutím k principu jednoduchosti lze využít jednodušší model přímky.

76 S EZÓNNÍ SLOŽKA Sezónní složka (S t ) je pravidelně se opakující odchylkou od trendové složky s periodou kratší než jeden rok nebo právě jeden rok. Sezónní kolísaní do značné míry zakrývá trend časové řady. Není vhodné odhadovat trendovou funkci přímo z řady obsahující sezónní složku. Předpovědi pak nebudou příliš dobré.

77 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Odhad lineárního trendu bez popisu sezónní složky. Model řady tvořený jen trendem je zcela nevhodný pro předpověď dalšího vývoje. Neakceptuje totiž pravidelné sezónní výkyvy. Pozn.: rezidua modelu nebudou náhodná!!

78 S EZÓNNÍ SLOŽKA Model s konstantní sezónností (aditivní model) Y t = T t + S t + ε t Sezónní výkyvy jsou každý rok stejné. K popisu sezónní složky se používají tzv. sezónní rozdíly a j (S t = a j ). Jedná se o absolutní sezónní odchylku pro j-té období v rámci periody. Dle délky periody lze značit např. a leden, a únor nebo a pondělí, a úterý...

79 S EZÓNNÍ SLOŽKA Sezónní rozdíl a j vyjadřuje absolutní rozdíl, tedy o kolik je hodnota sledovaného ukazatele vyšší nebo nižší oproti dlouhodobému průměru. Tyto výkyvy se v rámci jedné periody kompenzují, tzn. že součet všech rozdílů a j je nulový. Např.: Pokud je délka periody jeden rok, pak platí: a leden + a únor a prosinec = 0. Je-li délka periody jeden týden, pak platí: a pondělí + a úterý a neděle = 0.

80 S EZÓNNÍ SLOŽKA Při odhadu sezónních rozdílů a j se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Ty vycházejí z klouzavých úhrnů a jsou vlastně průměrnou hodnotou za předem stanovené období. Např. sedmičlenný klouzavý průměr je průměrem za sedm po sobě jdoucích dní. Prostý m členný klouzavý průměr:

81 S EZÓNNÍ SLOŽKA Příklad 5: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla3-členný klouzavý pr. I ,33- II.95680,02852,05 III.95804,8662,07 IV.95501,4560,02 V.95373,87354,26 VI.95187,51211,62 VII.9573,5116,97 VIII.9589,9184 IX.95388,6298,76 X.95417,8510,54 XI.95725,22693,41 XII.95937,22856,15 I.96906, Trojčlenný klouzavý průměr = (1 071, , ,8)/3 = 852,05 Jde tedy o průměr tří po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde únor 1995).

82 S EZÓNNÍ SLOŽKA Příklad 5: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla5-členný klouzavý pr. I ,33- II.95680,02- III.95804,8686,284 IV.95501,4509,52 V.95373,87388,216 VI.95187,51245,236 VII.9573,5222,676 VIII.9589,9231,462 IX.95388,6339,004 X.95417,8511,748 XI.95725,22674,97 XII.95937,22- I.96906, Pětičlenný klouzavý průměr = (608, , , , ,51)/5 = = 509,52 Jde tedy o průměr pěti po sobě jdoucích měsíců. Střední bod průměru připadá vždy na prostřední měsíc (zde duben 1995).

83 S EZÓNNÍ SLOŽKA Řada původních hodnot je při očišťování nahrazena řadou klouzavých průměrů. Průměr „klouže“, protože se postupuje tak, že nejstarší pozorování se vypustí a novější se přidá. Při výpočtu se tak postupuje se vždy o jedno pozorování dopředu.

84 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

85 S EZÓNNÍ SLOŽKA Centrovaný m členný klouzavý průměr (používá se pokud m je sudé) V případě, že je rozsah klouzavé části m sudé číslo, je třeba počítat tzv. centrovaný klouzavý průměr. Střední body klouzavých částí by jinak nebyla celá čísla. Průměr by nešlo přiřadit ke konkrétnímu měsíci, ale doprostřed mezi dva měsíce. Proto se počítají prosté klouzavé průměry, ale dvě sousední hodnoty se ještě jednou zprůměrují.

86 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla I ,33 II.95680,02 III.95804,8 IV.95501,4 V.95373,87 VI.95187,51 VII.9573,5 VIII.9589,9 IX.95388,6 X.95417,8 XI.95725,22 XII.95937,22 I.96906,01... Dvoučlenný prostý klouzavý průměr = (1 071, ,02)/ 2 = = 875,675 Střední bod průměru se však nachází mezi dvěma měsíci (zde mezi lednem a únorem 1995). 2-členný klouzavý pr. 875, ,41 653,1 437, ,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615

87 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba tepla I ,33 II.95680,02 III.95804,8 IV.95501,4 V.95373,87 VI.95187,51 VII.9573,5 VIII.9589,9 IX.95388,6 X.95417,8 XI.95725,22 XII.95937,22 I.96906,01... Dvoučlenný centrovaný klouzavý průměr je průměrem dvou po obě jdoucích prostých průměrů = (875, ,41)/2= = 809,04 Střední bod průměru připadá na určitý měsíc (zde únor 1995). 2-členný klouzavý pr. 875, ,41 653,1 437, ,69 130,505 81,7 239,25 403,2 571,51 831,22 921,615 2-členný centrovaný pr ,04 697,75 545,36 359,16 205,59 106,10 160,47 321,22 487,35 701,36 876,

88 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

89 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Při porovnání časových řad klouzavých průměrů je patrné, že centrovaný 12-ti členný klouzavý průměr dokázal jako jediný odstranit z časové řady sezónní složku. Na jeho průběhu nejsou žádné pravidelné výkyvy patrné. Tento průměr je tedy vhodný po očištění časové řady.

90 S EZÓNNÍ SLOŽKA Při odhadu sezónních rozdílů a j se provádí tzv. očištění časové řady od sezónní složky pomocí klouzavých průměrů. Používá se klouzavý průměr s tolika členy (prostý nebo centrovaný), jak dlouhá je perioda. Např.: Délka periody je 12 měsíců – použije se 12-ti členný centrovaný klouzavý průměr. Délka periody je 7 dní – použije se 7 členný prostý klouzavý průměr.

91 S EZÓNNÍ SLOŽKA Samotné sezónní rozdíly a j se pak odvozují z rozdílu mezi skutečnými hodnotami a hodnotami klouzavých průměrů. Sezónní rozdíl je pak průměrem všech rozdílů spojených se stejným obdobím. Např.: Zprůměrují se všechny rozdíly odpovídající měsíci lednu za celé sledované období a získá se sezónní rozdíl za leden.

92 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

93 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově. Měsíc, rokSpotřeba tepla12-členný klouzavý pr. Rozdíl VI.95187,51-- VII.9573,5514,04-440,54 VIII.9589,9512,69-422,79 IX.95388,6517,32-128,72 X.95417,8513,41-95,61 XI.95725,22508,05217,16 XII.95937,22503,19434,02 I.96906,01500,64405,36 II.96812,92501,60311,31 III.96783,14500,65282,48 IV.96429,21500,30-71,09 V.96317,31496,96-179,65... Rozdíl mezi hodnotou časové řady y I.96 pro leden roku 1996 a odpovídajícím klouzavým průměrem je 405,36 = = 906,01 – 500,64.

94 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícSpotřeba tepla12-členný klouzavý pr. Rozdíl I ,33-- I.96906,01500,64405,36 I.97932,74459,71473,02 I.98716,4384,47331,92 I.99751,41426,04325,36 Průměr383,91 Rozdíly v měsíci lednu. Empirický sezónní rozdíl je pak aritmetickým průměrem všech lednových rozdílů. Pozn.: rozdíl za leden 1995 chybí, protože nelze spočítat klouzavý průměr.

95 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícEmpirický sezónní rozdíl leden383,9195 únor216,0355 březen189,35075 duben-12,20725 květen-189,02225 červen-318,33825 červenec-386,0865 srpen-346,2545 září-170,91875 říjen1,8905 listopad213,61475 prosinec395,59275 Celkem-22,42375 V tabulce jsou uvedeny empirické sezónní rozdíly. Výkyvy se v rámci jedné periody mají kompenzovat, tzn. že jejich součet za rok by měl být nulový. To ovšem pro empirické sezónní rozdíly neplatí, a proto je třeba je ještě upravit.

96 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícEmpirický sezónní rozdíl Upravený sezónní rozdíl leden383, ,79 únor216, ,90 březen189, ,22 duben-12, ,34 květen-189, ,15 červen-318, ,47 červenec-386, ,22 srpen-346, ,38 září-170, ,05 říjen1,89053,76 listopad213, ,48 prosinec395, ,46 Celkem-22, Upravené sezónní rozdíly se kompenzují, jejich součet je 0. Vypočtou se: empirický a j – (Σa j / s), kde s je délka periody. a * květen = = -189,02 – (-22,42/12) = = -187,15

97 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově MěsícUpravený sezónní rozdíl leden385,79 únor217,90 březen191,22 duben-10,34 květen-187,15 červen-316,47 červenec-384,22 srpen-344,38 září-169,05 říjen3,76 listopad215,48 prosinec397,46 Celkem0 a * květen = -187,15 V květnu je spotřeba tepla o 187,15 GJ nižší než je dlouhodobý průměr. a * leden = 385,79 V lednu je spotřeba tepla o 385,79 GJ vyšší než je dlouhodobý průměr. Takto je popsána sezónní složka S t v modelu. Pro každý měsíc zvlášť.

98 S EZÓNNÍ SLOŽKA Protože model konstantní sezónnosti (aditivní model) má tvar: Y t = T t + S t + ε t, provede se odstranění sezónnosti (očištění) podle vzorce: Y t - S t = T t + ε t (od každé hodnoty časové řady odečteme odpovídající upravený sezónní rozdíl). Pro očištěnou časovou řadu se pak snažíme nalézt vhodnou trendovou funkci.

99 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Měsíc, rokSpotřeba teplaSezónní rozdílOčištěná řada I ,33385,79685,54 II.95680,02217,90462,11 III.95804,8191,22613,58 IV.95501,4-10,34511,73 V.95373,87-187,15561,02 VI.95187,51-316,47503,97 VII.9573,5-384,22457,71 VIII.9589,9-344,38434,28 IX.95388,6-169,05557,65 X.95417,83,76414,04 XI.95725,22215,48509,73 XII.95937,22397,46539,75 I.96906,01385,79520,22... Očištěná časová řada od hodnot původní časové řady odčítáme odpovídající upravené sezónní rozdíly. 685,54 = y I.95 – a * leden = = 1 071,33 – 685,54

100 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

101 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Pro očištěnou časovou řadu se zdá být vhodným trendem trend lineární. Jeho tvar je 533,64 - 2,77174·t Model časové řady spotřeby tepla má tedy následující tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j trendová složka modelusezónní složka modelu

102 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tedy tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j Pro odhad hodnot se za t dosazuje časová proměnná (1 až 60) a za a * j odpovídající upravené sezónní rozdíly. Y I.95 = 533,64 – 2,77174· ,79 = 916,65 GJ Model časové řady odhadl, že v lednu roku 1995 byla spotřeba tepla ve výši 916,65 GJ. Skutečná spotřeba tepla byla 1071,33 GJ. Rozdíl mezi oběma hodnotami je modelem nevysvětlená část (náhodná složka ε t ).

103 S EZÓNNÍ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

104 P OSTUP ODHADU MODELU SE SEZÓNNÍ SLOŽKOU 1. Stanovení délky periody a výpočet odpovídajícího klouzavého průměru ČŘ. 2. Očištění ČŘ od sezónní složky pomocí klouzavého průměru. 3. Výpočte empirických sezónních rozdílů a korekce na upravené sezónní rozdíly. 4. Očištění ČŘ pomocí upravených sezónních rozdílů. 5. Volba vhodné trendové funkce očištěné ČŘ a výpočet parametrů trendu.

105 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově

106 N ÁHODNÁ SLOŽKA Náhodná složka (ε t ) Ta část časové řady, kterou nelze popsat ani pomocí trendu ani sezónní nebo cyklické složky. Aby byl model vhodný musí splňovat stejné podmínky jako u regresní analýzy (viz. přednáška 7). 1. Rezidua jsou náhodná a nezávislá. 2. Rezidua mají normální rozdělení N(0;σ 2 ). 3. Rozptyl reziduí σ 2 je konstantní.

107 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově 1. Rezidua jsou náhodná (Znaménkový test) Testovací statistika U = 0,26 < u 0,975 = 1,96 Nezamítáme Ho. Rezidua jsou náhodná. 1. Rezidua jsou nezávislá (Durbin-Watsonův test) Testovací statistika DW = 1,98. d = 1,549, h = 1,616. h < DW < 2 Nezamítáme Ho. Rezidua jsou nezávislá.

108 N ÁHODNÁ SLOŽKA Příklad 6: Spotřeba tepla na výměníku v Litvínově 2. Rezidua mají normální rozdělení N(0;62,54 2 ).(Kolmogorov- Smirnovův test) Testovací statistika D = 0,063 < 1,36/√60 = 0,18 Nezamítáme Ho. Rezidua mají normální rozdělení. Poznámka: za σ volíme výběrovou sm. odchylku reziduí modelu. 3. Rozptyl reziduí σ 2 je konstantní (F-test o shodě rozptylů) p-hodnota F-testu = 0,817 > α = 0,05 Rezidua mají konstantní rozptyl.

109 P ŘEDPOVĚDI Pokud rezidua splňují všechny podmínky, lze model použít pro předpověď hodnot na určité období dopředu. Pozor! To že model dobře popisuje minulost (dobře přiléhá k pozorovaným hodnotám časové řady) ještě neznamená, že předpovědi budoucího vývoje budou také dobré.

110 P ŘEDPOVĚDI Naopak! Je možné, že slabší model, který ne tak přesně popisoval minulost, bude mít přesnější předpovědi do budoucnosti.

111 P ŘEDPOVĚDI Co lze a nelze předpovědět? S jistotou 100%: fyzikální procesy – přesný pohyb vesmírných těles, přesný čas východu a západu slunce na 100 let dopředu, odpor vodiče z určitého materiálu.

112 P ŘEDPOVĚDI Co lze a nelze předpovědět? S vysokou jistotou: události, které se v čase nemění, události, které nemohou být ovlivněny lidským jednáním, Události na které nepůsobí náhoda.

113 P ŘEDPOVĚDI Co lze a nelze předpovědět? Velmi nepřesné: události ovlivněné kolektivním jednáním lidí (burzy, kurzy měn), události, které mohou být ovlivněny lidským jednáním, události, na které působí velké množství vlivů a náhoda.

114 P ŘEDPOVĚDI Pro předpovědi obecně platí: Čím dále do budoucnosti předpovídáme, tím je předpověď méně přesná.

115 P ŘEDPOVĚDI Příklad 6: Spotřeba tepla na výměníku v Litvínově Model časové řady spotřeby tepla má tvar: Y t = T t + S t = 533,64 - 2,77174·t + a * j Pro odhad hodnot na rok 2000 dosazujeme za časovou proměnnou t postupně hodnoty 61 – 72 a za a * j odpovídající upravené sezónní rozdíly. Y I.2000 = 533,64 – 2,77174· ,79 = 750,35 GJ Y II.2000 = 533,64 – 2,77174· ,90 = 579,70 GJ

116 P ŘEDPOVĚDI Příklad 6: Spotřeba tepla na výměníku v Litvínově

117 Intervalové a okamžikové časové řady Krátkodobé a dlouhodobé časové řady Klouzavé úhrny Diference a tempa růstu Model časové řady Trendová složka, Sezónní složka, Cyklická složka, Náhodná složka Interpolační kritéria Předpovídání 117 A NALÝZA Č ASOVÝCH Ř AD D ŮLEŽITÉ POJMY – 11. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google