Modely s kvalitatívnymi vysvetľujúcimi premennými
Kvalitatívne premenné Kvalitatívne premenné môžmeme „kvantifikovať“ vytvorením takzvaných umelých premenných, ktoré nadobúdajú hodnoty 0 a 1 0 indikuje absenciu sledovaného atribútu 1 indikuje prítomnosť sledovaného atribútu Napríklad premenná rozlišujúca pohlavie môže byť kvantifikovaná ako žena=1 a muž=0 alebo opačne. Umelé premenné sú často nazývané aj kategorickými premennými alebo kvalitatívnymi premennými. Príklady: pohlavie, náboženstvo, národnosť, geografický región, politická príslušnosť
Pasca umelých premenných (dummy variable trap) Pokiaľ model obsahuje lokujúcu konštantu a kvalitatívna premenná má m kategórii, potom do modelu zavádzame len (m-1) umelých premenných. Napr. pohlavie má len dve kategórie takže do modelu zavedieme len jednu umelú premennú. Je tomu tak pretože umelá premenná pri ženách nadobúda hodnotu 1 a pri mužoch 0 Pokiaľ by sme skúmali napr. politickú príslušnosť v USA medzi Demokratmi, Republikánmi a nezávislými stranami zaviedli by sme do modelu dve umelé premenné ktoré by reprezentovali príslušnosť k trom stranám Pokiaľ toto pravidlo nieje dodržané, dôjde k tomu čo sa niekedy nazýva aj ako pasca umelých premenných (dummy variable trap)-situácia dokonalej závislosti medzi vysvetlujúcimi premennými
Referenčná kategória Kategória pri ktorej premenná nadobúda hodnotu 0 je často označovaná ako referenčná kategória. Všetky porovnania sú robené vo vzťahu k referenčnej kategórii. Pokiaľ je v modeli viac umelých premenných venujte zvýšenú pozornosť sledovaniu referenčnej kategórie, inak bude obtiažne interpretovať výsledky.
Čo si treba pamätať o umelých premenných Pokiaľ je v regresnom modeli zahrnutá lokujúca konštanta, počet umelých premenných musí byť o jedno menej ako počet obmien kvalitatívnej premennej. Pokiaľ je model odhadnutý bez lokujúcej konštanty, je možné do neho zahrnúť taký počet umelých premenných aký je počet kategórií kvalitatívnej premennej. Koeficient pri umelej premennej je vždy interpretovaný vo vzťahu k referenčnej kategóri. Umelá premenná môže byť v interakcii s kvantitatívnymi vysvetľujúcimi premennými rovnako tak ako aj s kvalitatívnymi vysvetľujúcimi premennými. Pokiaľ model obsahuje niekoľko kvalitatívnych premenných s rôznymi kategóriami, zavedenie premenných pre všetky kombinácie spotrebuje veľký počet stupňov voľnosti-
Interpretácia umelých premenných Koeficient pri umelej premennej znamená rozdiel v lokujúcich konštantách medzi kategóriou pri ktorej sa umelá premenná rovná 1 a referenčnou kategóriou Lokujúca konštanta z modelu s umelými premennými je konštantou kategórie ktorá je označená ako 0.
Interpretácia umelých premenných Ak: Yi = B1 + B2 Fi kde Y = mzda a F = umelá premenná rozlišujúca pohlavie potom, v priemere, ženy zarábajú mzdu (B1 + B2) a zarábajú mzdu B1. (všimnite si že B2 môže byť negatívne) Takže ženy zarábajú o B2 viac ako muži.
Neviem štatistiku ale vôbec to nevadí, pretože aj tak nemám žiadne údaje.
Časové rady
Čo je časový rad?? Údaje o skúmanom sociálno - ekonomickom jave - chronologicky usporiadané v čase správne zostavený časový rad údajov musí spĺňať porovnateľnosť údajov: v čase ( za rovnako dlhé obdobia, resp. rovnaké vzdialenosti medzi skúmaním) v priestore ( rovnaké územné celky, regióny) a vecnú porovnateľnosť (metodologickú, obsahovú)
Označme hodnoty skúmaného ukazovateľa: y1, y2 , y3 , Označme hodnoty skúmaného ukazovateľa: y1, y2 , y3 , ... yt …… yT, kde t = 1, 2, ….T, pričom T je počet období, t je teda formálna časová premenná, ktorá udáva poradie hodnoty skúmaného ukazovateľa , napr. HNP SR na obyv. V rr.95-99 v US$
Z hľadiska dĺžky obdobia za ktoré skúmame hodnoty ukazovateľa, resp Z hľadiska dĺžky obdobia za ktoré skúmame hodnoty ukazovateľa, resp. dĺžky intervalu medzi jednotlivými skúmaniami ČR členíme na: dlhodobé - ročné údaje, resp. päťročné krátkodobé - kvartálne, mesačné údaje, resp. Jednodňové a pod.
Ak niečo skúmate takto z blízka riskujete že stratíte prehľad o celkovom kontexte
Základné charakteristiky rozboru časových radov Absolútne miery rastu (poklesu): absolútny prírastok (pokles) - prvé diferencie y t = y t - y t -1 druhé druhé diferencie (zrýchlenie) y t 2 = y t - y t -1
Relatívne miery rastu koeficient rastu : k t = y t / y t - 1 (bezrozmerné číslo, napr. 1, 05, resp. 0.86) koeficient prírastku : k t = k t - 1 tempo rastu (koef. Rastu v %): Tt = k t . 100 , ( hovorí na koľko % vzrástol, resp. poklesol ukazovateľ, napr. 105%, alebo 86% tempo prírastku: T t =Tt - 100, resp. T t = (k t - 1 ) . 100 (hovorí o koľko % vzrástol / poklesol ukazovateľ v aktuálnom období oprotí prechádzajúcemu)
Vývoj HNP SR za rr.95-99 v US$ na obyv. a rok. V roku 1997 oproti r. 96 vzrástol HNP na obyv. na 108,12% V roku 1997 oproti r. 96 vzrástol HNP na obyv. o 8,12%
Z jednotlivých koeficientov rastu možno vypočítať priemerný koeficient rastu _ 4 k = (1,148.1,081. 1,003 . 0,974) = 1.0493 Za obdobie rr. 95-99 HNP v SR rástol ročne približne o 4,9%
Rozbor jednotlivých zložiek časového radu Časové rady vznikajú ako dôsledok pôsobenia podstatných aj nepodstatných činiteľov na skúmaný sociálno ekonomický jav. Tieto činitele môžeme rozdeliť na: trendové - vývojové, ktoré pôsobia neustále a určujú hlavný smer vývoja, t.j. trend v ČR (Tt ) periodické, ktoré spôsobujú pravidelné kolísanie hodnôt ČR okolo trendu, môžeme ich rozdeliť na cyklické (C t )- v dlhodobých ČR (hospodárske cykly) sezónne (S t )- krátkodobých ČR (sezónne kolísanie cien, sezónny dopyt…..),
Medzi zložkami môže byť : aditívny vzťah : Yt = T t + St + Et náhodné činitele (E t ) - pôsobia náhodne, nepravidelne. Tieto činitele pôsobia na vývoj každého skúmaného ukazovateľa v štatistike Na základe tohto rozčlenenia môžme dekomponovať - rozložiť ČR na tri zložky: trendovú (Tt ) periodickú (C t ), resp. (S t ) náhodnú (E t ) Medzi zložkami môže byť : aditívny vzťah : Yt = T t + St + Et multiplikatívny vzťah: Yt = T t . St . Et
Analýza trendu v časovom rade Pri dekompozičnom prístupe je analýza trendu založená: na analytickom vyrovnaní vývoja hodnôt skúmaného ukazovateľa vhodnou trendovou funkciou ide o analógiu jednoduchej regresnej analýzy, pričom odhadované hodnoty sú funkciou časovej premennej t, yt , = f (t) trendová funkcia je potom použitá nielen ku hodnoteniu kvality prognózy “ex-post”, ale aj na prognózy “ex-ante”
Historické údaje Oblasť prognózy “ex-ante”
Štatistické posúdenie vhodnosti trendovej funkcie: pomocou indexu korelácie i yt , resp. indexu determinácie iyt2 ktoré vyjadrujú kvalitu prognózy “ex-post” Prioritné je však vecné posúdenie vhodnosti trendovej funkcie, pretože je potrebné zvažovať ako sa “asi” môže skúmaný ukazovateľ v budúcich obdobiach vyvíjať
Analýza sezónnej zložky v časovom rade Dekompozičný prístup predpokladá sa: multiplikatívny model ČR: Yt = Tt . St . Et analýzu trendu v ČR (ak je prítomný) vhodnou trendovou funkciou: Tt = yt, = f(t) analýzu sezónnej zložky potom pomocou sezónnych indexov: kde y t , sú hodnoty získané vyrovnaním časového radu vhodnou trendovou funkciou pre t = 1,2…T
Postup analýzy a konštrukcie prognózy: Najskôr analyzujeme trend vyrovnaním časového radu vhodnou trendovou funkciou (pomocou regresnej analýzy) Podľa trendovej funkcie vypočítame “vyrovnané” hodnoty trendu (uskutočníme prognózu trendu aj na kvartály prognózovaného r. 1990) Indexy sezónnosti S t vypočítame delením skutočnej hodnoty tržieb y t hodnotou y t ‘ vypočítanou podľa trendovej funkcie Indexy sezónnosti spriemerníme (aby sme objektivizovali sezónnu zložku a potom korigujeme na súčet 4 (korekcia na presnosť)
Vyrovnané hodnoty trendu Analýza sezónnosti a prognóza Prognóza Y t ‘ . St priem. Indexy sezónnosti Vyrovnané hodnoty trendu Výsledná Prognóza trendu a sezónnosti Prognóza trendu
Vzťah medzi množstvom prognóz a šancou že aspon jedna bude správna
Použitie umelých premenných pri sezónnych dátach Proces odstránenia sezónnej zložky z časového radu výsledný časový rad je očistený o sezónnosť Uvažujme nasledujúci model predikujúci tržby z predaja oblečenia: Kde D2 =1 pre druhý kvartál, D3 =1 pre tretí kvartál, D4= 1 pre 4th kvartál Sales = reálne tržby na tisíc štvorcových stôp priestoru predajne.
Použitie umelých premenných v sezónnych údajoch Proces očistenia časového radu od sezónnosti je nasledujúci: 1. Z odhadnutého modelu získame eohadovaný objem tržieb. 2. Odhadovaný objem tržieb odčítame od skutočných tržieb a získame reziduá. 3. K získaným reziduám pripočítame (výberovú) priemernú hodnotu tržieb. Výsledné hodnoty sú časovým radom tržieb ktorý je očistený od sezónnosti.
FRISCH-WAUGHOV TEORÉM Zavedením umelých premenných do modelu očistíme od sezónnosti všetky časové rady použité v danom modeli. Ak použijeme v regresii časové rady sezónne očistených údajov, získané odhady sú rovnaké ako odhady koeficientov z regresia ktorá používa neočistené údaje ale umelé premenné pre zohľadnenie setónnosti.
Miery presnosti prognóz
Miery presnosti prognóz Chybou prognózy sa nazýva rozdiel: Priemerná chyba: Môže byť kladná alebo záporná podľa toho či prognózy častejšie podhodnocujú (yt>predikované y), alebo nadhodnocujú (yt<predikované y) skutočnosť.Táto miera sa považuje za mieru skreslenia a interpretuje sa podľa znamienka ME>0 model systematicky podhodnocuje ME<0 nadhodnocuje skutočnosť
Priemerná absolútna chyba: Vyjadruje priemernú absolútnu odchýlku skutočných hodnôt od odhadnutých hodnôt v rovnakých merných jednotkách v akých je vyjadrený pôvodný časový rad Priemerná štvorcová chyba – rozptyl chýb: -citlivé na veľké chyby
Percentuálne miery Priemerná percentuálna chyba: Priemerná percentuálna miera skreslenia, ak je kladná znamená to že model systematicky podhonocuje skutočnosť (väčšina chýb je kladná) a naopak.
Priemerná absolútna percentuálna miera chyba: Vyjadruje v percentách priemernú veľkosť chýb prognóz v porovnaní so skutočnými hodnotami na celom úseku prognózovania, t=1,2,....,n
Štatistika pre testovanie hypotéz a vašej trpezlovosti ;-)