Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Founded 1348Charles University. Bohdaneč 24. - 27. 12.. 2003 Analýza dat 2003/II Institute of Information Theory and Automation Academy of Sciences Prague.

Podobné prezentace


Prezentace na téma: "Founded 1348Charles University. Bohdaneč 24. - 27. 12.. 2003 Analýza dat 2003/II Institute of Information Theory and Automation Academy of Sciences Prague."— Transkript prezentace:

1 Founded 1348Charles University

2 Bohdaneč Analýza dat 2003/II Institute of Information Theory and Automation Academy of Sciences Prague and Automation Academy of Sciences Prague Institute of Information Theory Institute of Economic Studies Faculty of Social Sciences Charles University Prague Institute of Economic Studies Faculty of Social Sciences Charles University Prague Jan Ámos Víšek MODERNÍ REGRESNÍ POSTUPY

3 lineární regresní modely a analýza variance nelineární modely logitové, probitové a tobitové modely regresní stromy zdánlivě nesouvisející a simultání rovnice AR, MA, ARCH, GARCH atd. …….. kointegrační analýza 95% statistických úloh má regresní character SOUČASNÝ STAV ( „OF ARTS“ ) ( namísto ÚVODU ) dnešní téma většina bodů v současnosti už vydá na semestrální přednášku

4 Zopakovat stručně klasickou regresi prováděnou pomocí nejmenších čtverců. Vysvětlit motivaci a vybrané metody robustní regresní analýzy. Na příkladě ukázat jaké to přináší nové možnosti. CÍL PŘEDNÁŠKY

5 Označení. Běžné nejmenší čtverce ( OLS ). Předpoklady a důsledky. Verifikace předpokladů – běžná pochybení. Omyly při interpretaci výsledků !! OBSAH

6 Co je bod selhání ? pokračování Nejmenší usekané čtverce ( pro a proti ). Příklady k výše uvedenému. Algoritmus a jeho verifikace. Proč robustní metody ? OBSAH

7 Označení Jednoduchý lineární regresní model disturbance sklonový parameter regresní koeficienty závisle proměnná Vysvětlovaná proměnná ( response variable ) nezávisle proměnná Vysvětlující proměnná ( explanatory variable ) intercept absolutní člen

8 Položme - je-li absolutní člen (intercept). - kde, Lineární regresní model. a pokračování Vektorová notace Maticová notace Označení všechny vektory jsou sloupcové

9 “Průřezová data” Na každém řádku je jeden pacient, jedno odvětví, atd. Obvykle říkáme, že na řádku je jeden „case“. “Panelová data” Na řádcích jsou hodnoty pro jednoho pacienta ( jedno odvětví ) v okamžicích. Kombinace obou typů jsou rovněž uvažovány a obvykle označovány také jako „Panelová data“. Pořadí řádků není relevantní. Typy dat Pořadí řádků je relevantní. Pořadí řádků v bloku je relevantní.

10 Pro libovolnédefinujme jako i-té residuum Běžné nejmenší čtverce Toto budeme používat,. pamatujte, že je to definováno pro libovolné

11 Předpoklady Důsledky je nejlepším nestranným lineárním odhadem Důsledky Předpoklady Důsledky L je nejlepším nestranným lineárním odhadem regulární je konsistentní a asymptoticky normální Předpoklady a důsledky

12 Pokud však neplatí, že nejlepším nestranným kvadratickým odhadem pokračování je nejlepším nestranným lineárním odhadem Důsledky Předpoklady L Předpoklady a důsledky ale Pokud však neplatí, že nemá smysl !!! Varování

13 Poznámka Důsledky pokračování Připomeňme, že a tudíž je dobrým odhadem pro Diagonální prvky této matice representují rozptyly odhadů regresních koeficientů. Tyto rozptyly po- třebujeme k provedení studentizace a stanovení signifikance jednotlivých vysvětlujících veličin. Předpoklady a důsledky

14 Poznámka Tvrzení Pokud však neplatí, že ale je třeba odhadnout pomocí Whiteova odhadu. pokračování Předpoklady a důsledky

15 Varování Verifikace předpokladů Nulová střední hodnota disturbancí mezi disturbancemi a vysvětlujícími veličinami. Whiteův test fakticky současně testuje nezávislost Tvrzení Homoskedasticita – Whiteův test L ( )

16 Příklad modelu, který nebere na vědomí heteroskesticitu.

17 Ostatní charakteristiky modelu

18 Takto se změní signifikance, pokud se použije Whiteův odhad covarianční matice odhadů regresních koeficientů

19 Použijeme-li Whiteův odhad kovarianční matice odhadů regresních koeficientů

20 Ostatní charakteristiky modelu

21 Varování Tvrzení - Durbin-Watsonův test průřezová data - nutno usoudit z okolností panelová data - Durbin-Watsonův test pokračování Nekorelovanost disturbancí Verifikace předpokladů

22 Put then where,, is called studentization. Předpoklady Nechť je iid. posloupnost n. v.. Lemma – připomenutí teorie a je regulární. Tvrzení Potom. Polož kde Potom, tj. je distribuováno jako Student s stupňů volnosti., Tato transformace ze označuje jako studentizace. Dále nechť Předpoklady Tvrzení

23 Připomenutí 1) Model obsahuje intercept 2) Model neobsahuje intercept KOEFICIENT of DETERMINACE Náš model je porovnáván s modelem..

24 Tvrzení Upozornění Testování normality disturbancí Theilova přepočítaná residua přímo některý z testů dobré shody toto nelze zverifikovat - je to „nápověda“, jak zvolit design experimentu. Rozdělení disturbancí nemusí být vnímáno jako cosi objektivně daného – to už je ale filosofie. pokračování Verifikace předpokladů Normalita je velmi důležitá, bez ní je sice NNLO, ale to je jako jednooký mezi slepými králem. regulární

25 Důrazné varování Nápověda Velikost odhadů regresních koeficientů Omyly při interpretaci výsledků Odhad j-tého regresního koeficientu je malý vliv j-té vysvětlující veličiny je malý. Pokud by byla j-tá veličina měřena v „kilometrech“, namísto v „metrech“, bude odhad příslušného Některé statistické knihovny přepočítávají data k nulové střední a jednotkovému rozptylu. (STATISTICA, SPSS) koeficientu 1000 krát menší. Příklad

26 Důsledky Důrazné varování Polarita odhadu regresního koeficientu Příklad Odhad j-tého regresního koeficientu je kladný vliv j-té vysvětlující veličiny je pozitivní. Uvažujme regresní model Předpokládejme dále, že Toto mimochodem korelační analýza neodhalí, neboť ta indikuje jen lineární vazby. Vliv právě opačný, než jsme předpokládali. pokračování Omyly při interpretaci výsledků Závěr

27 Motivace Proč používat také robustní metody ? Robustní regresní analýza „také“  tj. nejenom klasické, ale současně i robustní Výhody a nevýhody, omyly v aplikacích a interpretacích Jak a které robustní metody používat !

28 Proč používat také robustní metody ? Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos. Trans. Roy. Soc. London Ser. A 222, pp

29 pokračování Proč používat také robustní metody ? ! je asymptoticky nekonečně krát větší než

30 Standardní normální hustota Studentova hustota s 5 stupni volnosti Je snadné rozlišit normalní a studentovu hustotu?

31 Závěr : Zkonstruovali jsme velice efektivní monoposty, které ale mohou jezdit jen po speciálních F1 okruzích. Návrh : Používejme oboje, je-li koincidence, díky Bohu - jsme na F1 okruhu. Pokud nikoliv, zjistěme proč! Což takhle, pokud je to nutné, použít celkem pohodlný sedan. Ten dokáže „přežít” i obyčejnou silnici.

32 pokračování Proč používat také robustní metody ? Minimální elipsoid obsahující předem zvolený počet pozorování.

33 pokračování Proč používat také robustní metody ? Takže řešení je jednoduché !

34 pokračování Proč používat také robustní metody ? Lituji, ale řešení je (patrně) třeba vymyslet jinak.

35 Co je bod selhání ? které bude následovat, má dobrou matematickou podstatu.) Definice (Definice je zde jen proto, aby bylo jasné, že slovní vyjádření,

36 Kvalitativní robustnost Uvažujme posloupnost “zelených” d.f., které jsou shodné s “červenou” d.f. až do vzdálenosti od Y-osy. Konverguje “zelená” posloupnost k „červené“ d.f. ?

37 Uvažujme Kolmogorov-Smirnov vzdálenost, tj. pokračování K-S vzdálenost kterékoliv “zelené” d.f. od „červené“ je rovna délce žluté úsečky „Zelená” posloupnost nekonverguje v K-S metrice k „červené“ d.f. ! ZÁVĚR: Nezávisle na n, bohužel. Kvalitativní robustnost

38 Prokhorovova vzdálenost Nyní už posloupnost zelených d.f. konverguje k červené d.f.. Hledáme minimální vzdálenost, o kterou se musíme vzdálit od zelené d..f. - doleva a nahoru - abychom byli nad červenou. Slovy : ZÁVĚR: pokračování Kvalitativní robustnost

39 Minimální počet pozorování, které způsobí to, že estimátor selže. (vysvětlení) Co je bod selhání ?

40 Takže je to vlastně, např. pro OLS, takto ! Minimální počet pozorování, které způsobí to, že estimátor selže. (vysvětlení - pokračování) Co je bod selhání ?

41 Nejmenší usekané čtverce Připomeňme, že a definujme pořádkové statistiky Pro Definice

42 (slovní vysvětlení) Nejmenší usekané čtverce. Jak ale zvolit h ? A kdo nám dal právo vzít v úvahu jen část dat ? h nalezení takové subpopulace o rozsahu h, pro kterou běžné nejmenší čtverce dají menší h než pro kteroukoliv jinou subpopulaci o rozsahu h. (h je předem dáno) součet čtverců residuí Nalezeni odhadu, není nic jiného, než

43 Jak (ale) zvolit h ? Jak (ale) zvolit h ? Počet bodů tohoto „oblaku“ je. je jen o málo menší než

44 A kdo nám dal právo vzít v úvahu jen část dat ? A kdo nám dal právo vzít v úvahu jen část dat ? To, že se nám zdá přirozené vzít v úvahu všechna data, má asi následující důvody (kromě jiného): Nechceme ztrácet informaci z „opominutých“ dat - ale co když jsou některá (evidentně) špatná ? Vybrání jenom některých dat „zavání“ (subjektivním) manipulováním s daty - ale co když se dodatečně pro to najde věcný důvod ? Ale kdo nás nutí vzít v úvahu všechna data ? Byť by byla evidentně špatná !! Byť by byla evidentně špatná !! Ty dvě otázky jsou zcela symetrické !!

45 Nejmenší usekané čtverce - pro a proti. Pro : Jsou „přirozeně“ ekvivariantní v měřitku a afinní v regresi. Víšek, J.Á. (1999): Robust estimation of regression model. Jsou konsistentní a asymptoticky normální. Bull. of the Czech Econometric Soc., 9/1999, 57 – 79. Víšek, J.Á. (1999): The least trimmed squares – random carriers. Bull. of the Czech Econometric Soc., 10/1999, 1 – 30. Čížek, P., J. Á. Víšek (1999): The least trimmed squares. Discussion Paper, Humboltd University, Sonderforschungbereich 373, Quantification and Simulation of Economic Processes.

46 Proti : Jsou značně citlivé na vypuštění byť jen jediného bodu. Mají spolehlivý algoritmus výpočtu. Víšek, J.Á. (1996): On high breakdown point estimation. Computational Statistics (1996) 11, 137 – 146. Pro (pokračování): Víšek, J.Á. (2000): On the diversity of estimates. Computational Statistics and Data Analysis, 34, (2000) 67 – 89. Pro : Čížek, P., J. Á. Víšek (2000): Least trimmed squares. XPLORE, Application guide, 49 – 64. Víšek, J.Á. (1996): Sensitivity analysis of M-estimates. Annals of the Instit. of Statist. Math. 48 (1996), 469 – 495. pokračování) Nejmenší usekané čtverce - pro a proti.

47 Algoritmus a jeho verifikace. A B Ne Ano Vybereme náhodně p+1 pozorování a vedeme skrze ně regresní rovinu. Vypočteme residua pro všechna pozorování. Vybereme h pozorování s nejmenšími čtverci residuí a uložíme sumu čtverců těchto residuí. Je tato suma menší než suma vyčíslená v minulém cyklu ? Aplikujeme OLS na vybraná pozorování, tj. najdeme novou regresní rovinu.

48 B Ano Ne Konec Vraťme se na A Jedna implementace je dostupná v knihovně XPLORE, jedna ode mne, jiná od mého doktoranda Libora Mašíčka. pokračování) Algoritmus a jeho verifikace. Došli jsme již 20-krát ke stejnému modelu nebo jsme vyčerpali předem daný počet opakování základního cyklu ?

49 DATA O SPALOVACÍCH MOTORECH Počet pozorování: 16 Vysvětlovaná veličina: Počet otáček za minutu Vysvětlující veličiny: Předstih Bohatost směsi Teplota směsi Teplota spalin pokračování) Algoritmus a jeho verifikace. MetodaIntrc.Před.Bohat.Tepl.Spaln. LMS LTS

50 DŘÍVE NEŽ POSTOUPÍME K PŘÍKLADůM z REGRESE,.....

51 Příklad z výuky matematiky Poté co byl vyložen pojem limity, byl uveden následující příklad: Aby si byl přednášející jist, že studenti pochopili, o co jde, položil kontrolní otázku : Odpověď byla překvapující:

52 Následují příklady využívající reálná data o České ekonomice. Nejprve je uvedena motivace dalšího výzkumu založená na faktu, že český export směřuje ponejvíce do EU. poté po jednotlivých letech nejmenších usekaných čtverců. Data byla zpracována nejprve pro rok 1994 (pro 61 odvětví), v obou případech metodou (pro 91 odvětví),

53 relying on international trade The Czech Republic - small open economy The export into EU increased in nineties from 8 billion US$ to 18.4 billion US$, i.e. annually 16.3%.

54 IN NUMBERS: Export into EU % 1/3 Germany 1/12 Austria European transition economies % 1/12 Slovakia 1/19 Poland “Rest of world” %

55 HYPOTHESIS There is an increasing segment of economy In other words: There is an increasing segment of economy - as follows from the previous - oriented on EU. which is export oriented which resembles market economy.

56 PRVNÍ PŘIKLAD

57 91 industries, nearly 40 variables, year 1994 X - export S - sales US - number of university students HS - number of high school students TFPW - total factor productivity related to wages DP - price development after opening-up FDI - foreigner direct investments VA - value addedW - wages K - capital BAL - Balasa index IRS - increasing return from scale R&D - research and development CR3 - market power (concentration) Pattern of variables The goal of analysis – to find determinants of of the EXPORT and FDI DATA ABOUT THE CZECH ECONOMY

58 Variablet-valuep-value US / VA HS / VA K / VA CR TFPW Bal DP · h=54 After a lot of experiments we arrived at the model SEARCHING FOR MODEL FOR EXPORT

59 No of cases US / VA HS / VA K / VA CR TFPW Balasa DP R-squared Chi-square Collecting results into the table …. Subpopulations nested up to size 57 Selected subpopulation Break in estimates of coefficients Let us call it “main” subpopulation (8) (7) (9) (8)

60 crude petroleum, natural gas ( ), non-ferrous ores ( ), sand, stones ( ), chemicals, minerals ( ), processing and preserving fruits and vegetables (153), animal oil, fats (154), dairy (155), grain mill products, starches (156), feeds (157), beverages, beers (159), textile fibre (171), textile products (175), knitted and crocheted products (177), leather clothes (181), other outwears (182), furs (183), leather dressing (191), bags, luggages (192), foot-wear (193), impreg- nation of wood (201), plywood and laminboard (202), wood-products ( ), paper products (212), petroleum-processing (232), pharmacy, botanical products (244), man-made fibres (247),rubber (251), plastics (252), prod. of glass, ceramics (262), bricks and baked clay (264), cement, lime and plaster ( ), cutting, shaping and finishing stones, nonmetallic minerals ( ), tubes (272), casting of metals (275), tanks, reservoirs, containers and boilers ( ), knives, tools and metal products ( ), machinery for production of power (291), machi-nery- tools (294), special and industrial machinery (295), domestic appliances (297), office machinery and computers (300), el. motors, generators and transformers (311), lighting equipment, el. lamp (315), radio and tv transmitters(322), radio, tv receivers, video recording (323), medical, surgical equipment (331), optical instru- ments, photo equipment (334), clocks, watches (335), motor vehicles (341), bicycles, motorcycles (354), furniture (361), gold and jewellery (362), sports goods, games, toys (364 – 365), production, distribution of electricity (401). Industries in “main” subpopulation

61 Variablet-valuep-value US / VA HS / VA K / VA CR TFPW Balasa DP · h=33 For “complementary” subpopulation - n = 37 Excluded: textile, ready made garment (174), agro- chemistry (242), musical instruments and records ( ), weapons, ammunition, n.e.c. ( )

62 hard coal (101), lignite and peat ( ), processing meat and meat products (151), processing fish and fish products (152), (other) food products (158), tobacco (160), textile weaving and the finishing of textiles ( ), textile articles (174), knitted and crocheted materials (176), impregnation of wood (201), pulp and paper (211), publications and prints ( ), oven-coke (231), basic chemicals (241), pesticide and agro-chemical products (242), paint-coating prod.(243), soap and detergents (245), manufacture of other chemical products (246), glass and glass products (261), iron and steel (271), metallurgy of iron and steel (273), precious and non-ferrous metals (274), structural metal products (281), other general purpose machinery (292), agriculture and forestry machinery (293), el. distr. equipment and control (312), cables and wires(313), other el. equipment ( ), electronic components (321), measurement and test. devices(332), control equip- ment (333), trailers and semi-trailers (342),motor vehicles parts and accessories ( ), buildingand repairing ships and boats (351),railway and tramway locomotives and rollingstock (352), air crafts and space crafts (353), music. instruments and records ( ), weapons, ammunition, n.e.c. ( ). Industries in “complementary” subpopulation

63 Model for “main” subpopulation Coefficient of determination = Chi-square = h = 54 Again after a lot of experiments we arrived : SEARCHING A MODEL FOR Foreigner Direct Investments Subpopulations nested up to the size 56 (8) We decided for 54 due to the increase of sum of squares and partially also due to already known results for export. 54

64 Model for “complementary” subpopulation h = 36 Coefficient of determination = Chi-square = Division of the population of 91 industries into the “main” and “complementary” subpopulation is nearly (except of two industries) the same as for export. (6)

65 (except of the statistical one that the subpopulations allow to built up reasonable models for EXPORT and for FDI) Does the division make any sense? (In other words, what about to study production functions in the respective subpopulations?) What about a relation between LABOR and CAPITAL ?

66 DEPENDENCE of on standardized labor (L / S) standardized capital (K / W) All 91 observations

67 on standardized labor (L / S) standardized capital (K / W) “Main” subpopulation DEPENDENCE of

68 on standardized labor (L / S) standardized capital (K / W) “Complementary” subpopulation DEPENDENCE of

69 Taking into account previous graphs, we should try to fit: (1) (2) “Main” subpopulation“Complementary” subpopulation h “Main” “Complementary” Coeffs of determination of model (1) h “Main” “Complementary” Coeffs of determination of model (2)

70 Taking into account that IRS was significant factor for FDI-models: h determination Estimates for “main” subpopulation h determination CES Estimates for “complementary” subpopulation

71 Conclusion from the analysis of 1994-data: i.e. it was probably already market-economy-oriented group of industries. There was (already in 1994) a part of economy which had standard production function,

72 DRUHÝ PŘIKLAD

73 61 industries, only 8 variables, years X - export PE - export prices K - capitalL - labor DE - debts FDI - foreigner direct investments TAR - tariffs from the Czech republic into EU M - importPI - import prices VA - value added DATA ABOUT THE CZECH ECONOMY TAR - tariffs from EU into the Czech republic EU CZ (only EXPORT will be referred) The goal of analysis - to find a model for the EXPORT and for the IMPORT.

74 Of course, the data were processed as panel data ….. determinationDurbin-WatsonWhite p-values < Result: t-valuep-value intercept [.107] [.000] by White estimate …but also per years !

75 We arrived at the model As we wanted to see a possible development of common factors (common for all years) in time, we tried to find factors which are significant (or nearly significant) throughout the whole studied period. Similar analysis, as was presented for 1994, was carried out for every year starting with 1993 to 1999.

76 SizeOfSam Intercept log(PI) log(PE) log(VA) log(K/L) log(DE/VA) log(FDI) log(TAR) Example of processing data for 1993 R-squared D-W<0.997<0.983 <0.960<0.883<0.528<0.333<0.836 Chi-Square Jarque-Bera White For this sizes TSP did not give p-values p-values of the respective tests

77 All explanatory variables are significant throughout 1993 – 99 except of log(DE/VA) in years 1996 and Year Size of sub Intercept log(PI) log(PE) log(VA) log(K/L) log(DE/VA) log(FDI) log(TAR) Optimal models for individual years 1993 – 1999

78 Year Size of sub R-squared D-W <0.883 < <.980 <.819 <.711 < Shapiro- Wilk Jarque- Bera LM-test White test Other characteristics of the “optimal” models for 1993 – 1999 p-values of respective tests

79 Year Size of subpopulation List of atypical industries Meat Corn Sugar Coffee, tea Other food Drinks Tobacco Pelt Seeds Pulp Iron Coal, coke Gas Animal oil

80 Year Size of subpopulation continued List of atypical industries Vegetable oil Manufac.oil Organ.chemistr. Pharmacy Parfumery Plastics Manufac. plastics Leathers Wood Iron, steel Metal prod. Business machine Transport equip. Shoes

81 SIZES OF SUBPOPULATIONS WHICH WERE SELECTED Floating exchange rate Saving packages Despite the government measures the economy is able to help itself. Exaggerating a bit we may say:

82 DÍKY ZA POZORNOST


Stáhnout ppt "Founded 1348Charles University. Bohdaneč 24. - 27. 12.. 2003 Analýza dat 2003/II Institute of Information Theory and Automation Academy of Sciences Prague."

Podobné prezentace


Reklamy Google