Analýza dat pomocí software od SAS Institute

Slides:



Advertisements
Podobné prezentace
Analýza experimentu pro robustní návrh
Advertisements

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
SAS Jan Blaťák Laboratoř vyhledávání znalostí Fakulta informatiky Masarykova Univerzita, Brno
Softwarový systém DYNAST
Monte Carlo permutační testy & Postupný výběr
Cvičení 6 – 25. října 2010 Heteroskedasticita
Predikce Zobecněná MNČ
Lineární regresní analýza Úvod od problému
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Statistika II Michal Jurajda.
Počítačové modelování dynamických systémů Simulink 5. cvičení Miloslav LINDA katedra elektrotechniky a automatizace.
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Analýza informačního systému
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Survival Analysis Mgr. Pavel Tuček, Ph.D. Olomouc
Novinky a strategie společnosti Vema, a. s.
Statistická analýza únavových zkoušek
Obecný lineární model Fitované hodnoty and regresní residuály
Dokumentace informačního systému
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Biostatistika 6. přednáška
Biostatistika 7. přednáška
IBM Software Group © 2006 IBM Corporation Confidentiality/date line: 13pt Arial Regular, white Maximum length: 1 line Information separated by vertical.
Souvislost amerického a evropských akciových trhů Za pomoci grafických modelů v SW Mathematica Vladislav Chýna Setkání uživatelů systému Mathematica
Analýza infromačního systému. Matice afinity ISUD matice – Insert (vkládání dat) – Select (výběr dat) – Update (aktualizace dat) – Delete (vymazání dat)
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM.
Princip maximální entropie
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Posouzení možnosti využití ArcIMS pro prezentaci rozsáhlých rastrových dat Diplomová práce Vedoucí: Dr. Ing. Bronislava Horáková Zpracovatel:Tomáš Ježek.
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Základy ekonometrie 4EK211
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Metodika generování a ladění modelů neuronových sítí Ing. Martin MoštěkVŠB – Technická Univerzita Ostrava.
Statistická významnost a její problémy
Biostatistika 8. přednáška
Biostatistika 1. přednáška Aneta Hybšová
Přehled SAS Institute software For 22 Years: “If It Moves, We Can Analyze It”
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
Modifikovaný dynamický model pro řešení technicko-ekonomických úloh s použitím rizik a nejistot Modifikovaný dynamický model pro řešení technicko-ekonomických.
Testování s TestComplete
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
1. cvičení
Statistika v SAS (SAS STUDIO)
IV..
How To Upload and Download Flies using Filezilla ?
Databázové systémy přednáška 6 – Indexy
Ukládání dat biodiverzity a jejich vizualizace
Stručný přehled modelových rozložení I.
Dvoufaktorová analýza rozptylu
Dobývání znalostí z databází dolování dat
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy přednáška 13 – Analýza a reporting
4. cvičení
Databázové systémy a SQL
3. cvičení
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Web Application Scanning
Mainframe History Marek Ďuriš Mainframe History 12/28/2018
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Analýza informačního systému
Účetní schémata MS Dynamics NAV RTC-základy
Základy statistiky.
Transkript prezentace:

Analýza dat pomocí software od SAS Institute Jaroslav Půlpán, SAS Institute, Praha czejap@cze.sas.com For 22 Years: “If It Moves, We Can Analyze It”

SAS System: modulární software Warehouse Administrator Enterprise miner Enterprise reporter Přístup do: Sybase, Oracle, Informix ODBC... Client-server SAS dataset MDDB SPDS DMDB... Stat. analýza, časové řady, oper. výzkum, kontrola kvality... Sestavy grafy, tabulky EIS,WEB ... SAS System Sběr dat Analýza Presentace Uložení SAS language, SAS Macro, SCL, OOP (AF a EIS objekty) Od desktopu po mainframe: Windows,Mac,Unix, MVS,VMS 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML (Modul SAS/OR Modul SAS/QC) Další produkty SAS Institute 5/98 Data Analysis

Interaktivní SAS nástroje SAS/ASSISTS menu ovládaný interface do všech hlavních funkcí (SAS menu Globals/Analyze) (Interactive data analysis ) = SAS/INSIGHT nástroj pro interaktivní statistickou. analýzu a vizualizaci dat a výsledků (Time Series Forecasting System)= SAS/TSFS menu ovládaný interface do modulu SAS/ETS (Guided data analysis ) = SAS/LAB řízená statistická analýza zaměřená na analýzy laboratorních tesů 5/98 Data Analysis

Interaktivní SAS nástroje (Quality improvement) = SAS/QC (SQC) integrovaný GUI pro řízení a kontrolu kvality (Project management) = PROJMAN SAS/OR operační výzkum a řízení projektů (Design of experiments) = ADX interaktivní nástroj pro návrh experimentů SAS/SPECTRAVIEW - zobrazeni 3D ANALYST (volně šířený modul) interaktivní nástroj pro statistikou analýzu RESEARCH ANALYST modifikovatelný analytický nástroj 5/98 Data Analysis

SAS/INSIGHT - nástroj pro vizualizaci dat Je dynamický nástroj pro zkoumání a analýzu dat. Zkoumání distribuce dat je možno provádět prostřednictvím interaktivních histogramù,oblastí, a 3D rotačních bodových grafù. Lze zkoumat korelace mezi proměnnými a vypočítávat základní komponenty aby nalezl strukturu dat. Všechny grafy a tabulky dat se objevují v oknech, která jsou navzájem propojena, takže změna výběru se automaticky promítne do druhého okna. 5/98 Data Analysis

Interaktivita grafů v INSIGHTu 5/98 Data Analysis

Typy grafů - menu Analyze Line Plot lze volit typ čáry Scatter Plot 5/98 Data Analysis

Typy grafů - menu Analyze Rotating Plot lze vypinat/ potlačit krychli, osy; či rotovat graf; 5/98 Data Analysis

Označování bodů v grafech Zobrazení Tools toolbaru - Edit, Tools výběrem ikony barvy nebo symbolu lze nastavit podmínku, při jejichž splnění se pozorování na grafu obarví dle vybrané ikony pokud jsou body vybrány v grafu pomocí myši, pak výběr ikony barvy nebo symbolu je obarví automaticky 5/98 Data Analysis

Ukázka: použití INSIGHT Variable DF Estimate Std Error Prob >|T| INTERCEPT 1 50.7926 5.2081 0.0001 X 1 0.9833 0.1795 0.0001 5/98 Data Analysis

INSIGHT - distribuce residuii 5/98 Data Analysis

Prokládání křivek rozložením Menu: Analyze,Distribution;tlačítko:Output 5/98 Data Analysis

INSIGHT jako procedura PROC INSIGHT; OPEN stat.testets /NODISPLAY; FIT Y = X; TABLES; RUN; 5/98 Data Analysis

SAS/ASSIST-nejsnažší ovládání 5/98 Data Analysis

SAS/ASSIST =menu interface Systém menu zastřešující všechny nástroje tvorbu dat a jejich úpravy provádění statistických analýz z STAT a ETS nevyžaduje znalost programování log výpis poskytuje informaci jak byly použity procedury STAT a ETS modulů možnost uschovat programy a znovu je spouštět v dávkovém režimu 5/98 Data Analysis

SAS-ASSIST SAS/ASSIST software is a menu-driven, task-oriented interface to the SAS System. It enables users of all experience levels to access the power of the SAS System quickly and easily without having to learn SAS programming statements. SAS/ASSIST enables you to perform tasks efficiently using templates and menu screens. The way each task works within SAS/ASSIST software is similar. Therefore, after you master one task, other tasks are easy to complete. With SAS/ASSIST software, every user has the power of the SAS System at their fingertips regardless of their experience level. The software provides a point-and- click interface that guides users to access, manage, analyze, and present data. SAS/ASSIST software also serves as an applications generator as it builds the SAS code for each completed task. This code is reusable and customizable and therefore a perfect tool for rapid applications development. Two enhancements to this software, the SQL Query window and Query and Reporting from DB2, provide additional point-and-click interfaces to automatically generate ad hoc SQL queries and reports with minimal effort. This task- oriented, menu-driven user interface provides a gateway to productivity. 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML (Modul SAS/OR Modul SAS/QC) Další produkty SAS Institute 5/98 Data Analysis

Spouštění SAS systému LOG (F6) Command Line: (F11) PGM (F5) NOTE: Copyright (c) 1989-1996 by SAS Institute Inc., Cary, NC, USA. NOTE: SAS (r) Proprietary Software Release 6.12 TS020 License d to SAS INSTITUTE CZECH OFFICE/INTERNAL USE, Site 0030001130. Command Line: (F11) SUBMIT PGM (F5) OUTPUT (F7) OUTPUT Command==> Command==> NUM OFF 0001 0002 0003 0004 0005 Command==> 0001 0002 0003 0004 0005 Command==> The SAS System 09:50 Monday, April 27, 1998 3 OBS TRTMNT RESPONSE 109 4 1736.17 110 5 1781.37 5/98 Data Analysis

Base SAS - základní modul SAS System 4GL programovací jazyk SAS pro tvorbu programů (Data Step) výkonný makro procesor (SAS Macro) procedura SQL pro práci relačními tabulkami prostředí SAS System (editor, menu systém, knihovny, nápověda) základní procedury pro řízení prostředí (PROC OPTIONS...) základní procedury pro práci s datasety (PROC PRINT, PROC CATLOG, PROC SORT..) 5/98 Data Analysis

Ukázka SAS programu: {zapsán do PGM okna a spuštěn pomocí SUBMIT (F8) } /* toto je komentar */ * take toto je az to znaku strednik komentar; /*DATASTEP - zakladni krok pri praci se soubory a datasety, implicitne se definovane prikazy provadi pro vsechny radky vstupniho datasetu */ DATA STAT.TEST1;* vytvor novy dataset ; DO i=0 TO 50; * cyklus pro kazdy radek vstupu; y=y+RANUNI(123); * pridej nahodne cislo; PUT y; * vypis Y do logu; OUTPUT; * zapis do vystupniho datasetu; END; * konec cyklu; RUN; * sputi datastep; 5/98 Data Analysis

Ukázka SAS Macro: %MACRO GENETS(b0,b1,a1,a2,c,n,name); DATA &name (drop=seed); do x=0 to &n; if x=0 then do seed=12; e1=&c*rannor(seed); e2=&c*rannor(seed); end; e=-&a1*e1- &a2*e2 + &c*rannor(seed); e2=e1; e1=e; y=&b0+&b1*x+e; output; end; %MEND %let name=stat.testets; %genets(50,1,0.8,0.5,12,50,&name); run; 5/98 Data Analysis

Ukázka SQL procedury /* Proc SQL = uplna ANSI-SQL implementace s moznosti pouzivat nativni SQL dialekty jinych databazi (pass-through) */ proc sql noprint; select max(e), min(e) into :maxe , :mine from stat.testets; /* je mozna spoluprace PROC SQL s makro procesorem */ data _null_; %put &mine; %put &maxe; x=abs(max(&maxe,&mine)); put x; run; 5/98 Data Analysis

SAS/GRAPH grafický výstup: proc gplot data=&name; plot y *x / haxis=axis1 vaxis=axis2 nolegend grid cframe=white; axis1 label=( h=2 " x") ; axis2 label=( h=2 a=90 r=0 " Y"); symbol interpol=sm ci=blue w=3; 5/98 Data Analysis

Ukázka 3D plochy 5/98 Data Analysis

Ukázka grafu s vrstevnicemi 5/98 Data Analysis

SAS/SPECTRAVIEW 5/98 Data Analysis

SAS/GIS geografický informační systém pro presentaci obchodních dat na mapách 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML (Modul SAS/OR Modul SAS/QC) Další produkty SAS Institute 5/98 Data Analysis

Moduly SAS System pro analýzu dat SAS/STAT -statistická analýza SAS/ETS -analýza časových řad SAS/IML -maticový programovací jazyk SAS/OR -operační výzkum a řízení projektů SAS/QC -kontrola kvality (SAS/LAB -statistická analýza lab. testů ) 5/98 Data Analysis

Modul SAS/STAT Regresní analýza Analýza rozptylu Neparametrické analýzy Analýza kategorických dat Diskriminační analýza Shluková analýza Analýza přežití Soustavy strukturních rovnic 5/98 Data Analysis

Procedury pro regresní analýzu REG obecná regrese s úplnou diagnostikou GLM zobecněný lineární model MIXED lineární modely se smíšenými efekty ORTHOREG regresení analýza se spec. metodou pro špatně podmíněná data RSREG regresní modely s kvadratickou odezvou 5/98 Data Analysis

Procedury pro regresní analýzu LOGISTIC - regrese pro binární data PROBIT - regrese několika stavových proměnných GENMOD - lineární model s „link“ funkcí NLIN - obecný nelineární regresní model TRANSREG - použití k nalezení optimální transformace vstupních proměnných 5/98 Data Analysis

Proceura REG Model: y = X. b + e y vektor pozorování (y1…yn) b vektor parametrů modelu (b1.. bk ) X matice (xij) hodnot vysvětlujících proměnných , rozměr n x k (design matrix) řešení metodou nejmenších čtverců 9 metod výběru modelu (forward,backward..) rozsáhlá diagnostika (grafy,intervaly spolehlivosti,...) 5/98 Data Analysis

Řešení OLS pomocí REG proc reg data=stat.testets graphics; model y=x; X Y 0 48.25 1 46.53 ... proc reg data=stat.testets graphics; model y=x; output out=p p=yhat l95=lcl u95=ucl r=res; proc gplot data=p; plot y*x=1 yhat*x=2 lcl*x=3 ucl*x=3 /overlay cframe=white ; run; 5/98 Data Analysis

Ukázka: výstup PROC REG 5/98 Data Analysis

Zobecněný lineární model (GLM) Model: y = X. b + e s kovarianční maticí lze zadat i interakce (xi*xj...) testování hypotéz včetně kontrastů interaktivního vyhodnocování modelu analýza variance (pro všechny typy návrhů vyvážené, nevyvážené, vicefaktorové ) 5/98 Data Analysis

Řešení GLM nalézt b’, který minimalizuje výraz: maticový zápis řešení b’ : rozptyl odhadu b’: Hlavní problém : kovariance nejsou známy je nutno pracovat s odhady 5/98 Data Analysis

Smíšené modely - procedura MIXED Data heights; input family gender$ height; ... proc mixed data=sp; class family gender; model height = gender random family ; run; 5/98 Data Analysis

Procedura RSREG Proc glm; model = x1 x1*x1 x2 x1*x2 x2*x2 proc rsreg; model y = x1 x2 x3; 5/98 Data Analysis

Procedury LOGISTIC a PROBIT Logistická regrese - modelování binární proměnné probit rovnice logistická Gompetz normální lze užít i na vicestavové proměnné 5/98 Data Analysis

Procedura GENMOD Link funkce g: Distribuce chyb: Generalized linear model Link funkce g: identity logit probit power log log-log Distribuce chyb: normalní binomická Poisson gama inversní Gaussovo 5/98 Data Analysis

Procedury pro analýzu variance ANOVA vícerozměrná analýza rozptylu varianta GLM výhodná pro vyvážené návrhy NESTED analýza rozptylu pro blokové experimentální návrhy VARCOMP analýza rozptylu ve smíšených modelech 5/98 Data Analysis

Neparametrické analýzy UNIVARIATE - Wilcoxonův test FREQ - n-rozměrné kontingenční tabulky (Chi-square, Fisher exact test,…-15 testů) NPAR1WAY neparametrické testy pro uspořádané výběry Wilcoxon,Savage, Van der Waerden, Kolmogorov-Smirnov statistiky 5/98 Data Analysis

Procedury pro analýzu kategorických dat CATMOD - modelování kontingenčních tabulek CORRESP - analýza vícerozměrných kontingenčních tabulek metodou hlavních komponent 5/98 Data Analysis

Vícerozměrné analýzy FACTOR faktorová analýza PRINCOMP analýza hlavních komponent PRINQUAL hlavních komponent pro kvalitativní data CANCORR kanonická korelace Metoda hlavnich komponent hledani lin. Kombinace fiktivních promenných, jejichz linearni kombinace je takovou lin. Kombinaci puvodnich promenných, ktera ma stejnou strukturu rozptylu faktorová analýza = puvodní promenne rozdeleny na 2 mnoziny nalsezeni takové lin. Kombinace v techto mnozinách, aby korelace mezi temito lin. Kombinacemi byla maximalní kanonicka korelace zavislost mezi 2 skupinami promenych cilem je nalezeni lin. Kombinace ve techto skupinach tak aby puvodni skupiny sly nahradit pouze jednou 5/98 Data Analysis

Diskriminační analýza DISRIM diskriminační analýza (i neparametrická) CANDISC kanonická diskriminace STEPDISC postupná diskriminační analýza (postupný výběr, zpětné odebírání) Canonická diskriminační analýza redukuje pocet dimenzi pro klasifikacni promenne a nekolik kvantitativních proennych najde kombinaci kvantitativních promenych ktere popisuji rozptyl mezi klasifikacnimi promenymi diskriminacni analyza rozdeluje pozorovaní do 2 skupin na zaklade nekolika kvantitativnich promenych , pokud je predpokladano normalni rozdeleni jsou popsany (parametry ) funkce 5/98 Data Analysis

Shluková analýza CLUSTER implementace 9 algoritmů shlukování FASTCLUS k-means algoritmus pro rozsáhlá data ACECLUS přibližná metoda odhadu kovariační matice (mezi shluky pozorování) VARCLUS shlukování dle numerických proměnných 5/98 Data Analysis

Shluková analýza MODECLUS shlukování založené na neparametrickém popisu hustoty TREE výstup shlukové analýzy formou stromových diagramů STANDARD normalizace proměnných před shlukovou analýzou 5/98 Data Analysis

Analýza přežití LIFETEST - neparametrické testy rozložení rizik, porovnání křivek přežití LIFEREG - regrese parametrických model křivek přežití (Weibull, Gompertz) PHREG - analýza přežití (Cox proportional hazard model) lze použít i na analýzu spolehlivosti (doby bezporuchové chodu) 5/98 Data Analysis

Analýza přežití - základní pojmy proměnná T - čas událostí pro všechny pozorované jednotky událost nenastane - pak nutno pracovat s množinami jednotek spadajícími do následujících typů T>a right censoring T<b left censoring a<T<b interval censoring random censoring - není určeni stejný konec pozorování pro všechny jednotky 5/98 Data Analysis

Analýza přežití - funkce rizika cumulative probability distribution function survivor function probability density function hazard function 5/98 Data Analysis

Analýza přežití - funkce rizika Vztahy mezi h(t), S(t) a F(t) Modelové funkce rizika exponencial Gompetz Weibull 5/98 Data Analysis

Proportional hazards models Influence of the explanatory variables exponecial Gompetz Cox proportional hazard model (PHREG) maximum partial likelihood concept 5/98 Data Analysis

Proc CALIS - analýza lineárních strukturních rovnic Soustava lineárních rovnic provázaných společnou proměnnou 5/98 Data Analysis

Proc CALIS analýza lineárních strukturních rovnic Multiple and multivariate linear regression Measurement error models Structural equations with latent variables Path analysis and causal modeling Simultaneous equation models with reciprocal causation Exploratory and confirmatory factor analysis of any order Three-mode factor analysis ,Canonical correlation 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML (Modul SAS/OR Modul SAS/QC) Další produkty SAS Institute 5/98 Data Analysis

Modul ETS (Econometrics and Time Series) Postup analýzy časových řad identifikace procesu odhad parametrů modelu diagnostika předpokladů Použití analýzy časových řad (modelů) popsání modelu a parametrů procesu předpověď budoucího vývoje procesu modelování vztahů mezi více časovými řadami predikce vlivu změn jedné časové řady na ostatní 5/98 Data Analysis

Procedura FORECAST - předpovědi jednoduše rychlá generace předpovědi pro velký počet časových řad kombinuje trend a autoregresní modely jádro interaktivní nadstavby SAS/TSFS (Time Series Forecasting System) 5/98 Data Analysis

Výsledky FORECAST 5/98 Data Analysis

Metody modelování časových řad implementované v modulu ETS AUTOREG: modely s autoregresním náhodným členem ARIMA: Box-Jenkins modely (AutoRegressive Integrated Moving-Average) X11: sezonní korekce časových řad FORECAST: automatický výběr modelu z tříd (ARIMA + trend + sezonní vliv) 5/98 Data Analysis

Metody modelování časových řad implementované v modulu ETS PLDREG: regresní analýza řad se zpožděnými efekty vyjádřenými polynomem (polynomial distributed lag model) TSCREG: regresní analýza několika časových řad (Time Series Cross Section Regression) STATESPACE: modely založené na stavovém prostoru (Markovovy procesy) 5/98 Data Analysis

Ekonometrické modelování implementované v modulu ETS MODEL: nelineární vícerozměrné modely SYSLIN: regresní analýza provázaných systémů lineárních rovnic v kterých je regresor svázán s residui SIMLIN: simulace řad zpracovaných procedurou SYSLIN SPECTRA: spektrální analýza řad - rychlá Fourierova transformace 5/98 Data Analysis

Pomocné procedury ETS modulu EXPAND - převody časových intervalů a interpolace chybějících hodnot DATASOURCE - načítání dat z různých zdrojů (IMF,OECD…) LOAN, MORTAGE - analýza úroků COMPUTAB - tabulkový procesor a generátor 5/98 Data Analysis

Procedure AUTOREG Modelování časových řad s autokorelovanou náhodnou složkou Durbin-Watson test autokorelace 5/98 Data Analysis

Autoregresní model řádu p ? Model: yi = b0+ b1.xi + ai kde náhodná složka závisí na předchozích měřeních ai = - a1 ai-1 - a2 ai-2 … ap ai-p + ei až vektor náhodných chyb (e1.. en) splňuje předpoklady : normalita: normální rozložení e homogenita: N(0,s2) nezávislost: korelace mezi (e1.. en) nulová 5/98 Data Analysis

PROC AUTOREG výstup 5/98 Data Analysis

Výsledky z PROC AUTOREG Root MSE=18.8709 Variable Estimate Error Prob>|T| INTERCEP 50.792577 5.20812633 0.0001 X 0.983256 0.17951942 0.0001 Lag Coefficient Std Error t Ratio 1 1.01395697 0.124419 8.150 2 0.52195261 0.124419 4.195 Root MSE=12.12887 Variable Value Std Error App.Prob Intercept 50.767688 1.3744 0.0001 X 0.990618 0.0478 0.0001 REG b0=50 B1=1 a1=0.8 a2=0.5 AUTOREG c= 12 b0=50 b1=1 5/98 Data Analysis

Další modely v AUTOREG Rozptyl náhodné složky konstantní proměnný rozptyl = generalized autoregressive conditional heteroscedasticity model GARCH(p,q) (IGARCH, EGARCH, GARCH-in-mean) 5/98 Data Analysis

Procedura ARIMA Box-Jenkinsova metodologie modelování časových řad stacionární proces - vlastnosti řady nezávisí na čase po transformaci lze modelovat širokou škálu časových řad z praxe existuje diagnostika napomáhající výběru modelu lze pracovat i s více svázanými časovými řadami (ARIMAX modely) 5/98 Data Analysis

Modely v PROC ARIMA proces klouzavých součtů autoregresní proces (Moving Average - MA(q) ) autoregresní proces (AutoRegression AR(p) ) 5/98 Data Analysis

Modely v PROC ARIMA smíšený proces Integrovaný smíšený model ( ARMA(p,q) ) Integrovaný smíšený model model ARMA(p,q) aplikovaný na d-té diference ( ARIMA(p,q,d) ) 5/98 Data Analysis

Modelování sezónních vlivů pomocí ETS Sezónní vlivy popsatelné ARIMA modely sezónní autoregresní model aditivní sezónní model multiplikativní sezónní model Procedura X11 pro popis sezónních vlivů implementace programu X11 U.S. Bureau of Census složky: sezónní variace, dlouhodobý trend, vliv počtu pracovních dní multiplikativní i aditivní dekompozice 5/98 Data Analysis

Vyrovnání sezonních cyklů Výstup z procedury X11 5/98 Data Analysis

Modely procedury PDLREG (Polynomial Distributed Lag Regression) Výstupní hodnota závisí na linearní kombinaci zpožděných vstupních hodnot lze použit i více “zpožděných” proměnných není nutná příprava “zpožděných” řad 5/98 Data Analysis

Metody implementované v proceduře TSCREG Model vícerozměrných řad s různou strukturou rozptylu Fuller - Batteseova metoda Parksova metoda Da Silvova metoda 5/98 Data Analysis

Nelineární modely (MODEL) Nástroj pro regresní analýzu řešení a předpovědi obecné soustavy nelineárních rovnic s časovými řadami možnosti odhadu korelační matice parametrů metodou Monte Carlo 5/98 Data Analysis

Použití procedury MODEL proc model data=uspop; pop = a / ( 1 + exp( b - c * (year-1790) ) ); fit pop start=(a 1000 b 5.5 c .02)/ out=resid outpredict; run; 5/98 Data Analysis

Modely popsané stavovým prostorem (proc STATESPACE) popis několika vzájemně provázaných časových řad e = náhodný vektor x =vektor pozorování ; z=stavový vektor výstup i ve formě ARIMA modelu podmínkou je stacionarita řad (nebo nutno užít diference) možnost omezení prvků matic F a G 5/98 Data Analysis

SYSLIN a SIMLIN procedury Regresní analýza vzajemně svázaných soustav linearních rovnic typy proměných vzájemně závislé (endogenous) - odezva instrumentalní - nezávislé proměné získané v prvním kroku řešení možnost zavedení omezujících podmínek na jednu nebo více proměnných SIMLIN generuje předpovědi odezev 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML Modul SAS/OR Modul SAS/QC Další produkty SAS Institute 5/98 Data Analysis

Modul SAS/IML - naprogramujte co jste vymysleli programovací jazyk pro operace s maticemi rychlá a prověřená implementace pokročilých maticových operací a matematických metod spolupráce s ostatními SAS System moduly zahrnuje grafické rutiny (GKS) pro tvorbu vlastních grafických aplikací 5/98 Data Analysis

Příklad: IML program proc iml; start lreg; n=nrow(x) ; k=ncol(x); xpx=x`*x; xpy=x`*y; xpxi=inv(xpx); b=xpxi*xpy; yhat=x*b; print ,, "Fit",,b; resid=y-yhat; print ,,"Results",, y yhat resid; finish lreg; use glmtest; read all var {one x} into x; print x; read all var {y} into y; print y; run lreg; 5/98 Data Analysis

Matice a IML Maticové funkce DET = determinantů ; INV = inverse GINV = generalized matrix inversion (N*M) HALF = Choleski dekompozice SVD = singular value decomposition SOLVE =řešení lin. soustavy FFT,IFFT Fourierova transformace EIGVEC = charakteristická čísloa matice POLYROOT = řešení polynomu 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML Modul SAS/OR Modul SAS/QC Další produkty SAS Institute 5/98 Data Analysis

Modul SAS/OR (Operations Research) LP - řešení problémů lineárního programování (včetně případů celočíselných a smíšených vstupních parametrů) NLP - řešení problémů nelineárního programování NETFLOW- řešení problémů LP popsaných ohodnoceným orientovaným grafem ASSIGN - řešení přiřazovacího problému 5/98 Data Analysis

Přiřazovací problem (ASSIGN) Nalézt maximum součtu Cij - matice cen (preferencí) xij (0,1) hledané přiřazení i= 1…n počet zdrojů j= 1...m počet přiřazení pomocí PROC ASSIGN lze hledat řešení pro případy: n=m, n>m,n<m 5/98 Data Analysis

Modul SAS/OR - procedury pro řízení projektů PROJMAN - interaktivní nadstavba ovládaná systémem menu CPM - jádro řízení projektu (kalendář,seznamy zdrojů, definice omezení ) (časový plán, výpis využití zdrojů) grafické výstupy ve formě schémat plánů GANTT- výstup časových plánů (Ganttovy diagramy) DTREE - implementace rozhodovacích stromů 5/98 Data Analysis

Modul SAS/QC (Quality Control) Sada procedur pro řízení procesu kontroly kvality nástroje na tvorbu a vyhodnocování diagramy kontroly kvality (Isikawa, Pareto, Shewhart) procedury a interface pro návrh experimentů (ADX) částečné faktoriální návrhy ortogonální pole Taguchiho pole smíšené návrhy procedury pro vyhodnocování exprimentů (ADX) regrese, analýza variance, Bayesovské grafy 5/98 Data Analysis

Shewhart Control Chart Speciální testy 5/98 Data Analysis

ADX - Typy návrhů Full or fractional factorial Response Surface with and without blocking factorial Response Surface Mixture Mixture level Optimal design 5/98 Data Analysis

ADX-Interaction plot 5/98 Data Analysis

ADX-Hledání optima 5/98 Data Analysis

SAS System - analytické nástroje Přehled SAS System software Interaktivní nástroje SAS System - moduly SAS/ASSIST a SAS/INSIGHT Programovací prostředí Analytické moduly Modul SAS/STAT Modul SAS/ETS Modul SAS/IML (Modul SAS/OR Modul SAS/QC) Další produkty SAS Institute 5/98 Data Analysis

JMP statistical software „Statistics Made Visual“ úplný statistický balík: lin. a nonlin. regrese 2D a 3D grafy statistické testy návrh experimetů analýza přežití clustering Funkčnost srovnatelná se statistickými moduly SAS System, chybí možnosti programování 5/98 Data Analysis

Další informace: SAS Institute Praha Václavské náměstí 66 Tel: +420 /2 22 21 20 64 E-mail: support@cze.sas.com SAS Institute WEB site: http://www.sas.com 5/98 Data Analysis