Statistika v SAS (SAS STUDIO) JSM 315 Statistika v SAS (SAS STUDIO) 3. lekce
SAS = Statistical analysis system Domácí stránka v ČR Obecně o SAS SAS = Statistical analysis system Domácí stránka v ČR http://www.sas.com/offices/europe/czech/index/index.html Velcí zákazníci SAS v ČR: T-Mobile Česká spořitelna Česká pojišťovna Komerční banka ČEZ
Kniha o rozdílech příkazů mezi SPSS a SAS (R. Levesque) Návod v češtině: http://www.karlin.mff.cuni.cz/~kulich/sas/SASMain.html Kniha o rozdílech příkazů mezi SPSS a SAS (R. Levesque) http://www.spsstools.net/spss_programming.htm
SAS a SPSS rozdíly a podobnosti Ovládání příkazy i přes nabídky (ale většinou jen příkazy) – viz licence FSV, kde nemáme u SASu Analyst a lze tedy jen příkazy Zápisy příkazů podobné v obou SW Modulární systémy SPSS Base, Advanced, Regression atd. SAS – BASE, STAT, GRAPH, ETS atd. Nyní verze 22 SPSS a verze 9 .4 SAS Zastoupení v ČR a četná školení o systémech
SAS a SPSS rozdíly a podobnosti SAS není jen statistický paket, umí mnohem více SAS rychleji implementuje nové postupy v analýze dat SAS zřejmě bohatší literatura Analýza dat dva kroky – DATA a PROC – lépe sleduje logiku dat Jiná práce s daty – dočasné a stálé soubory, možnost práce s více soubory, jiná logika, řazení souborů do knihoven (viz dále) SAS jen dva typy proměnných – Numeric a String, v SPSS typů mnohem více plus definice typu škály Důležité: Naučí-li se člověk jeden SW bez problémů rychle zvládne druhý
SAS STUDIO Jde o část SAS, kterou je možné spouštět „na dálku“ přes webový prohlížeč Základní software musí být virtualizován (na konkrétním počítači, nebo na serveru, kam se přes přohlížeč „sahá“ Výhody: Pěkné grafické rozhraní jak na zadávání tak pro výstupy (SAS jinak moc pěkný není) Snadné ovládání a malé požadavky na výpočetní techniku (normální instalace SAS má 32 GB) Umožňuje velice snadno pochopit logiku SAS kódu (generuje jej po částech) skrze předpřipravené procedury JE ZDARMA a nejsíš bude nastálo Umožňuje práci na dálku bez nutnosti instalace na konkrétní počítač Nevýhody: Omezení jen na základní procedury (končí se u konti tabulek, korelace a regresní analýzy), další nejspíš budou přidávány Omezení při načítání dat jen na základní formáty (CSV, XLS)
SAS – základní podoba Několik oken PROG – Zapisování příkazů a jejich kontrola podbarvováním (SAS měl jako první) LOG – zde se vypisují spuštěné příkazy a případné chyby (nutná kontrola, chyby jsou červeně) OUT – zde se generují výstupy, po spuštění procedury se toto okno aktivuje
Základní logika práce v SAS DATA a PROC části – předpoklad, že nejdříve připravíme data a teprve poté je analyzujeme V SAS Studiu toto není tak striktně oddělené, ale je to rozumné dodržovat (i mimo SAS) Obecná pravidla pro příkazy: Vždy se začíá buď výrazem DATA nebo PROC a poté teprve klíčové slovo, např. PRINT, FREQ atd. Na konci řádků se píše středník !!! •SAS nerozlišuje velká a malá písmena, Třídící proměnná je označena jako CLASS (v SPSS BY) Vždy lze nastavit mnoho parametrů (viz ukázky v SAS Studiu) Poznámky v příkazech (2 typy) *poznamka; /* poznamka*/ Poznámku typu dvě lze uplatnit i v řádku s příkazem
Speciality v příkazovém jazyce SAS TITLE TITLE ‚Moje tabulky'; Slouží k popisu výstupů (podobně v Mplus) Dokud nedefinuji další TITLE používá se poslední spuštěný OPTIONS Nastavení grafických prvků SAS Provádíme zpravidla na počátku OPTIONS center; Zajistí vycentrování výstupů
SAS STUDIO - ukázky I. Načtení dat: CSV – přímé zobrazení dat v prohlížeči před načtením XLS – před načtením přímo zobrazit nejde, lze jen uložit na disk a otevřít v Excelu Otevření existujících dat z připravených knihoven Logika odkazování na data – název knihovny.název souboru, např. work.moje (poznámka SAS nerozlišuje velká a malá písmena) Kontrola dat ve výstupním okně Zobrazení dat v interním prohlížeči
SAS STUDIO – výpočty a grafy Histogram Koláčový graf Četnostní tabulky Popisná statistika Kontingenční tabulky vč. šancí Korelace vč. neparametrických a intervalu spolehlivosti T-testy (1 a 2 výběrový) ANOVA Regrese (lineární)