Statistika II Základy práce s SPSS Petr Soukup JSB 018 Statistika II Základy práce s SPSS Petr Soukup
Odkud pochází název SPSS? SPSS původně – the Statistical Package for the Social Sciences Název klíčového software společnosti SPSS dnes – Statistical Products and Service Solutions
Historie SPSS ve světě Založena 1968 v USA Dnes cca 60 poboček po celém světě Klíčové oblasti: nabídka software, konzultační a analytická činnost
Historie ACREA (dříve SPSS CR) plný název ACREA, s. s r. o. Založena 1995 Sídlo: Krakovská 7, Praha 1 Jednatelé: Doc.RNDr. Jan Řehák a RNDr. Irena Bártová Základní oblasti: Prodej či pronájem software Kurzy statistiky a marketingu Analytické práce a modelování Poradenství a expertní služby
Software nabízený ACREA Programy pro statistické analýzy: Systém SPSS | Amos | AnswerTree | SamplePower Programy pro komplexní proces sběru a vyhodnocení dat Platforma Dimensions Programy pro oblast Predictive Analytics a Data miningu PredictiveAnalytics | Clementine
Více o software IBM SPSS Základní software pro analýzu dat v sociálněvědní oblasti Modulová stavba: základní modul Base 15 rozšiřujících modulů: Advanced Models | Categories | Classification Trees | Complex Samples | Conjoint | Data Preparation | Exact Tests | Maps | Missing Value Analysis | Regression Models | Tables | Trends
Více o software SPSS Co umí SPSS? Většinu statistických procedur včetně specifických (logistická regrese, analýza přežití, klasifikační stromy, Box-Jenkinsova metodologie atd.) Tabulkové a grafické zobrazení výsledků Plánování designu výzkumu Pracovat s chybějícími hodnotami Tedy vše co je při kvantitativním sociálněvědním výzkumu třeba. Demo verze zdarma ke stažení viz www.acrea.cz
SPSS - Základní uživatelské dovednosti potřebné pro práci s daty (zejm SPSS - Základní uživatelské dovednosti potřebné pro práci s daty (zejm. základní příkazy) - dnes SPSS 22,0 - až do verze 6 byly výstupy v textové formě, dnes objektové a je proto možno v rámci systému WINDOWS klasicky kopírovat (do verze 6 bylo možné kopírovat sloupce výstupu, což mohlo být v určitých případech výhodné) - dvojí ovládání SPSS - přes nabídku a za pomocí příkazů (syntaxe)
SPSS - Základní uživatelské dovednosti potřebné pro práci s daty (zejm SPSS - Základní uživatelské dovednosti potřebné pro práci s daty (zejm. základní příkazy) - nabídka - poměrně přehledná, ale není v ní vše co SPSS umí (zejm. ve vícerozměrných metodách to platí) -syntaxe - umožňuje opakované spuštění procedur (ve vědecké práci by zřejmě bylo vhodné tuto syntaxi uchovávat, pro možnost prověření výsledků), umožňuje spuštění několika procedur najednou, SPSS standardně ukládá použitou syntaxi - nastavení viz Edit-Options (General)-Record syntax journal (append či overwrite)
Obecná pravidla pro práci s příkazy a přehled příkazů dělení příkazů v SPSS - 1.čekající - čekají až bude spuštěn příkaz execute či některý z příkazů (např. RECODE, COMPUTE, IF, DO IF) - 2."obsahující" příkaz execute - tedy po jejich spuštění se vykonají i ostatní označené příkazy (např. FREQUENCY, DES VAR, SAVE OUTFILE) - 3.příkazy, které se ihned vykonají, ale ostatní "neexekuční" příkazy s nimi označené se nevykonají (např. VAR LAB VAL LAB, MIS VAL, WEIGHT) -doporučení plynoucí z výše uvedeného - všude psát za příkazy EXE. (zkratka slova execute), z uvedené zkratky plyne i další doporučení-stačí psát první tři písmena příkazu, pokud jej v SPSS jednoznačně identifikují (neplatí ale např. pro příkaz RECODE, COMPUTE)
na konci příkazu se vždy píše tečka!!! komentáře je možné psát poté co na začátek řádku napíšeme hvězdičku, komentář musí být stejně jako příkaz ukončen tečkou!!! (ukázka: *toto je muj komentar. -příkaz získáme z příslušné nabídky za pomoci volby PASTE, příkazy si tedy nemusíme pamatovat (další možností je nalézt příkaz v nápovědě)
Nejdůležitější příkazy pro práci s daty (jejich syntaxe a funkce) GET FILE='D:\petr\spojdata01.sav'. - načtení (otevření) datového souboru, který se jmenuje spojdata01.sav a je uložen na disku D: v adresáři petr SAVE OUTFILE='D:\petr\spojdata01.sav'. - uložení datového souboru, který se jmenuje spojdata01.sav a je uložen na disku D: v adresáři petr Poznámka: Při práci s daty, kdy provedeme nějaké změny je vhodné uložit soubor uložit pod jiným jménem. Ideální je postupně soubory označovat jako je výše naznačeno 01,02,03 atd.
VAR LAB A1 "VZDELANI". - vytvoří popisek proměnné A1 vzdelani VAL LAB A1 1 "ZS" 2 "SS" 3 "VS". - vytvoří popisky odpovědí proměnné A1, kod 1 bude popsán ZS, kód 2 SS atd. REN VAR (A1=A2). - přejmenuje proměnnou A1 na A2 COMPUTE A1=0. vytvoří proměnnou se samými nulami či jinou námi zvolenou hodnotou Složitější výpočty provádíme pomocí mat. operací. COMPUTE VEK=107-ROKNAR. Vypočte věk z roku narození, v případě že výzkum byl prováděn v roce 2007 a rok narození je v datech jako poslední dvojčíslí roku narození respondenta
FRE A1. - vytvoří četnostní tabulku proměnné A1. DES VAR A1. vytvoří popisnou statistiku proměnné A1 (minimum, maximum, průměr, směr. odchylku a počet platných hodnot proměnné). EXAMINE A1. Provede průzkumovou analýzu proměnné A1, kromě popisné statistiky kreslí histogram, krabičkový graf, testuje normalitu proměnné, atd.
RECODE A2 (1 2=1) (3=2) INTO A3. překóduje hodnoty proměnné do námi zvolených kategorií do nové proměnné A3(viz dovětek INTO A3), tam kde byla v proměnné A2 1 nebo 2 bude v A3 1, tam kde byla v A2 3 bude v A3 kód 2. TEMP. SEL IF ROK=1998. FRE VZDELANI. - temp ve spojení se sel if zajistí, že následující příkazy až do prvního příkazu "obsahujícího“ execute nebo do příkazu execute se vykonají jen na vybraných datech (např. jen na datech z roku 1998 se vypočtou četnosti proměnné VZDELANI)
MIS VAL A2 (98). - definuje chybějící pozorování, ty poté nevstupují např. do výpočtů platných procent, ale je potřeba dát pozor jak daná procedura s chybějícími hodnotami pracuje (zjistíme to z porovnání počtu chybějících případů a případů použitých pro příslušnou analýzu) MIS VAL umožňuje definici maximálně 3 uživatelsky chybějících hodnot, při zápisu oddělujeme čárkou, např.: MIS VAL A2 (97,98,99). Je možné též nadefinovat interval uživatelsky chybějících hodnot pomocí slova thru, např. MIS VAL A2 (97 thru 200). znamená, že nechci pracovat s hodnotami mezi 98 a 200. Další užitečné pomůcky: Všechny hodnoty větší či než 100 či 100 zapíšeme: (100 thru hi), obdobně vše menší než 0 či 0 (lo thru 0) apod.
Poznámka k chybějícím hodnotám kromě uživatelsky definovaných chybějících pozorování zná SPSS i systémová chybějící pozorování (ta se utvoří sama, když nějakou buňku v datovém souboru nevyplníme). V datech jsou systémové chybějící hodnoty označeny čárkou Vážení dat WEIGHT BY VAHA. - spustí vážení souboru dle proměnné VAHA a všechny výpočty jsou prováděny s vahami (viz další kurz) WEIGHT OFF. –vypne vážení dat
Poznámky ke psaní příkazů Příkazy umožňují zpravidla spustit operaci na více proměnných najednou. Zajistíme to tak, že za příkaz napíšeme název všech proměnných pro něž se má provést. FRE A1 A2 A3 A4. Vypočítá četnostní tabulky pro proměnné A1, A1 A2 A3 A4. Pokud chceme něco provést pro všechny proměnné lze užít slovo all: FRE ALL. Vypočte četnostní tabulky pro všechny proměnné v datovém souboru.
Poznámky ke psaní příkazů Vypočte četnostní tabulky pro všechny proměnné v datovém souboru. Chceme-li něco provést pro několik proměnných, které jsou ve sloupcích vedle sebe, např. proměnné A1, A2, A3, A4 lze použít zkrácený zápis: FRE A1 to A4. –četnosti A1, A2, A3, A4 Příkaz COMPUTE není možno použít pro více proměnných najednou. Při použití příkazu VAR LAB stačí napsat příkaz jednou a poté jednotlivé proměnné oddělit lomítkem: VAR LAB A1“Věk“ / A2“Pohlaví“.