UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014) AKD II. / III. Data management v SPSS/PSPP (2): Vybrané speciality a vychytávky Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 12/4/2014
Informace o souboru: Data File Comments Příkaz v syntaxu k vypsání dříve vložené informace o datech: DISPLAY DOCUMENTS.
Data File Comments: zápis v Syntaxu PRESERVE. SET PRINT OFF. DROP DOCUMENTS. ADD DOCUMENT 'Výzkum studentů FHS HiSo a KŘS, LS 2011, únor-březen 2011, subpopulace:' '1. HISO AKD I. - denní, n=17' '2. HISO AKD I. - kombi, n=1' '3. KŘS Praktikum - Elem. analýzy dat, n=7' 'Poslední úpravy 15/3/2011'. DISPLAY DOCUMENTS. RESTORE.
DISPLAY: Informace o proměnných DISPLAY DICTIONARY /VARIABLES=vek pohlavi. DICTIONARY → vypíše označení hodnot proměnné (Value Labels), názvy proměnných (Variable Labels), formáty a Missingové hodnoty LABELS → vypíše označení názvu proměnných (Variable Labels) DISPLAY LABELS /VARIABLES=all.
DATASET Práce s více datovými soubory otevřenými najednou (pouze v SPSS)
DATASET - Práce s více datovými soubory otevřenými najednou (pouze v SPSS) V SPSS od verze 14 lze pracovat s více soubory otevřenými najednou pomocí DATASET příkazů (DATASET NAME, DATASET ACTIVATE, DATASET DECLARE, DATASET COPY, DATASET CLOSE) Umožňují mít otevřeno vícero souborů najednou a pomocí jejich relativních jmen je ovládat – postupně aktivovat. Můžeme tak spojovat data, kopírovat případy, proměnné nebo vlastnosti proměnných mezi soubory. Pro ovládání v syntaxu nejprve definujeme jejich pracovní jméno: DATASET NAME jméno souboru. Takto můžeme otevřít a pojmenovat více souborů. Ty pak můžeme vyvolávat pro určitou operaci pomocí: DATASET ACTIVATE jméno souboru. A také je zavírat pomocí: DATASET CLOSE jméno souboru.
Po otevření souboru mu můžeme přiřadit pracovní jméno. DATASET v menu Po otevření souboru mu můžeme přiřadit pracovní jméno. Nebo v syntaxu: DATASET NAME Knihy_FHS. Mezi více otevřenými soubory lze přepínat → na aktivním budou provedeny analýzy Nebo v syntaxu: DATASET ACTIVATE Knihy_FHS.
Využití DATASET NAME při spojování souborů (MATCH FILES) GET FILE='data1.sav'. DATASET NAME Soubor1. SORT CASES BY ID. GET FILE 'data2.sav' DATASET NAME Soubor2. GET DATA /TYPE=XLS /FILE='data3excel.xls'. /* varianta otevírání dat při exportu z Excelu. MATCH FILES FILE=* /FILE=Soubor1 /FILE=Soubor2 /BY ID. /* hvězdičkou (*) je označen aktivní soubor 3 do nějž se přihrávají soubory 1 a 2. SAVE OUTFILE='data123.sav'. Princip je, že postupně otevřeme a pojmenujeme více souborů, které pak přihrajeme-spojíme do jednoho aktivního (např. posledního otevřeného). Ale propojování souborů lze provádět i pomocí jejich načítání z adresáře, tj. odkazem přímo na soubor(y) a jeho cestu v adresářích.
DATASET DECLARE DATASET DECLARE vytvoří pracovní jméno pro nový datový soubor (dataset name) v součinnosti s příkazy, které vytváří jako output nové datové soubory (PASW Statistics data files) Užitečné, tam kde nám stačí vytvoření pouze prozatímního (temporary) souboru dat (jenom v průběhu běhu programu), nejčastěji jako mezistupeň nějaké analýzy, např. matice distancí, s níž vstupujeme do MDS (tento soubor pak můžeme, ale nemusíme pojmenovat a uložit). DATASET DECLARE corrmatrix. REGRESSION /DEPENDENT=var1 /METHOD=ENTER= var2 to var10 /OUTFILE=CORB(corrmatrix).
DATASET COPY DATASET COPY vytvoří - nový datový soubor, který zkopíruje data z aktivního (otevřeného) souboru. Užitečné při vytváření vícenásobných podsouborů dat z jednoho základního - původního souboru. Příklad: DATASET NAME studenti_AKD. /*všichni (denní i kombinované studium). DATASET COPY denni. DATASET ACTIVATE denni. /*denní studium = 1. SELECT IF studium=1. /*odmaže všechny případy mimo denní studium. DATASET ACTIVATE studenti_AKD. DATASET COPY kombi. DATASET ACTIVATE kombi. /*kombinované studium = 2. SELECT IF studium=2. /*odmaže všechny případy mimo kombinované studium. Pozor, neuložíte-li je, tak po zavření SPSS soubory zmizí.
FILE LABEL FILE LABEL uvádí jméno souboru v outputech. Pokud jsou data v SPSS formátu (PASW Statistics format), tak se label uloží do Dictionary. File label se bude objevovat v outputech v „Notes tables“.
Postup pořízení dat v MS Excel s následným převodem do SPSS Vytvořit názvy proměnných v prvním řádku (jméno začíná písmenem) Vytvořit si kódový klíč → maximálně se vyvarovat záznamu pomocí slov, k čemuž Excel láká (např. místo „muž“ → 1), jinak bude v SPSS stringová proměnná (tu lze převést na numerický záznam, viz dále, ale je to obtížné) Prohlédnout celou hotovou matici v Excelu, zda někde není prázdný řádek apod. Kurzor nesmí být na konci (jinak se pak v SPSS objeví prázdné řádky plné missingů). Po uložení dat v XLS (musí být soubor XLS zavřený!), v SPSS dáme otevřít data a rozklikneme dolní roletku pro formát XLS. V průvodci exportu dat vybereme, že v prvním řádku jsou názvy proměnných a zvolíme excelovskou záložku, kde data jsou. Zkontrolujeme kraje datové matice: spodní část a pravou na konci, zda nejsou prázdné buňky pro proměnné či případy. Pokus ano, odstraníme. Alternativně lze použít formát CSV. K jeho importu viz návod PSPP/SPSS na http://metodykv.wz.cz/PSPP_navod_1_uvod.pdf (str. 19-20) Data nově uložíme ve formátu SPSS tj. *.SAV Nyní můžeme labelovat jak názvy proměnných tak jejich hodnoty.
V SPSS se tak lze setkat se 4 typy dat (připomenutí) Mikrodata – individuální data, tj. případy v řádcích (nejčastěji respondenti, ale např. také novinové články, země nebo regiony) Agregovaná data – analytické/strukturní proměnné = individuální údaje sumované za určitou jednotku (např. území jako regiony/ státy nebo časová období) Vznikají agregací mikrodat (sumování, průměrování). Kombinovaná mikrodata s kontextuálními daty buď na agregované úrovni nebo jako kontext společný určité skupině individuí. Např. individuální mikrodata: žáci a informace o jejich rodičích, kontextuální data: informace o typu školy společná pro žáky ze stejných škol a případně také analytické/strukturní data na agregované úrovni: průměrný prospěch ve třídě (agregováno z individuálních dat žáků konkrétní třídy). Tabelární data – agregovaná do tabulek (kontingenční tabulky) Např. dříve publikované výsledky mobilitní tabulky.
Odlišný typ dat (úrovně měření) vyžaduje použití odlišných přístupů k analýze, ale také odlišný způsob interpretace výsledků (a její možnosti resp. limity)!
(pro data publikovaná například v nějakém textu) Načtení dat ze syntaxu (pro menší datové soubory) & tabulární (agregovaná) data (pro data publikovaná například v nějakém textu)
Načtení (mikro)dat ze syntaxu (vhodné pro menší datové soubory nebo tabulární data) *hypotetická data: hodnoty proměnných odděleny mezerou, stringové znaky v " ". DATA LIST LIST / okres (A15) progr domduch vek obyv. BEGIN DATA. "Benešov" 1 3 52 40990 "Kladno" 0 4 61 67490 "M. Boleslav" 1 6 50 6099 "Příbram" 0 2 45 4816 "Dobříš" 1 1 49 7827 END DATA. *Labely. VAR LAB progr "Program pro seniory". VAR LAB domduch "Domovy důchodců – počet". VAR LAB vek "Průměrný věk". VAR LAB obyv "Počet obyvatel". VAL LAB progr 0 "Ne" 1 "Ano". *formát čísel (bez desetinného místa) a typ proměnné. FORMATS progr domduch vek obyv (f8). VARIABLE LEVEL domduch vek obyv (scale).
Načtení tabelárních dat z agregované existující kontingenční tabulky (→ vážení procenty) volil věk vzdělání 1 nevolil 2 volil 1 <49 1 ZŠ+VY 138 92 2 SŠ+VŠ 106 218 2 >50 143 257 56 175 ****nacteni kontingencni tabulky aneb sekundarni analyza (ČR, ISSP 2007). DATA LIST LIST/vek vzdel volil freq. VAL LAB vzdel 1 "ZŠ+VY" 2 "SŠ+VŠ" / vek 1 "<49" 2 ">50" / volil 1 "nevolil" 2 "volil". BEGIN DATA 1 1 1 138 1 1 2 92 1 2 1 106 1 2 2 218 2 1 1 143 2 1 2 257 2 2 1 56 2 2 2 175 END DATA. FORMATS vek vzdel volil freq (f8). WEIGHT by freq. CROSS vzdel by volil by vek. CROSS vzdel by volil. Viz syntax: crosstab_data_input.sps Pozice pole v tabulce např. 121 znamená: 1. panel, 2. řádek, 1. sloupec volil věk vzdělání 0 nevolil 1 volil 1 <49 0 ZŠ+VY 111 112 1 SŠ+VŠ 121 122 2 >50 211 212 221 222
Pokračování někdy příště …