Quantitative Data Analysis I.

Quantitative Data Analysis I.
UK FHS Historical sociology (2015+) Quantitative Data Analysis I. Introduction to Statistical software SPSS (PSPP) Jiří Šafr jiri.safr(AT)seznam.cz Last revision 25/2/2015

STATISTICAL PACKAGE FOR THE SOCIAL SCIENCES (SPSS)
general-purpose interactive statistical software package available in major platforms such as Windows, Unix, and Macintosh. A brief from history: developed in 1968 as software system that allowed for the transformation of raw data into information using statistical applications. SPSS, Inc. incorporated in 1975. first mainframe statistical package to appear on a personal computer (in the mid-1980s) and, in 1992, was the first organization to release a statistical package for use with the Microsoft Windows OS. Today different products: SPSS Base provides survey researchers with a powerful and user-friendly data management and statistical analysis package. Satistics: descriptive and bivariate as well as predictive analytics such as factor and regression analyses. + add-on modules: advanced multivariate analysis of survey data: generalized linear models, hierarchical linear models, survival analysis, and categorical regression. Also stand-alone products: help with all phases of the survey process (sample selection and data collection, data management and cleaning, and data dissemination).

GNU PSPP Free Software Foundation
tool for statistical analysis of sampled data. It reads the data, analyzes the data according to commands provided, and writes the results to a listing file, to the standard output or to a window of the graphical display. It is a free replacement for the proprietary program SPSS, and appears very similar to it with a few exceptions. The language accepted by PSPP is similar to those accepted by SPSS statistical products. Installation from (ofted upgraded so update your instalation regularly) Current version: Master version = (as of ) MSWindows version: MSWindows XP and newer Package Size: 32 Mb Size on disk: 72 Mb Manual at

3 types of windows in SPSS / PSPP
Data editor (Variable View a Data View) → data management → files with *.sav Output → outputs of your analyses → files with *.spv (from version 15) Syntax → command line language to control the programme (datamanagement as well as analyses) → files with *.sps

Data: Data Editor V řádcích jsou případy (respondenti), ve sloupcích proměnné (otázky) → v okně Data Editor záložka Data View

Data management (labels, missing values, formats, …)
→ Variable View in Data Editor

Output: (analyses)

Data management (data agregation, filtering, recoding, …)
→ příkazy v sekcích hlavního menu Data a Transform (nebo přímé zadání pomocí příkazového řádku v Syntaxu)

Analyses → příkazy v sekci hlavního menu Analyze
Descriptive statistics → Frequencies / Descriptives / Explore (nebo přímé zadání pomocí příkazového řádku v Syntaxu)

Syntax: přímé zadání pomocí příkazového řádku
Výhodou je, že sekvenci příkazů můžeme uložit (soubor s koncovkou *.sps) a kdykoliv se k ní vrátit, případně měnit vstupní proměnné. V případě úpravy dat poskytuje kontrolu operací a umožňuje úpravy sdílet. Syntax lze u každé operace (analýzy či úpravy dat) vygenerovat při zadávání z menu pomocí tlačítka Paste

Vkládání dat v Data editoru
Variable View Zde si nejprve připravíme datovou matici: jména proměnných (Name), jejich typ/formát (Type) a případně labely Data View Zde pak ukládáme data – po řádcích (1 řádek = 1 respondent/ dotazník)

Tři základní informace o proměnných:
jméno proměnné VARIABLE NAME max. 8 znaků bez diakritiky, mezer; musí začínat písmenem (např. pohlavi) → bezpodmínečně v datech musí být pro uživatele může být dále užitečná nadstavba: popiska proměnné VARIABLE LABEL Delší popis názvu znaku, lze s diakritikou, např. (zkrácené) znění otázky v dotazníku, který se bude objevovat ve výstupech (např. Pohlaví respondenta) popisky kategorií (hodnot) proměnné VALUE LABELS Popis kategorií znaku, které se budou objevovat ve výstupech (např. 1= muž, 2 = žena)

Ve Variable View je toho ale více
Nejdůležitější jsou: Type: druh záznamu dat (v zásadě buď jako číslo = Numeric nebo jako slova = String). Preferujeme Numeric Decimals: počet desetinných míst, co se bude zobrazovat ve výstupech (samotný záznam dat ale zachovává více desetinných míst) Measure: typ proměnné (dříve to nevadilo, novější verze vyžadují pro určitý typ analýz) Missings: uživatelsky definované hodnoty (o tom více jinde) v novějších verzích (SPSS 22) ještě přibyla role proměnné v analýze (závislá, nezávislá, třídící atd.) Dobrá zpráva: toto vše lze nastavovat příkazovým řádkem v syntaxu.

How to start in SPSS/PSPP? Why not using syntax …
Lze jednoduše pomocí grafického menu založit datovou matici (seznam a vlastnosti proměnných) a do ní postupně vkládat data (případy) či rovnou nějaký již existující datový soubor otevřít. Viz předchozí snímky. Také ale lze data vložit pomocí příkazového řádku, tj. v syntaxu. Zkuste např. následující příklad: Using your favourite editor, write a file (name it myfile.sps) containing the following: *Data input in SPSS/PSPP example. *Attention: SPSS is sensitive to decimal place delimiter (here we have ',' comma but it can be decimal point. It's dependent on local OS setting. subtitle "Countries by population, 2015". *Source: DATA LIST LIST /Country (a25) Popul (f12) Pop_pct (f8.2). BEGIN DATA. China ,9 India ,5 USA ,43 Indonesia ,53 Brazil ,82 END DATA. LIST. DESCRIPTIVES /Popul Pop_pct /STATISTICS ALL. FREQ Country. DESC /Popul Pop_pct /STATISTICS MIN MAX MEAN STDDEV SUM.

Další úpravy dat a výstupů stručný přehled
Rekódování, konstrukce nových znaků; třídění výstupů, vážení, seřazování hodnot, agregování dat, spojování více datových souborů …

Transformace dat → Transform
Výpočet/vytváření nových (syntetických) znaků → COMPUTE (nebo pro „načítání“ COUNT) Rekódování → RECODE (do stejné nebo nové proměnné) Visual Binding – nástroj pro snadné rekódování (pro spojité-kardinální znaky např. dle percentilů)

Úpravy dat a výstupů → Data
Uspořádání případů → SORT CASES Rozdělení na podsoubory → SPLIT FILE Výběr případů (filtrování) → SELECT CASES Vážení → WEIGHT CASES Agregace (např. průměry pro skupiny) → AGGREGATE Spojování souborů dat / přidávání proměnných → MERGE FILES

Transformace dat → Transform
Úpravy dat → Data

Zadání analýz a jejich výstupy
Analýzy (tabulky), grafy

Analýzy → Analyze Descriptive statistics Tables Compare means
Correlate Data Reduction Nonparametric Tests Missing Value Analysis Multiple Response

Grafy → Graphs

Nastavení outputu SPSS
Praktická úprava výstupů se zobrazováním hodnot a názvů proměnných (oproti továrnímu nastavení, kde jsou pouze labely)

Nastavení labelů při zobrazování tabulek v outputu
SET TNumbers=Both ONumbers=Both CCC='-,,,' CCE='-,,,' CCB='-,,,' OVars=Both CCD='-,,,' TVars=Both CCA='-,,,'. NEW FILE.

Nastavení labelů při zobrazování tabulek v outputu
Bez názvu proměnné a hodnot kategorií (původní tovární nastavení) → vhodné pro finální prezentaci v textu S názvem proměnné a hodnotami kategorií (naše nastavení) → vhodnější pro analýzy

Zobrazování labelů/hodnot v outputu lze spustit pomocí skriptu v Syntaxu
*NASTAVENI Labelů v OUTPUTU SPSS (funguje od verze 16). *vypnutí hodnot kategorii v tabulkách a grafech, tj. jen labels bez jmen proměných. SET TNumbers=Labels ONumbers=Labels CCC='-,,,' CCE='-,,,' CCB='-,,,' OVars=Labels CCD='-,,,' TVars=Labels CCA='-,,,'. *zapnuti hodnot kategorii v tabulkách a grafech, tj. hodnoty+labels a jména proměnných. SET TNumbers=Both ONumbers=Both CCC='-,,,' CCE='-,,,' CCB='-,,,' OVars=Both CCD='-,,,' TVars=Both CCA='-,,,'. *Zobrazování jména proměnných (místo VAR labelů) v seznamu při vstupu do analýz.

Quantitative Data Analysis I.

Podobné prezentace

Prezentace na téma: "Quantitative Data Analysis I."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Quantitative Data Analysis I.

Podobné prezentace

Prezentace na téma: "Quantitative Data Analysis I."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář