Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická.

Slides:



Advertisements
Podobné prezentace
Dualita úloh lineárního programování a analýza citlivosti
Advertisements

Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Kvantitativní metody výzkumu v praxi
Databázové systémy Přednáška č. 3 Proces návrhu databáze.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat: 1. úvod do SPSS Jiří Šafr jiri.safr(zavináč)seznam.cz vytvořeno , poslední aktualizace UK FHS Historická.
Chybějící hodnoty (item nonresponse)
Vzpěrné délky, a optimalizace průřezů v oceli
Analýza kvantitativních dat I./II. Chybějící hodnoty (Missing Values) identifikace, nastavení, analýza Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace.
Kvantitativní metody výzkumu v praxi PRAKTIKUM
Varianty výzkumu Kroky výzkumu Výběrový soubor
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat I.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
KIV/ZIS cvičení 6 Tomáš Potužák. Pokračování SQL Klauzule GROUP BY a dotazy nad více tabulkami Stáhnout soubor studenti_dotazy_sql.mdb.
Poučení z AKD I., II poslední aktualizace
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
ODDS RATIO Relationships between categorical variables in contingency table Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis.
Pohled z ptačí perspektivy
ADDS cviceni Pavlina Kuranova. Fischerův exaktní test.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Design kvantitativního výzkumu 0. Poučení z minulých ročníků a novinky od ZS 2011 poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz UK FHS.
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Analýza kvantitativních dat II. TEST 1 (v LS 2012) Aktualizované verze jsou k dispozici na Jiří Šafr jiri.safr(zavináč)seznam.cz.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Statistická významnost a její problémy
Design kvantitativního výzkumu
Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.
Kvantitativní metody výzkumu v praxi
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Kurz SPSS: Jednoduchá analýza dat 3. úvod do SPSS Jiří Šafr vytvořeno
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
Analýza kvantitativních dat I. Vstupní test ze znalostí designu kvantitativního sociologického výzkumu Jiří Šafr jiri.safr(at)seznam.cz poslední aktualizace.
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
Makra v Excelu syntaxe. Zápis nahraného makra SubEnd Sub O klíčová slova Sub a End Sub – začátek a konec makra O komentáře O text za znakem ', až do konce.
Varianty výzkumu Kroky výzkumu Výběrový soubor
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 22/2/2017
Induktivní statistika
Induktivní statistika
Příprava dat před analýzou
Induktivní statistika
Induktivní statistika
Úvod do programu SPSS.
Multifaktorová analýza
Spojitá a kategoriální data Základní popisné statistiky
Kvantitativní metody výzkumu v praxi PRAKTIKUM
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Metodologie pro ISK 2 Úvod do práce s daty
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Analýza kardinálních proměnných
Jiří Šafr jiri.safr(zavináč)seznam.cz
Grafy kvadratických funkcí
Jiří Šafr jiri.safr(zavináč)seznam.cz
Induktivní statistika
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Analýza kvantitativních dat I./II.
Grafy kvadratických funkcí
Transkript prezentace:

Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická sociologie (LS 2012)

Prvním krokem analýzy je vždy kontrola (a identifikace) chybějících hodnot (MISSING VALUEs) Připomenutí z AKD I.

Existují dva druhy missingů (v SPSS): 1.Systémové = SYSMIS (v datech : „.“) 2.Uživatelsky definované = MISSING (v datech např. : „9“)

Chybějící hodnoty (missing values) - postup 1. zjištění zda jsou v datech chybějící hodnoty označeny a jak. Pokud ne pak 2. označení-nastavení chybějících hodnot (případně překódování či jiné transformace dat) 3. věcná analýza chybějících hodnot: a) zhodnocení zda je lze ignorovat, pokud ne: b) analýza jejich závislosti na jiných proměnných imputace chybějících hodnot (odhad hodnot, tam kde chybí) a manipulace ve vícerozměrných analýzách (listwise, pairwise, a různé imputy)

1. Zjištění stavu v datech nejednodušší přístup k MV Kontrola nastavení MV v Dataeditoru NESTAČÍ, vždy musíme provést průzkum v datech. Pro větší počet proměnných většinou v 1. kroku někdy stačí příkaz DESCRIPTIVES → kontrolujeme Min a Max v datech s hodnotami „v dotazníku“. Většinou odhalí hodnoty max, ale pozor, není spolehlivé! Spolehlivý je pouze příkaz FREQUENCIES, který vypíše výskyt všech hodnot znaků i jeho (ne)označení jako MV. Pro více proměnných ovšem dostaneme mnoho tabulek. Přehledně nám také ukáže počet (nikoliv však detail jaké hodnoty) příkaz MVA (určitě lepší strategie než DESC).

Chybějící hodnoty – zjištění stavu (DESC, FREQ, MVA) DESCRIPTIVES PI.1a. → nespolehlivé FREQUENCIES PI.1a. → kompletní informace na úrovni hodnot-kategorií znaku MVA PI.1a.

Nastavení chybějících hodnot MISSING VALUES Var1 případně další Var2 Var3 … (0 8 9). → označit lze až tři hodnoty, které budou vyloučeny ze základu analýz. nebo: (LOWEST THRU 5). či (8 THRU HIGHEST). lze i kombinaci intervalu a jedné hodnoty: (5 8 thru Highest). Lze zadat i přes Data editor, ale syntax zaručuje kontrolu a dokumentaci manipulace s daty

Chybějící hodnoty (MV): Jak s nimi zacházet - pravidlo „palce“ Pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v „dostatečně velkém“ výběrovém souboru). Přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích (→ příčin), tj. měli bychom se ptát: „kdo neodpovídá na naše otázky?“ Při > 5% výskyt MV totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci hodnot

Analýza podmíněnosti & provázanosti chybějících hodnot Řešíme dvě otázky: a) Jak jsou missingy provázané mezi jednotlivými (závislými) proměnnými (např. v baterii otázek) b) Zda jsou nějak závislé na třídících znacích (např. věku, vzdělání či filtrační otázce) 1. nejednoduší postup: „vypnutí“ missingů a analýza odpovídajících kategorií např. v kontingenční tabulce. 2. MVA v SPSS 3. Konstrukce nové proměnné s informací o chybějící hodnotě (/ hodnotách u více proměnných) a jejich samostatná analýza

MVA – Missing Value Analysis Umí odhalit u více proměnných současně vzorce chybějících hodnot (Patterns) Bohužel není ve všech verzích SPSS (chybí v modulu Base)

MVA Nepoužívat vážení – vypnout váhu! → WEIGHT OFF. Základní funkce: popis chybějících hodnot missing patterns

MVA Output

Mezi indikátorové proměnné můžeme přidat také třídící znak/y (zde věk) a sledovat na čem jsou chybějící hodnoty závislé MVA VARIABLES= q9_a q9_b q9_c q9_d vek3 /MAXCAT=25 /CATEGORICAL=q9_a q9_b q9_c q9_d vek3 /CROSSTAB PERCENT=5 /DPATTERN DESCRIBE=q9_a q9_b q9_c q9_d SORT=vek3(ASCENDING). Vliv věku: u q9_a (Při sportování důležité - tělesné a duševní zdraví) je v nejmladší kohortě jen 6 % missingů zatímco v nejstarší kategorii věku 17,3 %.

q9_a Při sportování důležité - tělesné a duševní zdraví q9_b Při sportování důležité - setkávání s jinými lidmi q9_c Při sportování důležité - soutěžení s ostatními q9_d Při sportování důležité - vypadat dobře

Alternativní – obecný postup, když nemáme k dispozici MVA

Konstrukce nové proměnné s informací o chybějící hodnotě Kolik respondentů neodpovědělo na kolik položek z baterie otázek? *potřebujeme přiřadit hodnotu místo Sysmis. *SYSMIS(varname) True if system-missing. *Identifikace alespoň jednoho missingu: vznikne dichotomický znak: 0=odpověděl na celou baterii / 1=min na 1 otázku neodpověděl. COUNT sysChybQ20 = Q20_1 to Q20_6 (SYSMIS). desc Q20_1 to Q20_6. fre sysChybQ20.

COMPUTE SYS = SYSMIS(iseiR). fre SYSiseiR. *do-imputování Sysmis na user def Missing. if (SYSiseiR=1) iseiR = -9. fre iseiR. *nebo i pro více proměnných. COUNT syschyb = V1 to V5 (SYSMIS).