Analýza kvantitativních dat I./II. UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014) Analýza kvantitativních dat I./II. Chybějící hodnoty (Missing Values) identifikace, nastavení, analýza Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 21/4/2014
Prvním krokem analýzy je vždy kontrola (a identifikace) chybějících hodnot (MISSING VALUEs)
Existují dva druhy missingů (v SPSS): 1. Systémové = SYSMIS (v datech: „ . “) Jde o základní formu označení chybějící hodnoty, ale v podstatě zde není žádná informace proč chybí. Nejčastěji záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). Máme-li např. z dotazníku k dispozici podrobnější informaci (například „Netýká se“, „Odmítl odpovědět“, „Neví“) můžeme mít navíc také 2. Uživatelsky definované = MISSING VALUES V datech je označujeme hodnotami „mimo“ rozsah standardních kategorií, např. : „9“ nebo „99“ a často je i labelujeme, např. 8 = Odmítl odpovědět, 9 = Neví. Tyto hodnoty pak nebudou obsaženy v základní části analýz (pokud jejich označení jako MISSING VALUES nevypneme, což můžeme podle potřeby využívat).
Chybějící hodnoty (missing values) - postup 1. zjištění zda jsou v datech chybějící hodnoty (MV) označeny a jak. Pokud ne pak: 2. označení-nastavení chybějících hodnot (případně překódování či jiné transformace dat) - - - (viz AKD II.) 3. věcná analýza chybějících hodnot: a) zhodnocení zda je lze ignorovat, pokud ne: b) analýza jejich závislosti na jiných proměnných - - - (pro pokročilé) 4. imputace chybějících hodnot (odhad hodnot, tam kde chybí) a manipulace ve vícerozměrných analýzách (listwise, pairwise, a různé imputy)
1. Zjištění stavu v datech nejednodušší přístup k Missingům (MV) Kontrola nastavení MV v Dataeditoru NESTAČÍ, vždy musíme provést průzkum v datech. Pro větší počet proměnných většinou v 1. kroku někdy stačí příkaz DESCRIPTIVES → kontrolujeme Min a Max v datech s hodnotami „v dotazníku“. Většinou odhalí hodnoty max, ale pozor, není spolehlivé! Spolehlivý je pouze příkaz FREQUENCIES, který vypíše výskyt všech hodnot znaků, tj. i jejich (ne)označení jako MV. Pro více proměnných ovšem dostaneme mnoho tabulek. Přehledně nám také ukáže počet (nikoliv však detail jaké hodnoty) příkaz MVA (Missing Value Analysis). Určitě lepší strategie než DESC, není ale k dispozici v základní verzi SPSS.
Chybějící hodnoty – zjištění stavu (DESC, FREQ, MVA) DESCRIPTIVES PI.1a. → nespolehlivé FREQUENCIES PI.1a. → kompletní informace na úrovni hodnot-kategorií znaku MVA PI.1a.
2. Nastavení chybějících hodnot MISSING VALUES Var1 případně další Var2 Var3 …(0 8 9). → označit lze až tři hodnoty, které budou vyloučeny ze základu analýz. nebo: (LOWEST THRU 5). či (8 THRU HIGHEST). lze i kombinaci intervalu a jedné hodnoty: (5 8 thru Highest). Lze zadat i přes Data editor, ale syntax zaručuje kontrolu a dokumentaci manipulace s daty
Identifikace a označení chybějících hodnot. Příklad „věk studentů VŠ“ FREQUENCIES vek. 12 a 92 jsou z hlediska věku posluchačů kurzu AKD „nesmyslné“ hodnoty, proto je označíme jako chybějící. Pomocí příkazu v syntaxu: MISSING VALUES vek (12 92). Nebo v data editoru (klikem myši přes menu) Poznámka: Po zadání MV, se zdánlivě nic nestane, pouze jsme v datech označili MV, proto je dobré vytisknout si opět tabulku třídění 1.stupně: FREQUENCIES vek. Zároveň vidíme, že v datech zatím žádné uživatelské missingy nebyly definovány (jsou zde pouze 2 případy systémových SYSMIS).
Identifikace a označení chybějících hodnot Identifikace a označení chybějících hodnot. Příklad „věk studentů VŠ“, pokračování Označení rozsahu MV: od zvolené hodnoty do Maxima nebo od hodnoty do Minima + lze přidat ještě jedna hodnota. od minima do zvolené hodnoty. MISSING VALUES vek (LOWEST THRU 20). od zvolené hodnoty do maxima. MISSING VALUES vek (50 THRU HIGHEST). a přidat můžeme i jednu hodnotu navíc. MISSING VALUES vek (50 THRU HIGHEST 12).
„Vypínání“ a „zapínání“ Missingů v Syntaxu Missingy "vypneme" - odznačíme pokud závorka bude prázdná. MISSING VALUES vek ( ). FREQUENCIES vek. Nyní budou všechny hodnoty součástí analýzy (pochopitelně neplatí pro systémové missingy ty zůstávají vyloučeny) a opět můžeme „zapnout“. MISSING VALUES vek (12 92).
Poznámky k Missing Values Pokud se u dané proměnné v datech zadané chybějící hodnoty ve skutečnosti nevyskytují, pak se v tabulce tř. 1.stupně (Frequencies) v sekci Missing neobjeví (zobrazuje se jen skutečný výskyt, hodnota je nicméně stále jako Missing nastavena). Zobrazit informaci o nastavení missing values lze pomocí DISPLAY. DISPLAY DICTIONARY /VARIABLES = vek. Pozor také na situaci, kdy se v tabulce Frequencies objeví určitá hodnota několikrát, např.: 1 1 1 je ve skutečnosti, např. 0,9 a 0,6 a 1 (0,9 a 0,6 se zaokrouhlí na 1, ale zobrazí se při formátu bez desetinných míst jako unikátní hodnota 1) → změníme formát zobrazení FORMATS vek (F8.1).
Chybějící hodnoty (MV): Jak s nimi zacházet - pravidlo „palce“ Pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v „dostatečně velkém“ výběrovém souboru). Pozor ale na průniky misingů v bivariátní analýze. Přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích (→ příčin), tj. měli bychom se ptát: „kdo neodpovídá na naše otázky?“ Při > 5% výskyt MV totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějícíh hodnot.
Další 3. krok – jejich analýza Chybějící hodnoty Další 3. krok – jejich analýza
Analýza podmíněnosti & provázanosti chybějících hodnot Řešíme dvě otázky: a) Jak jsou missingy provázané mezi jednotlivými (závislými) proměnnými (např. v baterii otázek) b) Zda jsou nějak závislé na třídících znacích (např. věku, vzdělání či filtrační otázce) nejednoduší postup: „vypnutí“ missingů (budou zahrnuty) a analýza odpovídajících kategorií např. v kontingenční tabulce. MVA v SPSS (Missing Value Analysis) 3. Konstrukce nové proměnné s informací o chybějící hodnotě (/ hodnotách u více proměnných) a jejich samostatná analýza Dichotomické proměnné indikující neplatnou-chybějící odpověď vs. platnou-validní.
MVA – Missing Value Analysis Umí odhalit u více proměnných současně vzorce chybějících hodnot (Patterns) Pozor, není k dispozici v základní verzi SPSS.
MVA Nepoužívat vážení – vypnout váhu → WEIGHT OFF. Základní funkce: popis chybějících hodnot + missing patterns MVA vek pohlavi kraj /CATEGORICAL pohlavi kraj.
MVA Output (1) Základní výstup (zadáme formát pro kategoriální proměnné) MVA vek pohlavi kraj /CATEGORICAL pohlavi kraj.
MVA Output (2) Vzorce missingů → Kolik respondentů neodpovědělo na kolik položek z baterie otázek?
Průnik pro platné případy (effective sample) AKD II. / AKD III. Průnik pro platné případy (effective sample) Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů. V postupných bivariátních analýzách by měl být stejný základ platných případů (průnik missingů dle principu LISTWISE)
Průnik pro platné případy (effective sample) Zvolte průnik pro platné případy (princip LISTWISE vyřazení missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text. Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů. Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále) Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných. Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru. Pak lze zvážit pro nezávislé proměnné: a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost. b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.
Chybějící hodnoty v datech mohou být: Missing completely at random (MCAR) → ideální situace, výsledky nejsou zkreslené (biased) Missing at random (MAR) → chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků
Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (LOW THRU HIGHEST =1). Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné. RECODE Fi_Lsw6v (0 =1) (1 thru highest =0). A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col. A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů. FILTER BY Fi_Lsw6v.
Více na AKD II./III.