Analýza kvantitativních dat I./II. Chybějící hodnoty (Missing Values) identifikace, nastavení, analýza Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace.

Slides:



Advertisements
Podobné prezentace
Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Advertisements

Kvantitativní metody výzkumu v praxi
Dajbych Václav Pole Další stránku vyvoláte levým kliknutím na Vaší myš, nebo popřípadě rolovacím kolečkem.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat: 1. úvod do SPSS Jiří Šafr jiri.safr(zavináč)seznam.cz vytvořeno , poslední aktualizace UK FHS Historická.
Chybějící hodnoty (item nonresponse)
Lineární regresní analýza Úvod od problému
Vzpěrné délky, a optimalizace průřezů v oceli
Soustava lineárních nerovnic
Varianty výzkumu Kroky výzkumu Výběrový soubor
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat I.
Analýza dat.
Základní škola a mateřská škola Bzenec Číslo projektu: CZ.1.07/1.4.00/ Číslo a název šablony klíčové aktivity: III/2: využívání ICT – inovace Vypracoval/a:
Tabulkový procesor.
Kvantitativní metody výzkumu v praxi (KMVP) 0. Poučení z minulých ročníků a novinky od ZS 2013 (2011) poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická.
Mnohonásobné imputace chybějících hodnot
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Poučení z AKD I., II poslední aktualizace
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
Pohled z ptačí perspektivy
Základy zpracování geologických dat
Jiří Šafr jiri.safr(zavináč)seznam.cz
Design kvantitativního výzkumu 0. Poučení z minulých ročníků a novinky od ZS 2011 poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz UK FHS.
Analýza kvantitativních dat I. Vztahy mezi 3 znaky v kontingenční tabulce - úvod Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace
Analýza kvantitativních dat II. TEST 1 (v LS 2012) Aktualizované verze jsou k dispozici na Jiří Šafr jiri.safr(zavináč)seznam.cz.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Praktikum 4c: Tabulky, baterie otázek 16/5/08. Tabulky - metoda popisu dat.
Kvantitativní metody výzkumu v praxi
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Analýza kvantitativních dat AKD I. Vstupní test 22/2/2011 Jiří Šafr, FHS UK, HiSo.
Kurz SPSS: Jednoduchá analýza dat 3. úvod do SPSS Jiří Šafr vytvořeno
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Kontingenční tabulka Mgr. Jan Vavřík
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
Analýza kvantitativních dat I. Vstupní test ze znalostí designu kvantitativního sociologického výzkumu Jiří Šafr jiri.safr(at)seznam.cz poslední aktualizace.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek
Ukládání dat biodiverzity a jejich vizualizace
Varianty výzkumu Kroky výzkumu Výběrový soubor
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 27/5/2014
Definiční obor a obor hodnot
Příprava dat před analýzou
Spojitá a kategoriální data Základní popisné statistiky
Soustava lineárních nerovnic
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Kvantitativní metody výzkumu v praxi PRAKTIKUM
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Metodologie pro ISK 2 Úvod do práce s daty
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Analýza kardinálních proměnných
Lineární regrese.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Analýza kvantitativních dat I./II.
Základy statistiky.
Transkript prezentace:

Analýza kvantitativních dat I./II. Chybějící hodnoty (Missing Values) identifikace, nastavení, analýza Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 21/4/2014 UK FHS Historická sociologie, Řízení a supervize (LS 2012, 2013, 2014)

Prvním krokem analýzy je vždy kontrola (a identifikace) chybějících hodnot (MISSING VALUEs)

Existují dva druhy missingů (v SPSS): 1. Systémové = SYSMIS (v datech: „. “) Jde o základní formu označení chybějící hodnoty, ale v podstatě zde není žádná informace proč chybí. Nejčastěji záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). Máme-li např. z dotazníku k dispozici podrobnější informaci (například „Netýká se“, „Odmítl odpovědět“, „Neví“) můžeme mít navíc také 2. Uživatelsky definované = MISSING VALUES V datech je označujeme hodnotami „mimo“ rozsah standardních kategorií, např. : „9“ nebo „99“ a často je i labelujeme, např. 8 = Odmítl odpovědět, 9 = Neví. Tyto hodnoty pak nebudou obsaženy v základní části analýz (pokud jejich označení jako MISSING VALUES nevypneme, což můžeme podle potřeby využívat).

Chybějící hodnoty (missing values) - postup 1. zjištění zda jsou v datech chybějící hodnoty (MV) označeny a jak. Pokud ne pak: 2. označení-nastavení chybějících hodnot (případně překódování či jiné transformace dat) (viz AKD II.) 3. věcná analýza chybějících hodnot: a) zhodnocení zda je lze ignorovat, pokud ne: b) analýza jejich závislosti na jiných proměnných (pro pokročilé) 4. imputace chybějících hodnot (odhad hodnot, tam kde chybí) a manipulace ve vícerozměrných analýzách (listwise, pairwise, a různé imputy)

1. Zjištění stavu v datech nejednodušší přístup k Missingům (MV) Kontrola nastavení MV v Dataeditoru NESTAČÍ, vždy musíme provést průzkum v datech. Pro větší počet proměnných většinou v 1. kroku někdy stačí příkaz DESCRIPTIVES → kontrolujeme Min a Max v datech s hodnotami „v dotazníku“. Většinou odhalí hodnoty max, ale pozor, není spolehlivé! Spolehlivý je pouze příkaz FREQUENCIES, který vypíše výskyt všech hodnot znaků, tj. i jejich (ne)označení jako MV. Pro více proměnných ovšem dostaneme mnoho tabulek. Přehledně nám také ukáže počet (nikoliv však detail jaké hodnoty) příkaz MVA (Missing Value Analysis). Určitě lepší strategie než DESC, není ale k dispozici v základní verzi SPSS.

Chybějící hodnoty – zjištění stavu (DESC, FREQ, MVA) DESCRIPTIVES PI.1a. → nespolehlivé FREQUENCIES PI.1a. → kompletní informace na úrovni hodnot-kategorií znaku MVA PI.1a.

2. Nastavení chybějících hodnot MISSING VALUES Var1 případně další Var2 Var3 … (0 8 9). → označit lze až tři hodnoty, které budou vyloučeny ze základu analýz. nebo: (LOWEST THRU 5). či (8 THRU HIGHEST). lze i kombinaci intervalu a jedné hodnoty: (5 8 thru Highest). Lze zadat i přes Data editor, ale syntax zaručuje kontrolu a dokumentaci manipulace s daty

Identifikace a označení chybějících hodnot. Příklad „věk studentů VŠ“ FREQUENCIES vek. 12 a 92 jsou z hlediska věku posluchačů kurzu AKD „nesmyslné“ hodnoty, proto je označíme jako chybějící. Pomocí příkazu v syntaxu: MISSING VALUES vek (12 92). Nebo v data editoru (klikem myši přes menu) Zároveň vidíme, že v datech zatím žádné uživatelské missingy nebyly definovány (jsou zde pouze 2 případy systémových SYSMIS). Poznámka: Po zadání MV, se zdánlivě nic nestane, pouze jsme v datech označili MV, proto je dobré vytisknout si opět tabulku třídění 1.stupně: FREQUENCIES vek.

Označení rozsahu MV: od zvolené hodnoty do Maxima nebo od hodnoty do Minima + lze přidat ještě jedna hodnota. od minima do zvolené hodnoty. MISSING VALUES vek (LOWEST THRU 20). od zvolené hodnoty do maxima. MISSING VALUES vek (50 THRU HIGHEST). a přidat můžeme i jednu hodnotu navíc. MISSING VALUES vek (50 THRU HIGHEST 12). Identifikace a označení chybějících hodnot. Příklad „věk studentů VŠ“, pokračování

„Vypínání“ a „zapínání“ Missingů v Syntaxu Missingy "vypneme" - odznačíme pokud závorka bude prázdná. MISSING VALUES vek ( ). FREQUENCIES vek. Nyní budou všechny hodnoty součástí analýzy (pochopitelně neplatí pro systémové missingy ty zůstávají vyloučeny) a opět můžeme „zapnout“. MISSING VALUES vek (12 92). FREQUENCIES vek.

Poznámky k Missing Values Pokud se u dané proměnné v datech zadané chybějící hodnoty ve skutečnosti nevyskytují, pak se v tabulce tř. 1.stupně (Frequencies) v sekci Missing neobjeví (zobrazuje se jen skutečný výskyt, hodnota je nicméně stále jako Missing nastavena). Zobrazit informaci o nastavení missing values lze pomocí DISPLAY. DISPLAY DICTIONARY /VARIABLES = vek. Pozor také na situaci, kdy se v tabulce Frequencies objeví určitá hodnota několikrát, např.: je ve skutečnosti, např. 0,9 a 0,6 a 1 (0,9 a 0,6 se zaokrouhlí na 1, ale zobrazí se při formátu bez desetinných míst jako unikátní hodnota 1) → změníme formát zobrazení FORMATS vek (F8.1).

Chybějící hodnoty (MV): Jak s nimi zacházet - pravidlo „palce“ Pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v „dostatečně velkém“ výběrovém souboru). Pozor ale na průniky misingů v bivariátní analýze. Přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích (→ příčin), tj. měli bychom se ptát: „kdo neodpovídá na naše otázky?“ Při > 5% výskyt MV totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějícíh hodnot.

Chybějící hodnoty Další 3. krok – jejich analýza

Analýza podmíněnosti & provázanosti chybějících hodnot Řešíme dvě otázky: a) Jak jsou missingy provázané mezi jednotlivými (závislými) proměnnými (např. v baterii otázek) b) Zda jsou nějak závislé na třídících znacích (např. věku, vzdělání či filtrační otázce) 1.nejednoduší postup: „vypnutí“ missingů (budou zahrnuty) a analýza odpovídajících kategorií např. v kontingenční tabulce. 2.MVA v SPSS (Missing Value Analysis) 3. Konstrukce nové proměnné s informací o chybějící hodnotě (/ hodnotách u více proměnných) a jejich samostatná analýza Dichotomické proměnné indikující neplatnou-chybějící odpověď vs. platnou-validní.

MVA – Missing Value Analysis Umí odhalit u více proměnných současně vzorce chybějících hodnot (Patterns) Pozor, není k dispozici v základní verzi SPSS.

MVA Nepoužívat vážení – vypnout váhu → WEIGHT OFF. Základní funkce: popis chybějících hodnot + missing patterns MVA vek pohlavi kraj /CATEGORICAL pohlavi kraj.

MVA Output (1) Základní výstup (zadáme formát pro kategoriální proměnné) MVA vek pohlavi kraj /CATEGORICAL pohlavi kraj.

MVA Output (2) Vzorce missingů → Kolik respondentů neodpovědělo na kolik položek z baterie otázek?

Průnik pro platné případy (effective sample) Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů. V postupných bivariátních analýzách by měl být stejný základ platných případů (průnik missingů dle principu LISTWISE) AKD II. / AKD III.

Průnik pro platné případy (effective sample) Zvolte průnik pro platné případy (princip LISTWISE vyřazení missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text. Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů. Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále) Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných. Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru. Pak lze zvážit pro nezávislé proměnné: a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost. b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.

Chybějící hodnoty v datech mohou být: Missing completely at random (MCAR) → ideální situace, výsledky nejsou zkreslené (biased) Missing at random (MAR) → chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků

Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (LOW THRU HIGHEST =1). Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné. RECODE Fi_Lsw6v (0 =1) (1 thru highest =0). A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col. A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů. FILTER BY Fi_Lsw6v.

Více na AKD II./III.