Chybějící hodnoty (item nonresponse)

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Cíle a postupy empirického výzkumu
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Použité statistické metody
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování statistických hypotéz
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Cvičení října 2010.
4EK211 Základy ekonometrie Autokorelace Cvičení /
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
Analýza variance (Analysis of variance)
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Statistika Vypracoval: Mgr. Lukáš Bičík
Varianty výzkumu Kroky výzkumu Výběrový soubor
Hypotézy ve výzkumu.
Základy ekonometrie Cvičení září 2010.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Mnohonásobné imputace chybějících hodnot
Systém rizikové analýzy při statickém návrhu podzemního díla Jan Pruška.
Lineární regrese.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Korelace a elaborace aneb úvod do vztahů proměnných
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
- Pojmy - SPSS Statistické zpracování kvantitativních šetření.
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 4 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
Základy ekonometrie 4EK211
2. Vybrané základní pojmy matematické statistiky
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM
Statistická významnost a její problémy
Biostatistika 8. přednáška
Kvantitativní metody výzkumu v praxi
Korelace.
Biostatistika 1. přednáška Aneta Hybšová
Hustota pravděpodobnosti – případ dvou proměnných
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aplikovaná statistika 2. Veronika Svobodová
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Aplikovaná statistika 2.
Základy zpracování geologických dat R. Čopjaková.
Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek
Varianty výzkumu Kroky výzkumu Výběrový soubor
Reprezentativita: chyba výběru Jindřich Krejčí
- váhy jednotlivých studií
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Metodologie pro ISK 2 Úvod do práce s daty
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Chybějící hodnoty (item nonresponse) Základy analýzy kvantitativních dat a SPSS 10.12.2013 Ivan Petrúšek

Obsah přednášky Definice chybějících hodnot Mechanizmy chybějících hodnot Missing Completely At Random Missing At Random Not Missing At Random Tradiční řešení problému chybějících hodnot Postupy založené na vynechávání případů z analýzy Postupy založené na nahrazování chybějících hodnot

Definice chybějících hodnot Chybějící hodnoty (missing values) = „prázdná“ místa v datové matici (tzn. u některých proměnných a některých případů nejsou hodnoty pozorovány) Předpoklad: chybějící hodnoty „zakrývají“ skutečné hodnoty, které by jinak byly smysluplnou součástí analýzy

Chybějící hodnoty - příklady Příjem osoby – v mnoha výzkumech odmítají respondenti uvádět výšku svého příjmu Česká volební studie 2010 – až 11,5% respondentů, kteří uvedli, že se zúčastnili parlamentních voleb, odmítlo odpovědět na otázku volby strany Někdy odpovědi typu „nevím“, „žádná preference“ nepředstavují chybějící hodnoty, ale naopak jsou dalšími platnými odpověďmi

Proč představují chybějící hodnoty problém? Standardní statistické metody byly vyvinuty pro kompletní data (tzn. data bez chybějících hodnot) Ignorování chybějících hodnot a procesů jejich vzniku může vést vychýleným výsledkům analýz Neexistuje univerzální hranice, která určuje, kdy začíná být podíl chybějících hodnot v datech problematický → někdy se uvádí 5 %

Chybějící hodnoty v SPSS System missing values SPSS s nimi automaticky pracuje jako s chybějícími hodnotami Jedná se o tečky v datové matici (Data View) User-defined missing values Uživatel SPSS je musí jako chybějící hodnoty sám nadefinovat (příkaz mis val) – jinak s nimi SPSS pracuje jako s platnými hodnotami Někdy uživatelé definují jako chybějící také hodnoty, které z hlediska teorie chybějícími nejsou

Mechanizmy chybějících hodnot Zjednodušeně řečeno mechanizmy popisují vztahy mezi pozorovanými a chybějícími hodnotami v datech Podle přítomného mechanizmu chybějících hodnot dokážeme odhadnout, jestli bude zvolená technika práce s chybějícími hodnotami vhodná, resp. problematická

Missing Completely At Random (MCAR) Výskyt chybějících hodnot v datech nezávisí na pozorovaných hodnotách, a zároveň nezávisí ani na samotných hodnotách, které chybějí pravděpodobnost výskytu chybějících hodnot u proměnné Y1 nezávisí na pozorovaných hodnotách dalších proměnných (Y2, Y3, …, Yk) a nezávisí ani na hodnotách samotné proměnné Y1 Když data chybějí podle MCAR, tak pozorované hodnoty představují náhodný výběr z hypoteticky kompletního datového souboru

Missing Completely At Random (MCAR) Pro ověřování mechanizmu MCAR existuje několik statistických testů SPSS obsahuje test MCAR podle Littla (Roderick Little) (H0: Hodnoty chybějí podle MCAR) MCAR představuje velmi přísný předpoklad o chybějících hodnotách → v sociologické praxi není obecně velmi pravděpodobné, aby hodnoty chyběly podle mechanizmu MCAR

Missing At Random (MAR) Pravděpodobnost výskytu chybějících hodnot u proměnné Y1 závisí na platných hodnotách dalších proměnných, ale nezávisí na hodnotách samotné proměnné Y1 Název mechanizmu je zavádějící → hodnoty v datech totiž chybí „systematicky“ Problém: neexistuje způsob jak otestovat, že hodnoty chybějí podle mechanizmu MAR

Not Missing At Random (NMAR) Pravděpodobnost výskytu chybějících hodnot proměnné Y1 závisí na hodnotách samotné proměnné Y1 Stejný problém jako u MAR: neexistuje způsob, jak ověřit, že hodnoty chybějí podle NMAR → jelikož neznáme chybějící hodnoty proměnné Y1, tak je nedokážeme porovnat s platnými hodnotami proměnné Y1

Tradiční řešení problému chybějících hodnot Postupy založené na vynechávaní případů z analýzy Listwise deletion Pairwise deletion Postupy založené na nahrazování chybějících hodnot arithmetic mean imputation linear regression imputation stochastic regression imputation

Listwise deletion Výhody: Každý případ, u kterého chybí alespoň jedna hodnota (u některé z proměnných vstupujících do analýzy) je z analýzy vyřazen Výhody: U mechanizmu MCAR se jedná o optimální řešení Při regresi produkuje nevychýlené odhady regresních koeficientů, když nezávislé proměnné chybí podle mechanizmu MAR Nevýhody: Často se stává, že výrazně zredukuje počet případů, na kterých je daná analýza provedena → redukce síly testu U MAR a NMAR produkuje vychýlené odhady parametrů

Pairwise deletion Případy jsou z analýzy vyřazené vždy v rámci párů proměnných (cílem je maximalizovat počet případů, na kterých je analýza provedena) → každá z buněk korelační matice je spočtena na jiném počtu případů Výhody: U mech. MCAR se jedná o relativně vhodné řešení Nevýhody U mechanizmů MAR a MCAR produkuje vychýlené odhady parametrů Produkuje také vychýlené odhady standardních chyb a testovacích statistik

Arithmetic mean imputation Každá chybějící hodnota proměnné je nahrazena hodnotou aritmetického průměru, který je spočten z platných hodnot dané proměnné Jediná malá výhoda: Máme k dispozici „kompletní“ data Nevýhody: Redukce variability hodnot dané proměnné (sníží se rozptyl i směrodatná odchylka) Vychýlené odhady parametrů u každého mechanizmu → jednoznačně nejhorší dostupná technika

Regression imputation Každá chybějící hodnota kardinální proměnné Y je nahrazena odhadem uskutečněným podle regresní rovnice (podle hodnot proměnné X) Výhody: Máme k dispozici „kompletní“ data Produkuje nevychýlené odhady průměru proměnné Y Nevýhody: Redukce variability hodnot proměnné Y Může zvýšit úroveň korelace mezi proměnnou s nahrazenými hodnotami Y a proměnnou X Regression imputation effectively suffers from the exact opposite problem as mean imputation because it imputes the data with perfectly correlated scores.

Stochastic regression imputation Kromě výše popsaného postupu je nahrazovaná chybějící hodnota upravená náhodným reziduem – obnovuje se tak ztracená variabilita dat Výhoda: U mechanizmu MAR vede k nevychýleným odhadům parametrů Nevýhoda: Velkosti směrodatných chyb bývají podhodnocené → zvýšená pravděpodobnost chyby I. druhu

Metody práce s chybějícími hodnotami v SPSS Modul BASE U jednotlivých analytických technik bývají dostupné v nabídce OPTIONS Většinou se jedná jen o listwise/pairwise vynechávání a nahrazování za aritmetický průměr Modul MISSING VALUES Speciální modul pro práci s chybějícími hodnotami Obsahuje test MCAR podle Littla a několik dalších diagnostických nástrojů Možnost nahrazovat chybějící hodnoty regresí

Závěr Chybějící hodnoty představují v společensko-vědných datech téměř všudypřítomný jev Při výběru techniky řešení problému je třeba mít představu o mechanizmu chybějících hodnot (pro danou analýzu a proměnné) Tradičně používané techniky problém většinou neřeší (kromě listwise vynechávání u MCAR a stochastické regrese u MAR) V současnosti už existují i postupy, které dosahují „kvalitních“ výsledků u mechanizmu MAR

„The only really good solution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison Děkuji za pozornost!

Použitá literatura Allison, P. D. 2001. Missing data. Thousand Oaks: Sage. Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37. Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press. Little, R. J. A., Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.). Hoboken, N.J: Wiley.