Mnohonásobné imputace chybějících hodnot

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Cíle a postupy empirického výzkumu
Korelace a regrese Karel Zvára 1.
Statistická indukce Teorie odhadu.
Úvod Klasifikace disciplín operačního výzkumu
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Hodnocení způsobilosti měřících systémů
Síťová analýza RNDr. Jiří Dvořák, CSc.
Cvičení 6 – 25. října 2010 Heteroskedasticita
4EK211 Základy ekonometrie Autokorelace Cvičení /
Chybějící hodnoty (item nonresponse)
Lineární regresní analýza Úvod od problému
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
4EK416 Ekonometrie Úvod do předmětu – obecné informace
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Regresní analýza a korelační analýza
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
DATA  INFORMACE Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně zvolených údajů vytěžit maximum relevantních.
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Statistická analýza únavových zkoušek
Lineární regrese.
Simultánní rovnice Tomáš Cahlík
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Práce s výsledky statistických studií
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Statistická významnost a její problémy
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Aplikovaná statistika 2. Veronika Svobodová
Aritmetický průměr - střední hodnota
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
IV..
Aplikovaná statistika 2.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Základy zpracování geologických dat R. Čopjaková.
Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
4. cvičení
- váhy jednotlivých studií
Úvod do praktické fyziky
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Metodologie pro ISK 2 Úvod do práce s daty
4. Metoda nejmenších čtverců
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Základy popisné statistiky
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek 16.12.2014

Osnova Mechanizmy chybějících hodnot Metody založené na imputaci jediné hodnoty Mnohonásobné imputace

Mechanizmy chybějících hodnot Zjednodušeně řečeno mechanizmy popisují vztah(y) mezi pozorovanými a chybějícími hodnotami v datech Statistická teorie rozlišuje 3 mechanizmy: Missing Completely At Random (MCAR) Výskyt chybějících hodnot v datech nezávisí na pozorovaných hodnotách, a zároveň nezávisí ani na samotných hodnotách, které chybějí Jedná se o velice striktní předpoklad, který v praxi (zejména v sociologii) nebývá příliš častý Tradiční metody předpokládají mechanizmus MCAR

Mechanizmy chybějících hodnot Missing At Random (MAR) Výskyt chybějících hodnot v datech závisí na pozorovaných hodnotách, ale zároveň nezávisí na chybějících hodnotách Použití mnohonásobných imputací předpokládá, že hodnoty chybí podle mechanizmu MAR (nebo MCAR) Not Missing At Random (NMAR) Výskyt chybějících hodnot v datech závisí na samotných chybějících hodnotách Jedná se o nejproblematičtější situaci

Metody založené na imputaci chybějících hodnot Standardní statistické metody byly vyvinuty pro kompletní data (tzn. data bez chybějících hodnot) Metody založené na imputaci chybějících hodnot podle různých algoritmů doplní „prázdná“ místa v datové matici → → → věcně realizovaná analýza už následně pracuje s kompletními daty Cílem imputací není správná predikce jednotlivých chybějících hodnot, ale dosáhnutí nevychýlených odhadů věcně zkoumaných parametrů !!!

Metody založené na imputaci jediné hodnoty Imputace aritmetického průměru Každá chybějící hodnota proměnné je nahrazena hodnotou aritmetického průměru, který byl spočten z platných hodnot dané proměnné Nejhorší ze všech dostupných metod Imputace prostřednictvím lineární regrese Chybějící hodnoty proměnné jsou nahrazené odhadem uskutečněným podle regresní rovnice (která byla spočtena na případech s kompletními daty) Proměnná s chybějícími hodnotami vystupuje v regresní rovnici jako závisle proměnná Regresní rovnice se počítají pro všechny proměnné s chybějícími hodnotami

Metody založené na imputaci jediné hodnoty Imputace prostřednictvím stochastické regrese Jedná se o vylepšenou podobu nahrazovaní chybějících hodnot prostřednictvím lineární regrese → → → ke každé nahrazené hodnotě se přičte náhodně vygenerovaná odchylka (z normálního rozdělení) Jako jediná z 3 výše uvedených imputačních metod vede k nevychýleným odhadům parametrů při mechanizmu MAR

Grafická ukázka fungování těchto metod Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa) U všech grafů chybí asi 30% hodnot hrubé měsíční mzdy

Další problém spojený s imputacemi jediné hodnoty Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými Věcné analýzy tedy vůbec nezohledňují nejistotu spojenou s realizovanými imputacemi Metody podhodnocují odhady směrodatných chyb zkoumaných parametrů → → → užší intervaly spolehlivosti a menší p-hodnoty Mnohonásobné imputace řeší tento problém

Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika hodnotami Jedná se o přístup k řešení problému chybějících hodnot, který má v praxi několik různých implementací

Schéma postupu mnohonásobných imputací Datový soubor s chybějícími hodnotami Imputovaný soubor č. 1 Výsledky věcné analýzy na základě souboru č. 1 Imputovaný soubor č. 2 Výsledky věcné analýzy na základě souboru č. 2 Imputovaný soubor č. 3 Výsledky věcné analýzy na základě souboru č. 3 Souhrnné výsledky Imputovaný soubor č. 4 Výsledky věcné analýzy na základě souboru č. 4 Imputovaný soubor č. 5 Výsledky věcné analýzy na základě souboru č. 5 1.) Imputace dat 2.) Analýza 3.) Sloučení výsledků

Algoritmy imputace dat V praxi dominují dva přístupy: Conditional multiple imputation Hodnoty jednotlivých proměnných jsou nahrazovány vždy podmíněně ke všem ostatním proměnným Nejpoužívanější algoritmus = multiple imputation by chained equations (MICE) Joint multiple imputation Imputované hodnoty jsou generované ze společného mnohorozměrného rozdělení Nejčastěji se přitom pracuje s mnohorozměrným normálním rozdělením

Multiple imputation by chained equations I Název v SPSS: fully conditional specification Zohledňuje měřítko imputované proměnné (nominální, ordinální, kardinální) – pro každý typ proměnné jsou chybějící hodnoty nahrazovány jinou metodou Zohledňuje „jistotu“ spojenou s doplňovanými hodnotami: pokud máme k dispozici „silné“ prediktory konkrétní proměnné, tak imputované hodnoty mají mezi imputovanými soubory malý rozptyl. Pokud jsou prediktory „slabé“, tak imputované hodnoty mají mezi soubory velký rozptyl

Multiple imputation by chained equations II Postup algoritmu: Všechny proměnné s chybějícími hodnotami jsou postupně doplněné jednoduchou imputační metodou Každá proměnná je postupně doplněna podle odpovídajícího modelu (vypočítaného jen na případech s pozorovanými hodnotami imputované proměnné) Krok číslo dva se opakuje dokud není dosaženo stabilní řešení → → → výsledkem je jeden imputovaný datový soubor Kroky 1-3 se opakují dokud není vytvořen definovaný počet imputovaných datových souborů (obvykle 5)

Sloučení výsledků Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru Souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů Celkový rozptyl odhadů kombinuje variabilitu v rámci jednotlivých imputací (nejistotu spojenou s odhadem parametru na základě jednoho datového souboru) a napříč jednotlivými imputacemi (nejistota spojená s nahrazováním chybějících hodnot) Poznámka: některé charakteristiky (např. p-hodnoty) není možné sloučit pomocí průměru ze všech m odhadů

Shrnutí I Při samotné imputaci chybějících hodnot je vhodné použít proměnné, které nejsou součástí následné věcné analýzy (zvýší se tím šance, že hodnoty chybí podle MAR) Chybějící hodnoty v celém datovém souboru stačí prostřednictvím mnohonásobných imputací nahradit jednou, přičemž takto nahrazená a uložená data můžou být používána na různé analýzy (různými uživateli)

Shrnutí II MI vedou k nevychýleným odhadům parametrů a jejich směrodatných chyb při mechanizmu MCAR a MAR MI představují jednu z nejlepších dostupných metod práce s chybějícími hodnotami – když však hodnoty chybí podle mechanizmu NMAR, tak i MI může vést k vychýleným odhadům zkoumaných parametrů

Reference Rubin (2004) - Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons. van Buuren (2012) - Flexible Imputation of Missing Data. Boca Raton: CRC Press. White, Royston a Wood (2011) - Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine 30: 377-399. Schafer (1999) - Multiple imputation: A primer. Statistical methods in medical research 8(1): 3-15.