Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek 24.11.2015.

Slides:



Advertisements
Podobné prezentace
ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Advertisements

Cíle a postupy empirického výzkumu
Statistická indukce Teorie odhadu.
Analýza experimentu pro robustní návrh
Jednovýběrové testy parametrickch hypotéz
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Hodnocení způsobilosti měřících systémů
Sociologie – metody a techniky sociologického výzkumu
POZNATKY Z ETNOGRAFICKÉHO VÝZKUMU NA ČESKÝCH VYSOKÝCH ŠKOLÁCH JAK VYPADÁ VZDĚLÁVÁNÍ, KTERÉ SE SNAŽÍME ZLEPŠIT? JANA DVOŘÁČKOVÁ (FSS MU) PETR PABIAN (KSV.
Chybějící hodnoty (item nonresponse)
Lineární regresní analýza Úvod od problému
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Sociologický výzkum.
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Relační databáze.
Mnohonásobné imputace chybějících hodnot
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Statistická analýza únavových zkoušek
LOGISTICKÉ SYSTÉMY /14.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
Lineární regresní analýza
Experimentální fyzika I. 2
Práce s výsledky statistických studií
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
ISS Úvodní informace ZS 2014/2015 Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Statistická významnost a její problémy
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Výzkum veřejného mínění a jeho realizace
Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
Aritmetický průměr - střední hodnota
Postup při empirickém kvantitativním výzkumu
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Inferenční statistika - úvod
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
IV..
Aplikovaná statistika 2.
Ukládání dat biodiverzity a jejich vizualizace
Reprezentativita: chyba výběru Jindřich Krejčí
Základy statistické indukce
Induktivní statistika
Analytické metody výzkumu
4. cvičení
- váhy jednotlivých studií
Co se dá změřit v psychologii a pedagogice?
Neparametrické testy parametrické a neparametrické testy
Úvod do praktické fyziky
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Metodologie pro ISK 2 Úvod do práce s daty
ORGANIZAČNÍ STRUKTURY
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Analýza kardinálních proměnných
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Základy popisné statistiky
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Mnohonásobné imputace chybějících hodnot Analytické metody výzkumu pro mgr. Ivan Petrúšek

Data na seminář Si stáhněte na stránkách kurzu:

Osnova přednášky 1.Mechanismy chybějících hodnot 2.Metody založené na imputaci jediné hodnoty 3.Mnohonásobné imputace

Mechanismy chybějících hodnot Zjednodušeně řečeno mechanismy popisují vztah(y) mezi pozorovanými a chybějícími hodnotami v datech Statistická teorie rozlišuje 3 mechanismy: 1.Missing Completely At Random (MCAR) – Výskyt chybějících hodnot v datech nezávisí na pozorovaných hodnotách, a zároveň nezávisí ani na samotných hodnotách, které chybějí – Jedná se o velice striktní předpoklad, který v praxi (zejména v sociologii) nebývá příliš častý – Tradiční metody předpokládají mechanismus MCAR

Mechanismy chybějících hodnot 2.Missing At Random (MAR) – Výskyt chybějících hodnot v datech závisí na pozorovaných hodnotách, ale zároveň nezávisí na chybějících hodnotách – Použití mnohonásobných imputací předpokládá, že hodnoty chybí podle mechanismu MAR (nebo MCAR) 3.Not Missing At Random (NMAR) – Výskyt chybějících hodnot v datech závisí na samotných chybějících hodnotách – Jedná se o nejproblematičtější situaci

Metody založené na nahrazování chybějících hodnot Standardní statistické metody byly vyvinuty pro kompletní data (tzn. data bez chybějících hodnot) Metody založené na imputaci chybějících hodnot podle různých algoritmů doplní „prázdná“ místa v datové matici → → → věcně realizovaná analýza už následně pracuje s kompletními daty Cílem imputací není správná predikce jednotlivých chybějících hodnot, ale dosáhnutí nevychýlených odhadů věcně zkoumaných parametrů !!!

Metody nahrazující každou chybějící hodnotu jedinou hodnotou -Zkoumání vztahu mezi IQ (horizontální osa) a hrubou měsíční mzdou (vertikální osa) -U všech tří grafů chybí asi 30 % hodnot hrubé měsíční mzdy

Problém spojený s imputacemi jediné hodnoty Po nahrazení chybějících hodnot těmito technikami se s imputovanými hodnotami pracuje jako s původně pozorovanými hodnotami Věcné analýzy tedy vůbec nezohledňují nejistotu spojenou s procesem nahrazování chybějících hodnot Metody podhodnocují odhady směrodatných chyb zkoumaných parametrů → → → užší intervaly spolehlivosti a menší p-hodnoty Mnohonásobné imputace řeší tento problém

Mnohonásobné imputace (multiple imputation) Místo jedné hodnoty je každá chybějící hodnota nahrazena současně několika hodnotami Jedná se o přístup k řešení problému chybějících hodnot, který má v praxi několik různých implementací

Princip fungování mnohonásobných imputací při realizaci věcné analýzy Datový soubor s chybějícími hodnotami Imputovaný soubor č. 1 Výsledky věcné analýzy na základě souboru č. 1 Imputovaný soubor č. 2 Výsledky věcné analýzy na základě souboru č. 2 Imputovaný soubor č. 3 Výsledky věcné analýzy na základě souboru č. 3 Souhrnné výsledky Imputovaný soubor č. 4 Výsledky věcné analýzy na základě souboru č. 4 Imputovaný soubor č. 5 Výsledky věcné analýzy na základě souboru č. 5 1.) Imputace dat2.) Analýza 3.) Sloučení výsledků

Algoritmy imputace dat V praxi dominují dva přístupy: 1.Conditional multiple imputation – Hodnoty jednotlivých proměnných jsou nahrazovány vždy podmíněně ke všem ostatním proměnným – Nejpoužívanější algoritmus = multiple imputation by chained equations (MICE) 2.Joint multiple imputation – Imputované hodnoty jsou generované ze společného mnohorozměrného rozdělení – Nejčastěji se přitom pracuje s mnohorozměrným normálním rozdělením

Multiple imputation by chained equations I Název v SPSS: fully conditional specification Zohledňuje měřítko imputované proměnné (nominální, ordinální, kardinální) – pro každý typ proměnné jsou chybějící hodnoty nahrazovány jinou metodou Zohledňuje „jistotu“ spojenou s doplňovanými hodnotami: pokud máme k dispozici „silné“ prediktory konkrétní proměnné, tak imputované hodnoty mají mezi imputovanými soubory malý rozptyl. Pokud jsou prediktory „slabé“, tak imputované hodnoty mají mezi soubory velký rozptyl

Multiple imputation by chained equations II Postup algoritmu: 1.Všechny proměnné s chybějícími hodnotami jsou postupně doplněné jednoduchou imputační metodou 2.Každá proměnná je postupně doplněna podle odpovídajícího modelu (vypočítaného jen na případech s pozorovanými hodnotami imputované proměnné) 3.Krok číslo dva se opakuje dokud není dosaženo stabilní řešení → → → výsledkem je jeden imputovaný datový soubor 4.Kroky 1-3 se opakují dokud není vytvořen definovaný počet imputovaných datových souborů (obvykle 5)

Sloučení výsledků Každý imputovaný datový soubor vede k jinému odhadu zkoumaného parametru Souhrnný odhad parametru se vypočítá jako průměr ze všech odhadů Celkový rozptyl odhadů kombinuje variabilitu v rámci jednotlivých imputací (nejistotu spojenou s odhadem parametru na základě jednoho datového souboru) a napříč jednotlivými imputacemi (nejistota spojená s nahrazováním chybějících hodnot) Poznámka: některé charakteristiky (např. p-hodnoty) není možné sloučit pomocí průměru ze všech m odhadů

Několik praktických doporučení Vhodné prediktory pro imputaci konkrétní proměnné: 1.všechny proměnné, které budou součástí věcné analýzy 2.proměnné, které souvisí s výskytem chybějících hodnot u imputované proměnné 3.proměnné, které vysvětlují značný podíl rozptylu imputované proměnné Většinou stačí vytvořit 5 imputovaných verzí původních dat Chybějící hodnoty v celém datovém souboru stačí prostřednictvím mnohonásobných imputací nahradit jednou, přičemž takto nahrazená a uložená data mohou být používána na různé analýzy (různými uživateli)

Shrnutí Mnohonásobné imputace vedou k nevychýleným odhadům parametrů u mechanismů MCAR a MAR Pokrytí populačních parametrů intervaly spolehlivosti odpovídá zvolené hladině spolehlivosti Jedna z nejlepších dostupných metod Velmi komplexní metoda Náročný proces nastavování procedury  

Reference Rubin (2004) - Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons. van Buuren (2012) - Flexible Imputation of Missing Data. Boca Raton: CRC Press. White, Royston a Wood (2011) - Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine 30: Schafer (1999) - Multiple imputation: A primer. Statistical methods in medical research 8(1): 3-15.

V prosinci 2015 vyjde v Sociologickém ústavu AV ČR kniha věnovaná problematice chybějících hodnot v datech Mnohonásobným imputacím je věnována jedna kapitola Kromě metod založených na nahrazování chybějících hodnot kniha popisuje další skupiny metod: Metody založené na vynechávání případů Metody založené na maximální věrohodnosti (např. EM algoritmus) Podrobnější informace o knize: hodnot Petrúšek, I Analýza chybějících hodnot. Praha: Sociologický ústav AV ČR, v.v.i. 145 s. ISBN: