Reprezentativita: chyba pokrytí populace (coverage error) Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK
Reprezentativita - coverage error Snímek 2 Chyba pokrytí populace jednotky výběru cílová populace: populace, ke které vztahujeme dokazování populace šetření: populace, ke které se výzkum vztahuje reálně (nezahrnuje některé skupiny; např. určíme, že nezkoumáme institucionální populace, bezdomovce...) opora výběru: seznam(-y) nebo sada materiálů a procedur (např. mapa, kartotéka...) použitých k identifikaci jednotek cílové populace populace opory: populace skutečně zachycená v opoře nezachycené jednotky, nežádoucí jednotky, duplikace, klastry DOSTUPNOST VHODNÉ OPORY ! Cílová populace Populace opory nezahrnutá část populace nežádoucí jednotky populace zachycená ve výzkumu
Reprezentativita - coverage error Snímek 3 příklady opory ► telefonní seznam ► seznam oblastí, seznam adres domácností, seznam členů domácnosti -> komplexní design výběru chyby pokrytí na všech úrovních ► systematické chyby (problém mladých, znevýhodněné skupiny...) ► pravidlo rezidence de facto/de jure nežádoucí jednotky ► identifikace až při pokusu o kontakt: problém s výběrem - odhad a navýšení výběru?; snížení efektivity jednotky, u nichž nevíme, zda do výzkumu patří klastry - podvýběr RDD - random digit dialing výběr v průběhu sběru dat (počítač, Kish grid, datum narození...) kompenzační váhy (klastry, duplicity - identifikace v průběhu sběru dat)
Snímek 4 obecná populace v ČR - domácnosti a jednotlivci ► adresy domácností ČSÚ, databáze adres budov, výběr oblastí - soupis domácností, databáze adres plátců (INKASO), náhodná procházka zákazníci, zaměstnanci, členové organizací ► seznamy (aktuálnost; různé charakteristiky - prozkoumat, zjistit kontext), ochrana osobních údajů, někdy problém vymezit populaci (zaměstnání na DPČ, faktury...) firmy, organizace ► různé velikosti, různé struktury, problém geografické lokace, formální/ administrativní vs reálný stav, dynamický vývoj události (narození, zakoup. něčeho, výskyt něčeho, nezaměstnanost, kriminální čin...) ► různé opory (časová škála, seznam jiných jednotek - osob,.. př. time use survey) specifické populace ► špatně identifikovatelné populace, malé, řídké, rozptýlené chyba pokrytí populace: rozdíl mezi hodnotou cílové populace a populace opory Reprezentativita - coverage error
Str. 5 kombinace více opor v jednom kroku ► různé výb. pravděpodobnosti, konstrukce design. vah ► překryv opor (výběr tazatelem v terénu / zahrnutí všech vybraných jedn. - různé pravděpodobnosti / zpřesnění odhadů pomocí překryvu), ► Př. kombinace RDD a oblast/soupis dom. P tel.. = P RDD + P OBL - P RDD * P OBL P non-tel. = P OBL ► Př. zpřesnění (RDD domácnosti a OBL domácnosti bez tel. - soubor / OBL domácnosti s tel. - zjistí se podíl a stanoví se váhy pro soubor) napůl otevřený interval (half-open interval) ► uspořádaný seznam s chybějícími jednotkami (např. neaktuální) ► prozkoumá se oblast od vybrané jednotky k nejbližší další jednotce v seznamu ► zahrnou se všechny jednotky a přiřadí se jim pravděpodobnost vybrané jednotky / provede se podvýběr / nové jednotky konstituují nové stratum (překvapení) a v něm se samostatně provede výběr Redukce počtu chybějících jednotek
Redukce počtu chybějících jednotek II. vícenásobný výběr (multiplicity sampling) ► obdoba snow-ball ► z opory se vyberou jednotky, s každou jednotkou se vybere celá síť jednotek ► nutnost přesné definice vymezení sítě, nesmí se překrývat ► váhy podle velikosti sítě ► nepřesnosti při stanovení sítě (respondenti ji často přesně neurčí) Snímek 6 Reprezentativita - coverage error