Reprezentativita: chyba výběru Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK
Str. 2 Kish, L Survey Sampling. NY: John Wiley. velikost výběru a výběrový design: podmínka statistického dokazování velký výběr, velikost základní populace pravděpodobnostní výběr ► známá nenulová šance pro každou jednotku v populaci opory ► pravděpodobnosti nemusí být stejné různé realizace výběru, výběrový rozptyl, standardní chyba, konfidenční interval realizace pravděpodobnostního výběru: odhad neznámých charakteristik populace opory se známou velikostí standardní chyby design výběru - postup výběru ► jak velký je výběr? ► jaké jsou pravděpodobnosti výběru? ► jsou jednotky vybírány navzájem nezávisle nebo ve skupinách? ► je kontrolováno zastoupení některých skupin (stratifikace)?
Jindřich Krejčí, Str. 3 prostý náhodný výběr ► pravděpodobnosti výběru všechny stejné ► (pokud populace dost velká ve srovnání s výběrem) std. chyba závisí na 1) velikosti výběru a 2) rozptylu hodnot ► obvyklé východisko pro statistické dokazování realita: minimum prostých náhodných výběrů ► více výběrových kroků, kombinace technik = komplexní design výběru; primární jednotky výběru, sekundární jednotky... (sídlo - ulice - adresa domácnosti - respondent) efekt designu: poměr výběrového rozptylu statistiky získané určitým konkrétním výběrovým postupem a rozptylu, který bychom pro danou statistiku získali za použití prostého náhodného výběru efektivní velikost výběru ► velikost prostého náhodného výběru s jakou by se dosáhlo stejného výběrového rozptylu jako je u aktuálního designu (n eff = 200 / 3,13 = 64) ► cíl dosáhnout urč, přesnost: jak má být za daného výběrového postupu velký výběr, abychom dosáhly stejného výběrového rozptylu jako u prostého náhodnéh výpočet chyby ve stat. software předpokládá prostý náhodný výběr (lze upravit designovou váhou)
Jindřich Krejčí, Str. 4 skupinový výběr (cluster sampling) ► opora zákl. jednotek není k dispozici nebo redukce nákladů (cestovních) ► předpokl. větší homogenity uvnitř skupinek => větší std. chyba ► efekt skupinového výběru: čím větší heterogenita mezi skupinkami, tím větší homogenita uvnitř co nového se dozvíme, když přidáme další jednotku ze skupiny? průměrná vnitroskupinová korelace (intraclass correlation; tendence hodnot proměnné korelovat uvnitř skupiny ve srovnání s ostatními skupinami) -> poměr homogenity -> designový efekt stratifikovaný výběr ► zajištění reprezentace zvolených podskupin (exkluzivita strat, znalost členství jednotek a váhy strata, shodné výběrové procedury v rámci strat) ► pravděpodobnosti v rámci strat - designové váhy ► různé velikosti strat, různý rozptyl v rámci strat, různé výsledné hodnoty ► designový efekt závisí na velikosti výběru v rámci strat, pokud jsou dost velká zpravidla se designový efekt a std. chyba sníží ► proporcionální vs. neproporcionální alokace (pokud známe standardní odchylku v rámci strat, vyplatí se pořídit větší výběr u těch strat, kde je vyšší (Neyman) - zvýšení přesnosti) systematický výběr ► jednodušší implementace stratifikace ► seřazená opora, náhodný počátek, interval