VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU: vlastnosti VÝBĚRU by měly co nejlépe odpovídat vlastnostem celé populace. Základní populace je HOMOGENNÍ: rozdíly mezi sledovanými jedinci mohou být způsobeny pouze NÁHODOU. Základní populace není zcela HOMOGENNÍ: sledování výskytu klíšťové encefalitidy: v některých lokalitách je výskyt infikovaných klíšťat systematicky větší sledování krevního tlaku: závisí na věku osob sledování výšky dospělých osob: závisí na pohlaví
KDY VYTVÁŘÍME VÝBĚR U studie popisující populaci nás zajímá Experimentální studie U studie popisující populaci nás zajímá rozložení některé veličiny v populaci, např. její průměr (hladina cholesterolu) pravděpodobnost výskytu nějaké veličiny (např. onemocnění diabetem) skladba populace podle nějaké veličiny (např. podle věku) společné rozložení dvou veličin (např. porodní délky a hmotnosti) Důraz klademe na reprezentativnost výběru - aby složení výběru bylo z pohledu všech rušivých faktorů podobné základní populaci.
1. STUDIE POPISUJÍCÍ POPULACI Musíme mít jasně definovaný základní soubor (populaci), na který chceme zobecnit výsledky studie. Abychom mohli se souborem lépe pracovat, vytvoříme si jeho libovolný seznam - tzv. OPORU. Např. seznam osob z posledního sčítání lidu. Označíme nP rozsah základní populace a nV rozsah výběru (rozsah výběru se určí předem samostatným postupem). Rozlišujeme různé konstrukce výběru: NÁHODNÝ VÝBĚR SYSTEMATICKÝ VÝBĚR OBLASTNÍ VÝBĚR SKUPINOVÝ VÝBĚR VÍCESTUPŇOVÝ VÝBĚR
A. NÁHODNÝ VÝBĚR Nejjednodušší a optimální pro zajištění reprezentativnosti. Nedostatek: technicky velmi náročný. Z čísel 1, 2, …, nP OPORY vybereme náhodně jedno číslo. Osobu, která odpovídá tomuto číslu zařadíme do výběru. Další číslo vybíráme ze zbývajících hodnot OPORY. Pokračujeme v tomto výběru bez vracení dokud nemáme vybráno nV osob. V některých situacích můžeme použít i výběr s vracením. Pokud rozdíl v rozsahu populace a rozsahu výběrového souboru je extrémně velký, mezi výběrem bez vracení a výběrem s vracením není velký rozdíl, protože je malá pravděpodobnost, že některý prvek vybereme víckrát.
B. SYSTEMATICKÝ VÝBĚR Předpoklad: pořadí jednotek v OPOŘE musí být náhodné - nesmí souviset se sledovanou veličinou. Výhoda: technicky jednodušší. Příklad: vybíráme děti v jednom kraji/ okresu. Postup: Vezmeme abecední seznamy dětí u pediatrů, náhodně vybereme první dítě a pak každé další s krokem např. 10. Další seznam připojíme na konec prvního seznamu. Technicky jednodušší. Celkem vybereme opět nV osob.
C. KVÓTNÍ VÝBĚR U Kvótního výběru musíme stanovit rušivé faktory, např. stanovíme, že rušivým faktorem je pouze věk a pohlaví. Pak pro každou věkovou skupinu a pohlaví stanovíme počet reprezentantů ve výběru tak, aby to odpovídalo zkoumané populaci. Pak budeme náhodně vybírat do každé takto stanovené skupiny, dokud počty nenaplníme. Pokud neumíme stanovit rušivé faktory, můžeme místo toho použít nějaké přirozené dělení populace na menší celky (kraje, okresy, školy, třídy, …). Vytvoříme dílčí podsoubory podle oblastí a v nich náhodně vybereme počet osob úměrný velikosti dané oblasti. I při tomto způsobu výběru pracujeme s celou populací a každého jedince musíme vyhledávat individuálně - technicky stále náročné.
D. SKUPINOVÝ VÝBĚR Tento výběr umožňuje významné technické zjednodušení. Základní soubor rozdělíme opět na podsoubory (např. podle škol nebo tříd) a písmenem R označíme jejich počet. Zvolíme počet podsouborů, které náhodně vybereme do výběru a jejich počet označíme r. Výběr pak obsahuje všechny objekty zvolených podsouborů. Pro použití této metody je důležité velké množství podsouborů. Tato metoda se používá tehdy, když vyšetření více osob současně přináší relativně malý nárůst nákladů. Příklady přirozených skupin: rodiny třídy nebo školy, obyvatelé jednoho domu, pacienti jedné nemocnice
E. VÍCESTUPŇOVÝ VÝBĚR U větších studií se používají kombinace těchto metod. Výběr rozdělíme do více stupňů. Příklad: vytvoření reprezentativního výběru žáků Základní soubor rozdělíme na podsoubory podle škol Vybereme náhodně jistý počet škol s pravděpodobnostmi, které odpovídají počtu žáků v příslušné škole V každé vybrané škole vybereme náhodně např. polovinu žáků
2. EXPERIMENTÁLNÍ STUDIE Experimentální studie se používá při studiu vztahů různých veličin nebo posouzení nějaké expozice na objekty našeho zájmu, např.: rozdíl v množství protilátek u zdravých a nemocných rozdíl ve výšce postavy různého pohlaví vyvolá-li podání léku nějakou odpověď Soubory mohou reprezentovat i velmi úzce definovanou populaci. Výběr nemusí splňovat podmínku reprezentativnosti, někdy tuto podmínku dokonce záměrně porušujeme: v reálné populaci je výskyt jedinců s okrajovými hodnotami řídký, ale tady se při výběru dat budeme snažit, aby hodnoty měřené nezávislé proměnné pokrývaly rovnoměrně celou škálu možných hodnot Musíme dbát na to, aby studii neovlivnily rušivé faktory nejdůležitější z nich musí mít stejné zastoupení ve všech porovnávaných skupinách.
Rušivé faktory Vztahy různých charakteristik v biologii jsou velmi komplikované - hodnoty jsou ovlivněny mnoha faktory. Např. výška dítěte závisí nejen na věku, ale také na pohlaví, zdravotním stavu, životosprávě a genetických předpokladech. Většinou není možné všechny vlivy uvažovat. Snažíme se najít model co nejjednodušší, popisující studovanou skutečnost dostatečně přesně. Vybíráme veličiny nejvíce ovlivňující sledovanou charakteristiku: tyto faktory zahrnujeme do modelu a nazýváme je confounding (matoucí) a tím, že je měříme, máme možnost eliminovat jejich vliv Neznámé (nezjišťované) faktory zahrnujeme do náhodné chyby nazýváme je bias (vychýlení) a jejich vliv se snažíme eliminovat konstrukcí výběru tak, aby byly stejnoměrně rozděleny ve všech sledovaných souborech
Volba kontrolní skupiny U plánovaného experimentu většinou nepracujeme s rozsáhlými daty a neřešíme problém reprezentativnosti výběru. Obvykle proti skupině, na které zkoumáme působení nějaké expozice stavíme tzv. kontrolní skupinu, statistickými metodami porovnáváme rozdíly ve výsledcích obou skupin a chceme rozhodnout, zda tyto rozdíly jsou statisticky významné, tj. chceme prokázat účinek působení expozice. KONTROLNÍ SKUPINU můžeme vybírat z celé populace nebo pouze z osob, které do sledované skupiny nepatří. KONTROLNÍ SKUPINU musíme zvolit tak, abychom minimalizovali zkreslení výsledků vlivem dalších rušivých faktorů.
Volba kontrolní skupiny a rušivé faktory Kontrolní skupina musí odpovídat věkem, fyzickými předpoklady, pokud na nich záleží apod. Při výběru osob s prací v riziku a kontrolní skupiny z celé populace se můžeme dopustit chyby, pokud je pro danou profesi požadováno splnění kritérií, které neodpovídají běžné populaci. Pro všechny plány experimentu je nutné zajistit, aby rozdělení do skupin bylo náhodné. Při studiu účinků léků se můžeme dopustit chyby při volbě kontrolní skupiny neléčených osob se stejnou diagnózou placebo efekt - kladný vliv stresový efekt terapie - negativní vliv
Volba kontrolní skupiny a rušivé faktory Proto se používá tzv. slepý pokus, kdy pouze lékař ví, komu je podáváno placebo a komu lék. V případě, že lékař rozhoduje, komu podá lék a komu placebo, je velmi pravděpodobné, že jeho rozhodnutí nebude náhodné, ale na základě lékařské etiky se rozhodne např. podat lék těžším pacientům. V tomto případě by se použil tzv. dvojitě slepý pokus, kdy ani lékař neví, komu je podáván lék a komu placebo. Vliv rušivých faktorů můžeme omezit prostřednictvím párových testů (t-test nebo Wilcoxonův test pro spojitá data nebo McNemarův test pro alternativní veličiny). Princip je takový, že data získáme měřením na stejných objektech s opakováním po určitém časovém intervalu.