VÝBĚR A JEHO REPREZENTATIVNOST

Slides:



Advertisements
Podobné prezentace
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STAVEBNÍ ÚSTAV GEODÉZIE
Advertisements

Základní statistické pojmy
Statistická indukce Teorie odhadu.
Úvod do analýzy rozptylu
Odhady parametrů základního souboru
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
t-rozdělení, jeho použití
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL
Regresní analýza a korelační analýza
64. Odhady úplných chyb a vah funkcí BrnoLenka Bocková.
Varianty výzkumu Kroky výzkumu Výběrový soubor
Obsah statistiky Jana Zvárová
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Pravděpodobnost a genetická prognóza
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regrese.
Statistika 2. přednáška Ing. Marcela Čapková.
Základy statistické indukce Základní soubor, náhodný výběr Základní statistický soubor (stručněji základní soubor) je statistický soubor, z něhož pořizujeme.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Experimentální fyzika I. 2
Základy zpracování geologických dat
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Základy pedagogické metodologie
Základy pedagogické metodologie
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
Diagnostické metody ve speciální pedagogice - Experiment
Měřické chyby – nejistoty měření –. Zkoumané (měřené) předměty či jevy nazýváme objekty Na každém objektu je nutno definovat jeho znaky. Mnoho znaků má.
Inferenční statistika - úvod
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Molekulová fyzika 2. Sada pomocných snímků „Teplota“
Odhady odhady bodové a intervalové odhady
Varianty výzkumu Kroky výzkumu Výběrový soubor
Některá rozdělení náhodných veličin
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Definiční obor a obor hodnot
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
- váhy jednotlivých studií
Induktivní statistika
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Sociologický výzkum II.
Provozováno Výzkumným ústavem pedagogickým v Praze.
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Základy statistiky.
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU: vlastnosti VÝBĚRU by měly co nejlépe odpovídat vlastnostem celé populace. Základní populace je HOMOGENNÍ: rozdíly mezi sledovanými jedinci mohou být způsobeny pouze NÁHODOU. Základní populace není zcela HOMOGENNÍ: sledování výskytu klíšťové encefalitidy: v některých lokalitách je výskyt infikovaných klíšťat systematicky větší sledování krevního tlaku: závisí na věku osob sledování výšky dospělých osob: závisí na pohlaví

KDY VYTVÁŘÍME VÝBĚR U studie popisující populaci nás zajímá Experimentální studie U studie popisující populaci nás zajímá rozložení některé veličiny v populaci, např. její průměr (hladina cholesterolu) pravděpodobnost výskytu nějaké veličiny (např. onemocnění diabetem) skladba populace podle nějaké veličiny (např. podle věku) společné rozložení dvou veličin (např. porodní délky a hmotnosti) Důraz klademe na reprezentativnost výběru - aby složení výběru bylo z pohledu všech rušivých faktorů podobné základní populaci.

1. STUDIE POPISUJÍCÍ POPULACI Musíme mít jasně definovaný základní soubor (populaci), na který chceme zobecnit výsledky studie. Abychom mohli se souborem lépe pracovat, vytvoříme si jeho libovolný seznam - tzv. OPORU. Např. seznam osob z posledního sčítání lidu. Označíme nP rozsah základní populace a nV rozsah výběru (rozsah výběru se určí předem samostatným postupem). Rozlišujeme různé konstrukce výběru: NÁHODNÝ VÝBĚR SYSTEMATICKÝ VÝBĚR OBLASTNÍ VÝBĚR SKUPINOVÝ VÝBĚR VÍCESTUPŇOVÝ VÝBĚR

A. NÁHODNÝ VÝBĚR Nejjednodušší a optimální pro zajištění reprezentativnosti. Nedostatek: technicky velmi náročný. Z čísel 1, 2, …, nP OPORY vybereme náhodně jedno číslo. Osobu, která odpovídá tomuto číslu zařadíme do výběru. Další číslo vybíráme ze zbývajících hodnot OPORY. Pokračujeme v tomto výběru bez vracení dokud nemáme vybráno nV osob. V některých situacích můžeme použít i výběr s vracením. Pokud rozdíl v rozsahu populace a rozsahu výběrového souboru je extrémně velký, mezi výběrem bez vracení a výběrem s vracením není velký rozdíl, protože je malá pravděpodobnost, že některý prvek vybereme víckrát.

B. SYSTEMATICKÝ VÝBĚR Předpoklad: pořadí jednotek v OPOŘE musí být náhodné - nesmí souviset se sledovanou veličinou. Výhoda: technicky jednodušší. Příklad: vybíráme děti v jednom kraji/ okresu. Postup: Vezmeme abecední seznamy dětí u pediatrů, náhodně vybereme první dítě a pak každé další s krokem např. 10. Další seznam připojíme na konec prvního seznamu. Technicky jednodušší. Celkem vybereme opět nV osob.

C. KVÓTNÍ VÝBĚR U Kvótního výběru musíme stanovit rušivé faktory, např. stanovíme, že rušivým faktorem je pouze věk a pohlaví. Pak pro každou věkovou skupinu a pohlaví stanovíme počet reprezentantů ve výběru tak, aby to odpovídalo zkoumané populaci. Pak budeme náhodně vybírat do každé takto stanovené skupiny, dokud počty nenaplníme. Pokud neumíme stanovit rušivé faktory, můžeme místo toho použít nějaké přirozené dělení populace na menší celky (kraje, okresy, školy, třídy, …). Vytvoříme dílčí podsoubory podle oblastí a v nich náhodně vybereme počet osob úměrný velikosti dané oblasti. I při tomto způsobu výběru pracujeme s celou populací a každého jedince musíme vyhledávat individuálně - technicky stále náročné.

D. SKUPINOVÝ VÝBĚR Tento výběr umožňuje významné technické zjednodušení. Základní soubor rozdělíme opět na podsoubory (např. podle škol nebo tříd) a písmenem R označíme jejich počet. Zvolíme počet podsouborů, které náhodně vybereme do výběru a jejich počet označíme r. Výběr pak obsahuje všechny objekty zvolených podsouborů. Pro použití této metody je důležité velké množství podsouborů. Tato metoda se používá tehdy, když vyšetření více osob současně přináší relativně malý nárůst nákladů. Příklady přirozených skupin: rodiny třídy nebo školy, obyvatelé jednoho domu, pacienti jedné nemocnice

E. VÍCESTUPŇOVÝ VÝBĚR U větších studií se používají kombinace těchto metod. Výběr rozdělíme do více stupňů. Příklad: vytvoření reprezentativního výběru žáků Základní soubor rozdělíme na podsoubory podle škol Vybereme náhodně jistý počet škol s pravděpodobnostmi, které odpovídají počtu žáků v příslušné škole V každé vybrané škole vybereme náhodně např. polovinu žáků

2. EXPERIMENTÁLNÍ STUDIE Experimentální studie se používá při studiu vztahů různých veličin nebo posouzení nějaké expozice na objekty našeho zájmu, např.: rozdíl v množství protilátek u zdravých a nemocných rozdíl ve výšce postavy různého pohlaví vyvolá-li podání léku nějakou odpověď Soubory mohou reprezentovat i velmi úzce definovanou populaci. Výběr nemusí splňovat podmínku reprezentativnosti, někdy tuto podmínku dokonce záměrně porušujeme: v reálné populaci je výskyt jedinců s okrajovými hodnotami řídký, ale tady se při výběru dat budeme snažit, aby hodnoty měřené nezávislé proměnné pokrývaly rovnoměrně celou škálu možných hodnot Musíme dbát na to, aby studii neovlivnily rušivé faktory nejdůležitější z nich musí mít stejné zastoupení ve všech porovnávaných skupinách.

Rušivé faktory Vztahy různých charakteristik v biologii jsou velmi komplikované - hodnoty jsou ovlivněny mnoha faktory. Např. výška dítěte závisí nejen na věku, ale také na pohlaví, zdravotním stavu, životosprávě a genetických předpokladech. Většinou není možné všechny vlivy uvažovat. Snažíme se najít model co nejjednodušší, popisující studovanou skutečnost dostatečně přesně. Vybíráme veličiny nejvíce ovlivňující sledovanou charakteristiku: tyto faktory zahrnujeme do modelu a nazýváme je confounding (matoucí) a tím, že je měříme, máme možnost eliminovat jejich vliv Neznámé (nezjišťované) faktory zahrnujeme do náhodné chyby nazýváme je bias (vychýlení) a jejich vliv se snažíme eliminovat konstrukcí výběru tak, aby byly stejnoměrně rozděleny ve všech sledovaných souborech

Volba kontrolní skupiny U plánovaného experimentu většinou nepracujeme s rozsáhlými daty a neřešíme problém reprezentativnosti výběru. Obvykle proti skupině, na které zkoumáme působení nějaké expozice stavíme tzv. kontrolní skupinu, statistickými metodami porovnáváme rozdíly ve výsledcích obou skupin a chceme rozhodnout, zda tyto rozdíly jsou statisticky významné, tj. chceme prokázat účinek působení expozice. KONTROLNÍ SKUPINU můžeme vybírat z celé populace nebo pouze z osob, které do sledované skupiny nepatří. KONTROLNÍ SKUPINU musíme zvolit tak, abychom minimalizovali zkreslení výsledků vlivem dalších rušivých faktorů.

Volba kontrolní skupiny a rušivé faktory Kontrolní skupina musí odpovídat věkem, fyzickými předpoklady, pokud na nich záleží apod. Při výběru osob s prací v riziku a kontrolní skupiny z celé populace se můžeme dopustit chyby, pokud je pro danou profesi požadováno splnění kritérií, které neodpovídají běžné populaci. Pro všechny plány experimentu je nutné zajistit, aby rozdělení do skupin bylo náhodné. Při studiu účinků léků se můžeme dopustit chyby při volbě kontrolní skupiny neléčených osob se stejnou diagnózou placebo efekt - kladný vliv stresový efekt terapie - negativní vliv

Volba kontrolní skupiny a rušivé faktory Proto se používá tzv. slepý pokus, kdy pouze lékař ví, komu je podáváno placebo a komu lék. V případě, že lékař rozhoduje, komu podá lék a komu placebo, je velmi pravděpodobné, že jeho rozhodnutí nebude náhodné, ale na základě lékařské etiky se rozhodne např. podat lék těžším pacientům. V tomto případě by se použil tzv. dvojitě slepý pokus, kdy ani lékař neví, komu je podáván lék a komu placebo. Vliv rušivých faktorů můžeme omezit prostřednictvím párových testů (t-test nebo Wilcoxonův test pro spojitá data nebo McNemarův test pro alternativní veličiny). Princip je takový, že data získáme měřením na stejných objektech s opakováním po určitém časovém intervalu.