VÝBĚR A JEHO REPREZENTATIVNOST

Slides:

Advertisements

Podobné prezentace

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA STAVEBNÍ ÚSTAV GEODÉZIE

Advertisements

Základní statistické pojmy

Statistická indukce Teorie odhadu.

Úvod do analýzy rozptylu

Odhady parametrů základního souboru

Výpočet a interpretace ukazatelů asociace v epidemiologických studiích

t-rozdělení, jeho použití

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Regresní analýza a korelační analýza

64. Odhady úplných chyb a vah funkcí BrnoLenka Bocková.

Varianty výzkumu Kroky výzkumu Výběrový soubor

Obsah statistiky Jana Zvárová

Testování hypotéz vymezení důležitých pojmů

8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.

STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ

Pravděpodobnost a genetická prognóza

ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.

Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.

Lineární regrese.

Statistika 2. přednáška Ing. Marcela Čapková.

Základy statistické indukce Základní soubor, náhodný výběr Základní statistický soubor (stručněji základní soubor) je statistický soubor, z něhož pořizujeme.

Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.

Odhad metodou maximální věrohodnost

Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.

Experimentální fyzika I. 2

Základy zpracování geologických dat

K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.

Metrologie Přednáška č. 5 Nejistoty měření.

MATEMATICKÁ STATISTIKA

Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.

 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].

Základy pedagogické metodologie

Základy pedagogické metodologie

Metody sociálního výzkumu 5. blok Denní studium LS 2007/

Diagnostické metody ve speciální pedagogice - Experiment

Měřické chyby – nejistoty měření –. Zkoumané (měřené) předměty či jevy nazýváme objekty Na každém objektu je nutno definovat jeho znaky. Mnoho znaků má.

Inferenční statistika - úvod

Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.

Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.

Molekulová fyzika 2. Sada pomocných snímků „Teplota“

Odhady odhady bodové a intervalové odhady

Varianty výzkumu Kroky výzkumu Výběrový soubor

Některá rozdělení náhodných veličin

Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů

Definiční obor a obor hodnot

Základy statistické indukce

Induktivní statistika

Induktivní statistika

Přednáška č. 3 – Posouzení nahodilosti výběrového souboru

Induktivní statistika

- váhy jednotlivých studií

Induktivní statistika

Proč statistika ? Dva důvody Popis Inference

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Spojitá a kategoriální data Základní popisné statistiky

Úvod do statistického testování

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Sociologický výzkum II.

Provozováno Výzkumným ústavem pedagogickým v Praze.

Neparametrické testy pro porovnání polohy

Úvod do induktivní statistiky

příklad: hody hrací kostkou

Statistika a výpočetní technika

7. Kontingenční tabulky a χ2 test

Induktivní statistika

Výpočet a interpretace ukazatelů asociace v epidemiologických studiích

Základy statistiky.

Princip max. věrohodnosti - odhad parametrů

Transkript prezentace:

VÝBĚR A JEHO REPREZENTATIVNOST Induktivní, analytická statistika se snaží odhadnout charakteristiky populace pomocí „malého vzorku“, který se nazývá VÝBĚR neboli VÝBĚROVÝ SOUBOR. REPREZENTATIVNOST VÝBĚRU: vlastnosti VÝBĚRU by měly co nejlépe odpovídat vlastnostem celé populace. Základní populace je HOMOGENNÍ: rozdíly mezi sledovanými jedinci mohou být způsobeny pouze NÁHODOU. Základní populace není zcela HOMOGENNÍ: sledování výskytu klíšťové encefalitidy: v některých lokalitách je výskyt infikovaných klíšťat systematicky větší sledování krevního tlaku: závisí na věku osob sledování výšky dospělých osob: závisí na pohlaví

KDY VYTVÁŘÍME VÝBĚR U studie popisující populaci nás zajímá Experimentální studie U studie popisující populaci nás zajímá rozložení některé veličiny v populaci, např. její průměr (hladina cholesterolu) pravděpodobnost výskytu nějaké veličiny (např. onemocnění diabetem) skladba populace podle nějaké veličiny (např. podle věku) společné rozložení dvou veličin (např. porodní délky a hmotnosti) Důraz klademe na reprezentativnost výběru - aby složení výběru bylo z pohledu všech rušivých faktorů podobné základní populaci.

1. STUDIE POPISUJÍCÍ POPULACI Musíme mít jasně definovaný základní soubor (populaci), na který chceme zobecnit výsledky studie. Abychom mohli se souborem lépe pracovat, vytvoříme si jeho libovolný seznam - tzv. OPORU. Např. seznam osob z posledního sčítání lidu. Označíme nP rozsah základní populace a nV rozsah výběru (rozsah výběru se určí předem samostatným postupem). Rozlišujeme různé konstrukce výběru: NÁHODNÝ VÝBĚR SYSTEMATICKÝ VÝBĚR OBLASTNÍ VÝBĚR SKUPINOVÝ VÝBĚR VÍCESTUPŇOVÝ VÝBĚR

A. NÁHODNÝ VÝBĚR Nejjednodušší a optimální pro zajištění reprezentativnosti. Nedostatek: technicky velmi náročný. Z čísel 1, 2, …, nP OPORY vybereme náhodně jedno číslo. Osobu, která odpovídá tomuto číslu zařadíme do výběru. Další číslo vybíráme ze zbývajících hodnot OPORY. Pokračujeme v tomto výběru bez vracení dokud nemáme vybráno nV osob. V některých situacích můžeme použít i výběr s vracením. Pokud rozdíl v rozsahu populace a rozsahu výběrového souboru je extrémně velký, mezi výběrem bez vracení a výběrem s vracením není velký rozdíl, protože je malá pravděpodobnost, že některý prvek vybereme víckrát.

B. SYSTEMATICKÝ VÝBĚR Předpoklad: pořadí jednotek v OPOŘE musí být náhodné - nesmí souviset se sledovanou veličinou. Výhoda: technicky jednodušší. Příklad: vybíráme děti v jednom kraji/ okresu. Postup: Vezmeme abecední seznamy dětí u pediatrů, náhodně vybereme první dítě a pak každé další s krokem např. 10. Další seznam připojíme na konec prvního seznamu. Technicky jednodušší. Celkem vybereme opět nV osob.

C. KVÓTNÍ VÝBĚR U Kvótního výběru musíme stanovit rušivé faktory, např. stanovíme, že rušivým faktorem je pouze věk a pohlaví. Pak pro každou věkovou skupinu a pohlaví stanovíme počet reprezentantů ve výběru tak, aby to odpovídalo zkoumané populaci. Pak budeme náhodně vybírat do každé takto stanovené skupiny, dokud počty nenaplníme. Pokud neumíme stanovit rušivé faktory, můžeme místo toho použít nějaké přirozené dělení populace na menší celky (kraje, okresy, školy, třídy, …). Vytvoříme dílčí podsoubory podle oblastí a v nich náhodně vybereme počet osob úměrný velikosti dané oblasti. I při tomto způsobu výběru pracujeme s celou populací a každého jedince musíme vyhledávat individuálně - technicky stále náročné.

D. SKUPINOVÝ VÝBĚR Tento výběr umožňuje významné technické zjednodušení. Základní soubor rozdělíme opět na podsoubory (např. podle škol nebo tříd) a písmenem R označíme jejich počet. Zvolíme počet podsouborů, které náhodně vybereme do výběru a jejich počet označíme r. Výběr pak obsahuje všechny objekty zvolených podsouborů. Pro použití této metody je důležité velké množství podsouborů. Tato metoda se používá tehdy, když vyšetření více osob současně přináší relativně malý nárůst nákladů. Příklady přirozených skupin: rodiny třídy nebo školy, obyvatelé jednoho domu, pacienti jedné nemocnice

E. VÍCESTUPŇOVÝ VÝBĚR U větších studií se používají kombinace těchto metod. Výběr rozdělíme do více stupňů. Příklad: vytvoření reprezentativního výběru žáků Základní soubor rozdělíme na podsoubory podle škol Vybereme náhodně jistý počet škol s pravděpodobnostmi, které odpovídají počtu žáků v příslušné škole V každé vybrané škole vybereme náhodně např. polovinu žáků

2. EXPERIMENTÁLNÍ STUDIE Experimentální studie se používá při studiu vztahů různých veličin nebo posouzení nějaké expozice na objekty našeho zájmu, např.: rozdíl v množství protilátek u zdravých a nemocných rozdíl ve výšce postavy různého pohlaví vyvolá-li podání léku nějakou odpověď Soubory mohou reprezentovat i velmi úzce definovanou populaci. Výběr nemusí splňovat podmínku reprezentativnosti, někdy tuto podmínku dokonce záměrně porušujeme: v reálné populaci je výskyt jedinců s okrajovými hodnotami řídký, ale tady se při výběru dat budeme snažit, aby hodnoty měřené nezávislé proměnné pokrývaly rovnoměrně celou škálu možných hodnot Musíme dbát na to, aby studii neovlivnily rušivé faktory nejdůležitější z nich musí mít stejné zastoupení ve všech porovnávaných skupinách.

Rušivé faktory Vztahy různých charakteristik v biologii jsou velmi komplikované - hodnoty jsou ovlivněny mnoha faktory. Např. výška dítěte závisí nejen na věku, ale také na pohlaví, zdravotním stavu, životosprávě a genetických předpokladech. Většinou není možné všechny vlivy uvažovat. Snažíme se najít model co nejjednodušší, popisující studovanou skutečnost dostatečně přesně. Vybíráme veličiny nejvíce ovlivňující sledovanou charakteristiku: tyto faktory zahrnujeme do modelu a nazýváme je confounding (matoucí) a tím, že je měříme, máme možnost eliminovat jejich vliv Neznámé (nezjišťované) faktory zahrnujeme do náhodné chyby nazýváme je bias (vychýlení) a jejich vliv se snažíme eliminovat konstrukcí výběru tak, aby byly stejnoměrně rozděleny ve všech sledovaných souborech

Volba kontrolní skupiny U plánovaného experimentu většinou nepracujeme s rozsáhlými daty a neřešíme problém reprezentativnosti výběru. Obvykle proti skupině, na které zkoumáme působení nějaké expozice stavíme tzv. kontrolní skupinu, statistickými metodami porovnáváme rozdíly ve výsledcích obou skupin a chceme rozhodnout, zda tyto rozdíly jsou statisticky významné, tj. chceme prokázat účinek působení expozice. KONTROLNÍ SKUPINU můžeme vybírat z celé populace nebo pouze z osob, které do sledované skupiny nepatří. KONTROLNÍ SKUPINU musíme zvolit tak, abychom minimalizovali zkreslení výsledků vlivem dalších rušivých faktorů.

Volba kontrolní skupiny a rušivé faktory Kontrolní skupina musí odpovídat věkem, fyzickými předpoklady, pokud na nich záleží apod. Při výběru osob s prací v riziku a kontrolní skupiny z celé populace se můžeme dopustit chyby, pokud je pro danou profesi požadováno splnění kritérií, které neodpovídají běžné populaci. Pro všechny plány experimentu je nutné zajistit, aby rozdělení do skupin bylo náhodné. Při studiu účinků léků se můžeme dopustit chyby při volbě kontrolní skupiny neléčených osob se stejnou diagnózou placebo efekt - kladný vliv stresový efekt terapie - negativní vliv

Volba kontrolní skupiny a rušivé faktory Proto se používá tzv. slepý pokus, kdy pouze lékař ví, komu je podáváno placebo a komu lék. V případě, že lékař rozhoduje, komu podá lék a komu placebo, je velmi pravděpodobné, že jeho rozhodnutí nebude náhodné, ale na základě lékařské etiky se rozhodne např. podat lék těžším pacientům. V tomto případě by se použil tzv. dvojitě slepý pokus, kdy ani lékař neví, komu je podáván lék a komu placebo. Vliv rušivých faktorů můžeme omezit prostřednictvím párových testů (t-test nebo Wilcoxonův test pro spojitá data nebo McNemarův test pro alternativní veličiny). Princip je takový, že data získáme měřením na stejných objektech s opakováním po určitém časovém intervalu.