Testování hypotéz Jana Zvárová

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistické metody pro testování asociace genů a nemocí
Testování parametrických hypotéz
Testování neparametrických hypotéz
A5M33IZS – Informační a znalostní systémy Testování modelů.
Náhodné veličiny, náhodné chyby
Testování hypotéz.
Testování statistických hypotéz
Náhodné veličiny, náhodné chyby
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Cvičení 6 – 25. října 2010 Heteroskedasticita
Testování závislosti kvalitativních znaků
Regresní analýza a korelační analýza
Testování hypotéz přednáška.
Princip testování hypotéz, c2 testy.
Obsah statistiky Jana Zvárová
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Poskytuje daný generátor opravdu posloupnost náhodných čísel?
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Princip testování hypotéz, c2 testy.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Základy testování hypotéz
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
INDUKTIVNÍ STATISTIKA
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Test dobré shody Fisherův přesný test McNemar test
Základy statistické indukce
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Neparametrické testy parametrické a neparametrické testy
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Testování hypotéz Jana Zvárová

Testování hypotéz Testování hypotéz je statistickým nástrojem, pomocí něhož lze na základě naměřených dat objektivně ověřit pravdivost nebo nepravdivost nějakého tvrzení o populaci, z níž naměřená data (tj. výběr) pocházejí.

Krok 1: Formulace nulové a alternativní hypotézy - při sestavování nulové a alternativní hypotézy pro účely statistické analýzy vycházíme z medicínské hypotézy – tu vyslovuje lékař - statistik poté tuto medicínskou hypotézu převádí na dvě statistické hypotézy - nulovou a alternativní hypotézu

Nulová a alternativní hypotéza Nulová hypotéza (H0) Tvrzení o populaci, z níž pocházejí analyzovaná data. Alternativní hypotéza (H1) Situace, která nastane v případě neplatnosti nulové hypotézy. G Nulovou a alternativní hypotézu vyslovujeme před shromažďováním dat.

Obecný postup při testování hypotéz Formulujeme nulovou hypotézu H0 a alternativu H1. Zvolíme hladinu významnosti α. Získáme data. Vybereme vhodný statistický test. Spočteme hodnotu testové statistiky. Najdeme v tabulkách příslušnou kritickou hodnotu. Provedeme statistické rozhodování následujícím způsobem: Je-li hodnota testového kritéria větší než kritická hodnota, zamítneme nulovou hypotézu H0 ve prospěch alternativy H1 na hladině významnosti α.

Obecné schéma statistického rozhodování Skutečnost Rozhodnutí H platí neplatí zamítnout chyba 1. druhu α správně nezamítnout chyba 2. druhu β

Pravidla statistického rozhodování hladina testu α : pravděpodobnost chyby 1. druhu, tj. zamítnutí platné nulové hypotézy kritický obor : výsledky pokusu, při nichž se zamítá nulová hypotéza síla testu (1-β): pravděpodobnost zamítnutí nulové hypotézy, jestliže nulová hypotéza neplatí kritický obor i hladina testu se volí před pokusem, nezávisle na jeho výsledku

Dosažená hladina významnosti Alternativní postup při rozhodnutí o platnosti či neplatnosti hypotézy: Určíme pravděpodobnost p, s jakou bychom mohli obdržet pozorovaná data nebo data stejně nebo více odporující nulové hypotéze za předpokladu, že je nulová hypotéza pravdivá, tato hodnota se nazývá dosažená hladina významnosti. ! Čím menší p, tím méně důvěryhodné je H0. Pro účely statistické analýzy volíme hladinu významnosti a a zamítneme H0, je-li:

Chí-kvadrát testy

Chí-kvadrát test dobré shody H0: P(Ai) = pi, i=1,2,...k (Ai tvoří úplný systém vzájemně neslučitelných jevů) H1: Ostatní případy

Test hypotézy o symetrii hrací kostky H0: P(Ai) = 1/6, i=1,2,...6 (Ai je náhodný jev, ze na hrací kostce padne číslo i) H1: Ostatní případy Zvolíme hladinu významnosti α=5%

Test hypotézy o symetrii hrací kostky Provedeme náhodný výběr o rozsahu n=60 : pozorované četnosti očekáváné četnosti 12 10 8 10 7 10 13 10 9 10 11 10

Test hypotézy o symetrii hrací kostky (pozorovaná četnost – očekávaná četnost)2 c2 = S ~c2 (df) očekávaná četnost Kritická hodnota pro 5 stupňů volnosti 11,07 Nezjistili jsme, že by kostka byla asymetrická na 5% hladině.

Čtyřpolní tabulka ... pozorované (absolutní) četnosti v jednotlivých skupinách

H0: PAP nesouvisí s výskytem HLA-DR4 Příklad Chceme ověřit, zda progresivní polyartritida (PAP) souvisí s výskytem antigenu HLA-DR4. Domníváme se, že ano (to je naše medicínská hypotéza). Sestavíme tedy nulovou a alternativní hypotézu (nezapomeňte, že nulovou hypotézu volíme opačně, než je dokazované tvrzení). Tedy: H0: PAP nesouvisí s výskytem HLA-DR4 H1: PAP souvisí s výskytem HLA-DR4

Krok 2: Volba hladiny významnosti - hladina významnosti souvisí s chybou I. druhu, které se při rozhodnutí můžeme dopustit (vyjadřuje pravděpodobnost, že zamítneme nulovou hypotézu, která je ve skutečnosti správná). - hladina významnosti (α) je předepsaná hodnota, kterou pravděpodobnost chyby I. druhu nesmí překročit Obvykle α = 0,05 (zamítáme na 5% hladině - významný výsledek, *), nebo α = 0,01 (zamítáme na hladině 1% - velmi významný výsledek, **), nebo α = 0,001 (zamítáme na hladině 0,1% - velmi vysoce významný výsledek, ***).

Krok 3: Sběr dat - tato fáze je velmi důležitá a měla by být konzultována se statistikem - sebraný vzorek dat musí být objektivní, reprezentativní a dostatečně velký Příklad - pokračování: Nasbíraná data – pozorované četnosti ve čtyřpolní tabulce

Krok 4: Volba vhodného testu Rozhodnutí o platnosti nebo neplatnosti hypotézy činíme na základě vhodného statistického testu. Každý statistický test je charakterizován testovou statistikou - funkcí, která ze sesbíraných dat "vytvoří" jediné číslo. Příklad:

Krok 5: Výpočet hodnoty testové statistiky Sesbíraná data je třeba zpracovat a dosadit do předpisu testové statistiky.

Výpočet očekávaných hodnot: Příklad – pokračování: Výpočet očekávaných hodnot: Výskyt antigenu je rozdělen v poměru 96 : 308 v celém souboru. V případě platnosti hypotézy nezávislosti obou znaků očekáváme, že ve stejném poměru bude rozdělen i výskyt antigenu u osob s PAP a bez PAP. Tedy pro osoby s PAP, u kterých je současně antigen přítomen, tedy políčko (1,1): Očekávaný počet = 96/308 . 74 = 23

Naměřené a očekávané hodnoty Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem 46 28 74 23 51 50 184 234 73 161 96 212 308 Bíle jsou vyznačeny četnosti očekávané v případě, že platí hypotéza nezávislosti. Po dosazení:

? Krok 5: Určení kritické hodnoty Jak tuto hodnotu určit? Po dosazení zjištěných hodnot do testové statistiky zamítáme hypotézu, pokud výsledná hodnota přesáhne jistou mez, nazývanou kritická hodnota. ? Jak tuto hodnotu určit? Kritickou hodnotou testu je takové číslo, které testová statistika T překročí v případě, že nulová hypotéza je pravdivá, s pravděpodobností nejvýše a. Kritické hodnoty jsou tabelovány.

Příklad (dokončení) Testová statistika: Testová statistika: Rozhodnutí: H0 zamítáme na 5% hladině významnosti Zjistili jsme významnou souvislost mezi výskytem antigenu HLA-DR4 a PAP na 5% hladině významnosti.

Statistická a klinická významnost Statistická významnost Je-li statistický test zamítnut (významný) na předepsané hladině α (hladina významnosti). Klinická významnost Je-li efekt významný z hlediska klinické praxe (např. překročení prahové hodnoty). Pojmy statistické a klinické významnosti bývají často ztotožňovány. Toto ztotožnění je však třeba provádět opatrně, neboť bývá nepřesné. G

Kontingenční tabulky

Kontingenční tabulky - kontingenční tabulky slouží ke studování vztahů mezi dvěma znaky Kontingenční tabulka r x s: Znak 2 Znak 1 Kategorie 1 ... Kategorie s n 11 1 · r rs - kontingenční tabulka typu 2x2 se nazývá čtyřpolní tabulka

Test hypotézy o shodnosti struktur - test shodnosti pravděpodobnostní struktury nějakého znaku za různých podmínek Příklad: H0: Věková struktura pacientů ve dvou nemocnicích je stejná H1: Věková struktura pacientů se liší

Příklad Studie percentuálních zastoupení krevních skupin ve třech krajích severního Skotska. Je ve všech krajích stejné percentuelní zastoupení krevních skupin?

Testová statistika: Testové kriterium: Rozhodnutí: Příklad - pokračování: H0: Pravděpodobnosti skupin jsou v jednotlivých krajích stejné. H1: Pravděpodobnosti skupin se v jednotlivých krajích liší. Testová statistika: Testové kriterium: Rozhodnutí: Závěr: Nezjistili jsme rozdíl v pravděpodobnostech skupin na 5% hladině významnosti.

Test hypotézy o nezávislosti Hypotéza: H0: sledované znaky jsou nezávislé H1: sledované znaky jsou závislé Testová statistika:

Test hypotézy o symetrii V tabulce typu c x c Hypotéza: H0: pij=pji pro všechny dvojice i, j H1: Ostatní případy Testová statistika: Testové kritérium:

Test hypotézy o symetrii Př.: Sledujeme barvu očí otce a syna. Je pravděpodobnost, že otec má barvu i a syn barvu j, stejná jako pravděpodobnost, že otec má barvu j a syn barvu i ?

Test hypotézy o symetrii - řešení Hypotéza: H0: pravděpodobnosti jsou stejné H1: pravděpodobnosti nejsou stejné Řešení: H0 tedy zamítáme na hladině 5%.

Test symetrie pro čtyřpolní tabulku Mc Nemarův test Test symetrie pro čtyřpolní tabulku Příklad: Máme náhodný výběr 18 pacientů, kteří byli léčeni dvěma různými antihypertenzívy A a B. Každý pacient dostával po dobu 1 měsíce lék A a po odeznění jeho případných účinků dostával po dobu 1 měsíce lék B.

Mc Nemarův test

Mc Nemarův test H0: Procenta úspěšnosti jsou u obou léků shodná H1: Procenta úspěšnosti se u obou léků liší Zvolme 5% hladinu významnosti. Testová statistika je = (b-c)2/(b+c) Kritickou hodnotu hledáme pro 1 stupeň volnosti.

Mc Nemarův test = (b-c)2/(b+c)= (3-9)2/(3+9)= 36/12=3. = 3,84. Neprokázali jsme tedy významný rozdíl mezi léky na 5% hladině.

Kritické hodnoty 2 rozdělení Df a 0,05 0,01 0,001 16 26,3 32,00 3,26 17 27,59 33,41 40,80 18 28,87 34,81 42,32 19 30,15 36,20 43,83 20 31,41 37,57 45,33 25 37,66 44,32 52,64 30 43,77 50,89 59,72 35 49,81 57,36 66,64 40 55,76 63,69 73,43 50 67,50 76,15 86,69 60 79,10 88,41 99,65 70 90,55 100,46 112,37 80 101,90 124,90 90 113,17 124,16 137,28 100 124,38 135,86 149,53 1 3,84 6,63 10,82 2 5,99 9,21 13,82 3 7,81 11,34 16,26 4 9,49 13,28 18,47 5 11,0 7 15,9 20,52 6 12,59 16,81 22,46 14,07 18,48 24,33 8 15,51 20,09 26,13 9 16,92 21,67 27,88 10 18,31 23,21 29,59 11 19,68 24,72 31,27 12 21,03 26,22 32,92 13 22,36 27,69 34,54 14 23,68 29,14 36,13 15 25,00 30,58 37,71

Hustota rozdělení 2