POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní obrázek. Martina Litschmannová ÚVOD DO TESTOVÁNÍ HYPOTÉZ
Obsah lekce Princip testování hypotéz Co je to testování hypotéz? Základní pojmy (statistická hypotéza, test) Princip testování hypotéz Základní typy stypotéz, základní typy testů Jaké přístupy k testování hypotéz lze použít? Jakých chyb se při testování hypotéz můžeme dopustit? Co je to p-hodnota? Pár poznámek pro praxi Vybrané testy jednovýběrových a dvouvýběrových hypotéz Testy o střední hodnotě, resp. testy o mediánu Testy o parametru binomického rozdělení Testy o shodě rozptylů Testy o shodě středních hodnot Testy o homogenitě binomických rozdělení
Základní metody statistické indukce Intervalové odhady (angl. confidence interval) – umožňují odhadnout nejistotu v odhadu parametru náhodné veličiny Testování hypotéz (angl. hypothesis testing) - umožňuje posoudit, zda experimentálně získaná data nepopírají předpoklad, který jsme před provedením testování učinili. zdroj: Používáme, chceme-li ověřit platnost předem definované hypotézy (s předem danou hladinou významností). Používáme, chceme-li určit velikost parametru NV, resp. velikost efektu (rozdílu, resp. poměru parametrů dvou NV).
Co je to statistická hypotéza? Statistická hypotéza – předpoklad (tvrzení) o rozdělení náhodné veličiny (o populaci) Příklady statistických hypotéz: Průměrné krevní ztráty pac. po primární TEP kyčle a kolena jsou nižší než 250 ml. Mortalita je u laparoskopických operací nižší než u operací konvenčních. Průměrné výsledky srovnávacích testů závisí na typu absolvované střední školy. Pořízený datový soubor je výběrem z populace mající normální rozdělení. Poznámka: Rozdíl (resp. poměr) parametru náhodné veličiny a jeho očekávané hodnoty, popřípadě rozdíl (resp. poměr) parametrů náhodných veličin nazýváme efekt.
Co je to statistická hypotéza? Statistická hypotéza – předpoklad (tvrzení) o rozdělení náhodné veličiny (o populaci) Co je zdrojem statistických hypotéz? předchozí zkušenosti, teorie, kterou je třeba doložit, dohady založené na náhodném pozorování…
Jaké typy statistických hypotéz rozlišujeme? Parametrická statistická hypotéza – tvrzení ohledně efektu Hypotézy o parametru jedné populace (o střední hodnotě, rozptylu, mediánu, parametru binomického rozdělení, …) Hypotézy o shodě parametrů dvou populací (srovnávací testy) Hypotézy o shodě parametrů více než dvou populací (ANOVA, Kruskalův-Wallisův test, …) Neparametrická statistická hypotéza – hypotéza o jiné vlastnosti rozdělení náhodné veličiny než o jejím parametru (např. hypotézy o typu rozdělení NV, hypotézy o závislosti NV, …)
Jak ověřit, zda je statistická hypotéza pravdivá?
Pravdivost nulové hypotézy nelze na základě dat dokázat!!! Pravdivost nulové hypotézy lze na základě dat pouze vyvrátit. Nulová hypotéza (obžalovaný je nevinen) Data (výběrový soubor) (svědci) Testové kritérium (soudce) Princip presumpce neviny Neodsoudí-li soudce obžalovaného, nemusí to znamenat, že je obžalovaný nevinný. Může to znamenat, že neexistuje dostatek důkazů pro jeho odsouzení! Alternativní hypotéza (obžalovaný je vinen)
Co je to testování hypotéz? Egon Sharpe Pearson ( ) zdroj: Jerzy Neymann ( ) zdroj:
Terminologie v praxi (I)
Terminologie v praxi (II)
Jak postupovat při testování hypotéz? (klasický přístup)
V literatuře je uváděno, že průměrná doba přežití pacientů po jistém zákroku je dní a směrodatná odchylka 300 dní. V souboru 100 pacientů nemocnice USPECH byla pozorována průměrná doba přežití 1265 dní, Jde o statisticky významně lepší výsledek, nejde pouze o náhodný rozdíl? testová statistika nulové rozdělení Toto platí pouze v případě, že X je náhodný výběr z populace mající normální rozdělení!!! předpoklady testu
Řešení: 4.Pro určení kritického oboru je nutné předem si stanovit, jak „nepravděpodobné“ hodnoty testové statistiky již budeme považovat za „velmi nepravděpodobné“. z 0,95 =1,64 T(X), jestliže platí H 0 α– hladina významnosti testu W*W* 0 Zamítáme H 0 Nezamítáme H 0 V literatuře je uváděno, že průměrná doba přežití pacientů po jistém zákroku je dní a směrodatná odchylka 300 dní. V souboru 100 pacientů nemocnice USPECH byla pozorována průměrná doba přežití 1265 dní, Jde o statisticky významně lepší výsledek, nejde pouze o náhodný rozdíl?
Kritický obor pro oboustranný a levostranný test (Zdroj: Pavlík, T., Dušek, L. (2012), Biostatistika)Biostatistika
Praktická významnost vs. statistická významnost Testování statistických hypotéz provádíme kvůli možnosti zobecnění z náhodného výběru na celou populaci. Statistická významnost (zamítnutí nulové hypotézy) indikuje, že pozorovaný efekt není ve smyslu stanovené hypotézy náhodný. Pro stanovení, toho, zda je dosažený efekt zároveň i prakticky (věcně) významný, neexistuje žádné univerzální pravidlo, neboť vše závisí na konkrétní situaci, měřené veličině a cílech výzkumu. Stejná číselná hodnota pozorovaného efektu (effect size) může být v jedné situaci považována za praktický významný efekt a v jiném kontextu lze dojít k závěru, že efekt prakticky významný není. Rozhodnutí o praktické významnosti musí provádět člověk znalý věci, který čerpá ze znalosti problému nebo z informací dostupných v literatuře.
Praktická významnost vs. statistická významnost Srovnání statistické a praktické významnosti výsledků experimentů (Zdroj: Pavlík, T., Dušek, L. (2012), Biostatistika)Biostatistika
Chyba I. a II. druhu Při testování hypotéz mohou nastat čtyři situace: Jelikož výběr, na jehož základě rozhodujeme, je náhodný, nelze se chybám I. a II. druhu vyhnout. Chtěli bychom mít k dispozici testy s nízkou hladinou významnosti a vysokou sílou testu. Rozhodnutí Nezamítáme H 0 Zamítáme H 0 Skutečnos t Platí H 0 Správné rozhodnutí Pravděpodobnost: 1 - α Chyba I. druhu Pravděpodobnost: α Platí H A Chyba II. druhu Pravděpodobnost: β Správné rozhodnutí Pravděpodobnost: 1 - β hladina významnosti testu síla testu
Chyba I. a II. druhu
p-hodnota Nevýhodou klasického testu je skutečnost, že při pohledu na výsledek testu (vztah pozorované a kritické hodnoty) nevidíme přímo, jak rozhodnutí závisí na změně hladiny významnosti. Závěr: V současnosti preferujeme rozhodování o výsledku testu na základě p-hodnoty, přičemž p-hodnota je nejnižší hladina významnosti, na níž můžeme nulovou hypotézu zamítnout. Jinými slovy: p-hodnota je pravděpodobnost, že v případě platnosti nulové hypotézy získáme z jiné realizace výběrového šetření data, která proti nulové hypotéze svědčí stejně nebo ještě silněji než data z dané realizace výběrového šetření. Je zřejmé, že nízká p-hodnota vypovídá v neprospěch nulové hypotézy.
Čistý test významnosti aneb testování pomocí p-hodnoty Rozhodnutí Zamítáme H 0 ve prospěch H A. Nezamítáme H 0.
„p-value is low, null hypothesis must go!“ Keith M. Bower
Několik poznámek pro praxi Pozor na pečlivé plánování experimentu! (Nutno zajistit nezávislost pokusů, eliminaci vlivů nežádoucích faktorů, dostatečný rozsah výběru (výsledky testu nelze upravovat tím, že dodatečně rozšíříme výběrový soubor), …) Příklad: Včely jsou postupně vypouštěny do pokusného prostoru se žlutými, červenými a modrými terči. Sledujeme barvu terče, na který každá včela poprvé usedne. Nulová hypotéza je, že pravděpodobnost usednutí nezávisí na barvě terče (tímto způsobem zjišujeme, zda se včely vizuálně orientují a zda při této orientaci hrají nějakou úlohu barvy). (Lepš, Kapitola 2 – testování hypotéz, test dobré shody, online: [ ]) Co všechno je třeba při pokusu zajistit? vypouštění včel po jednotlivcích, včely nesmí zanechávat stopy o své návštěvě terče (není-li splněno, nutná výměna terčů po každém pokusu), předem daný počet pokusů.
Několik poznámek pro praxi
Jednovýběrové parametrické testy Název testu Testovaný parametr Předpoklady testu Nulové rozdělení Test o rozptylu rozptyl σ 2 (směrodatná odchylka σ) Jednovýběrový z test střední hodnota μ Jednovýběrový t test
Jednovýběrové neparametrické testy Název testuTestovaný parametrPředpoklady testuNulové rozdělení Kvantilový test Jednovýběrový Wilcoxonův test Kritické hodnoty jsou tabelovány (Tab. T6)
Dvouvýběrové parametrické testy pro nezávislé výběry Název testu Testované parametry Předpoklady testuNulové rozdělení test o shodě rozptylů dvouvýběrový z test dvouvýběrový t test Aspinové – Welchův test
Dvouvýběrové neparametrické testy pro nezávislé výběry Název testu Testovaný parametr Předpoklady testuTestová statistika Nulové rozdělení Mannův-Whitneyův test nezávislé výběry ze spojitých rozdělení se stejným rozptylem a tvarem. Kritické hodnoty rozdělení jsou uvedeny v tabulce Test homogenity dvou binomických rozdělení
Literatura Litschmannová, M. (2012), Úvod do statistiky, elektronická skripta a doplňkové interaktivní materiály (kapitoly Testování hypotéz – princip, Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz)Úvod do statistiky Zvárová, J. (1999), Základy statistiky pro biomedicínské obory, dostupné on-line: (kapitoly 7, 8, 9) Pavlík, T., Dušek, L. (2012), Biostatistika, Akademické nakladatelství CERM, ISBN (kapitola 6, 7)Biostatistika
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní obrázek. DĚKUJI ZA POZORNOST!