Testování statistických hypotéz Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“ Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“
Typické zdroje hypotéz 1) Požadavek na potřebnou kvalitu produktu 2) Hypotéza je založena na předchozí zkušenosti 3) Hypotéza vychází z teorie, kterou je třeba doložit 4) Hypotéza je pouhým dohadem, založeným na náhodném pozorování
Testování – postup Formulujeme testovanou (nulovou) a alternativní hypotézu Vybereme vhodný test (testové kritérium) Zvolíme hladinu významnosti α (obvykle 0,05 = 5%) Sestrojíme kritický obor W Vypočítáme hodnotu testovacího kritéria Učiníme závěr o prokázání či neprokázání alternativní hypotézy (zamítnutí či nezamítnutí nulové hypotézy)
Testování - pojmy Nulová / alternativní hypotéza Hladina významnosti Testovací kritérium Kritický obor (obor zamítnutí), kritická hodnota, obor přijetí Jednostranné testy – dvojstranné testy
Chyby při testování hypotéz Chyba 1. druhu: nulová hypotéza sice platí, ale my ji zamítáme. Ještě před provedením pokusu (před pořízením výběrového souboru) zvolíme hladinu testu, což je maximální přípustná pravděpodobnost chyby 1. druhu. Hladina testu se zpravidla značí symbolem a. K chybě 2. druhu dochází, když nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby 2. druhu do jedničky (1 – b) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpodobnost, s jakou neplatnost hypotézy objevíme. Síla testu závisí na zvolené testové metodě a zejména na tom, jaké je skutečné rozdělení dat (a tedy použité statistiky), například jaké jsou skutečné hodnoty parametrů.
Chyby při testování hypotéz Znázornění hladiny významnosti a a pravděpodobnosti chyby druhého druhu b Snižování a zvyšuje b (vše ostatní zůstává zachováno) Větší rozsah výběru nám umožňuje snížit pravděpodobnost chyby 2. druhu (b) bez zvýšení pravděpodobnosti chyby 1. druhu (a)
Chyba druhého typu Biolog, Statistik, Matematik a Informatik na safari Zastaví džíp a pozorují dalekohledem. Biolog "Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! " "Existují bílé zebry! Budeme slavní!" Statistik: "To není významné. Platí pouze, že hypotézu, že bílé zebry neexistují nemůžeme zamítnout!" Matematik: "Ve skutečnosti víme, že existuje zebra, která je na jedné straně bílá." Informatik: "Ale kdepak! To je výjimka!"
Kritický obor vs obor přijetí Jednostranný vs. dvoustranný test Kritický obor vs obor přijetí
Testy shody Parametrický test - Chí kvadrát test Provést: intervalové rozdělení četností Podmínky: - žádný interval s nulovou četností; maximálně 20% intervalů s četností menší než 5 Testovací kritérium: kde: Ai = pozorovaná četnost a Ei = očekávaná četnost. Pokud je hodnota testovacího kritéria vyšší, než příslušná kritická hodnota rozdělení chí-kvadrát pro ν = (r - 1) stupňů volnosti (kde r = počet intervalů), hypotézu o shodě dvou rozdělení zamítáme (na příslušné hladině významnosti)
Řešení chí-kvadrát testu pomocí Excelu Funkce CHITEST hodnotu rozdělení γ2 (hodnotu testovacího kritéria) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů γ2 můžete určit, zda experiment potvrzuje předpokládané výsledky. Syntaxe: CHITEST(aktuální;očekávané) Aktuální je oblast dat obsahující pozorování, která chcete testovat a srovnávat s předpokládanými hodnotami. Očekávané je oblast dat obsahující podíl součinu součtů řádků a sloupců a celkového součtu. Hodnotu vypočtenou funkcí CHITEST srovnáváme s kritickou hodnotou rozdělení γ2, vypočtenou funkcí CHIINV
Funkce CHIINV – kritické hodnoty rozdělení γ2 Funkce CHIINV vrátí hodnotu funkce inverzní k distribuční funkci jednostranné pravděpodobnosti rozdělení chí-kvadrát(γ2). Pokud je pravděpodobnost rovna hodnotě funkce CHIDIST(x,...), hodnota funkce CHIINV(pravděpodobnost,...) je rovna hodnotě x. Syntaxe: CHIINV(prst;volnost) Prst je pravděpodobnost rozdělení γ2. Volnost je počet stupňů volnosti. Výsledná hodnota je kritickou hodnotou pro příslušnou hladinu významnosti prst-
Funkce CHIDIST Vrátí jednostrannou pravděpodobnost rozdělení chí-kvadrát (γ2). Rozdělení γ2 je spojeno s testem γ2. Pomocí testu γ2 se porovnávají pozorované a očekávané hodnoty. U genetického experimentu můžete například předpokládat, že následující generace rostlin bude mít květy určitých barev. Porovnáním pozorovaných výsledků s očekávanými výsledky můžete rozhodnout, zda původní předpoklad platí. Syntaxe: CHIDIST(x;volnost) X je hodnota, pro kterou chcete zjistit pravděpodobnost rozdělení; volnost je počet stupňů volnosti.
Neparametrické testy shody Používají se, pokud jsou předpoklady normality dat evidentně nesplněné, např.: n v souboru je příliš mnoho stejných hodnot, nebo n některé hodnoty evidentně příliš odlehlé, nebo n rozdělení četností je sice souměrné, ale má tvar písmene "U". Pro data s normálním rozdělením četností dávají horší výsledky (zamítají nulové hypotézy méně často, než je zdrávo - mají menší sílu)
Kolgomorov-Smirnovův test shody pro jeden výběr Používá se v případech, kdy se nedoporučuje 2 test (při počtu tříd >2 nemá být více než 20% četností menších než 5 a žádná menší než 1, při k=2 nemá být žádná menší než 5). Testovací kritérium: kde Na,j = aktuální kumulativní četnost v j-tém řádku Ne,j = očekávaná kumulativní četnost v j-tém řádku
Kolgomorov-Smirnovův test shody pro jeden výběr a) zvolíme hladinu významnosti b) výsledky měření rozdělíme do zvolených skupin (tříd) c) stanovíme příslušné očekávané četnosti d) vypočítáme jednotlivé kumulativní četnosti aktuální (experimentální) a očekávané (teoretické) e) stanovíme absolutní hodnoty rozdílů kumulativních četností v každé skupině f) v tabulce vyhledáme příslušnou kritickou hodnotu D, g) je-li D1 D,, zamítáme H0 a tvrdíme, že experimentální a očekávané četnosti se statisticky významně liší
Kolmogorov-Smirnovův test shody pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Můžeme jej použít v těchto případech: a) malé výběry stejného rozsahu ne většího než 40 (n1 = n2 < 40) b) velké výběry (n1 i n2 > 40); nemusí mít stejný rozsah Testovacím kritériem je: kde F1,j, F2,j jsou relativní kumulativní četnosti souborů 1 a 2. Kritické hodnoty nejsou tabelovány, počítají se podle vzorců
t-test pro párované hodnoty (parametrický) Testovací kritérium: kde je absolutní hodnota průměrné diference párovaných hodnot a sd je směrodatná odchylka této diference. Počítá se jako normální směrodatná odchylka, tj.
Wilcoxonův test pro párované hodnoty Test pořadový - testovaná veličina T se vypočte jako součet rozdílů v pořadí párovaných hodnot (zvlášť kladné a zvlášť záporné, jako testovací kritérium se bere absolutní hodnota menšího z nich). Wilcoxonův test slouží k ověření, zda lze dva výběry považovat za výběry z jednoho základního souboru. Kritické hodnoty jsou tabelovány pro n < 25, pro n > 25 se vypočítávají podle vzorců:
TEST VÝZNAMNOSTI ROZDĹU DVOU ROZPTYLU (Fischerův test = F-test) Testovací kritérium volíme tak, aby F>1 Testovací kritérium F porovnáme s kritickou hodnotou rozdělení F, kterou zjistíme v Excelu pomocí funkce FINV. Sdružená funkce FTEST vrátí pravděpodobnost, že se rozptyly v argumentech pole1 a pole2 významně neliší. Tuto funkci lze použít pro rozhodnutí, zda dva výběry mají odlišný rozptyl. Pokud například porovnáváte výsledky testů ze dvou různých typů škol, můžete zjišťovat, zda mají tyto školy odlišný rozptyl výsledků. Syntaxe: FTEST(pole1;pole2). Pole1 je první matice nebo oblast dat; Pole2 je druhá matice nebo oblast dat.
TESTY VÝZNAMNOSTI ROZDÍLU DVOU PRŮMĚRŮ (Studentův test = t-test) Testovací kritérium t - pro s12 ~ s22: Testovací kritérium t - pro s12 s22: Počet stupňů volnosti: 1 = n1 - 1, 2 = n2 - 1
Test nezávislosti Pro posouzení významnosti těchto výběrových korelačních koeficientů se porovnává testovací kritérium: Toto kritérium má Studentovo rozdělení s ν = n - 2 stupni volnosti. Nulová hypotéza (H0): r = 0 (korelační koeficient je rovný nule). Vypočtenou hodnotu testovacího kriteria t porovnáme s tabelovanou kritickou hodnotou Studentova rozdělení (t-rozdělení). Vyhodnocení: Vyjde-li tvyp < tkrit , H0 přijímáme a můžeme vyslovit závěr, že proměnné X a Y na sobě nejsou závislé.