Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Neparametrické testy

3 Neparametrické testy Testování existence odlehlých pozorování
Testy shody Testy střední hodnoty

4 Odlehlá pozorování Grafická analýza Grubbsův test
Deanův a Dixonův Q-test

5 Odlehlá pozorování V datech se mohou objevit odlehlé, vybočující hodnoty (outlier), tj. hodnoty nepatřící mezi ostatní. Tyto hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat, ale i při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele, useknuté průměry.

6 Odlehlá pozorování Nalezení odlehlých hodnot je možné například pomocí grafů. Jde však o subjektivní metody! Vhodný je histogram nebo krabicový diagram (Box-and-Whisker Plot).

7 Odlehlá pozorování Informace o homogenitě souboru poskytuje také variační koeficient (Coefficient of Variation). Je-li v > 50 % znamená to silně nesourodý soubor. Neboli soubor není homogenní a může obsahovat jedno nebo více odlehlých pozorování.

8 Odlehlá pozorování Grubbsův test
Grubbsův test je exaktní metodou pro zjištění odlehlých pozorování. Nulová hypotéza: hodnota x(i) není odlehlá Alternativní hypotéza: hodnota x(i) je odlehlá Testové kritérium: , kde x(i) je testovaná hodnota, s je populační směrodatná odchylka souboru a aritmetický průměr souboru. Online kalkulátory:

9 Odlehlá pozorování Grubbsův test
Grubbsův test Kritický obor: W={T; T ≥ T(n;α)} Grubbsova statistika T nemá standardní rozdělení, proto je nutno hledat v tabulce. ulky.xls n kritické hodnoty T 3 1,412 12 2,387 4 1,689 13 2,426 5 1,869 14 2,461 6 1,996 15 2,493 7 2,093 16 2,523 8 2,172 17 2,551 9 2,237 18 2,557 10 2,294 19 2,600 11 2,343 20 2,623 Kritické hodnoty Grubbsova T-rozdělení (α = 0,05)

10 Odlehlá pozorování Grubbsův test
? Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Nejvyšší hodnota souboru je 36 a je podezřelá, že jde o odlehlé pozorování. Grubbsův test H0: hodnota 36 není odlehlá HA: hodnota 36 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria je vyšší než hranice kritického oboru. Zamítáme tedy H0. Hodnota 36 je skutečně odlehlým pozorováním.

11 Odlehlá pozorování Grubbsův test
? Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Druhá nejvyšší hodnota souboru je 7,37. Jde také o odlehlé pozorování? Grubbsův test H0: hodnota 7,37 není odlehlá HA: hodnota 7,37 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Hodnota 7,37 již není odlehlým pozorováním.

12 Odlehlá pozorování Dean-Dixonův Q-test
Dean-Dixonův Q-test je vhodný pro soubory malého rozsahu (do 10 prvků). Nulová hypotéza: hodnota x(n) není odlehlá Alternativní hypotéza: hodnota x(n) je odlehlá Testové kritérium: kde x(n) je testovaná , hodnota, x(n-1) je sousední hodnota a R je variační rozpětí (xmax - xmin).

13 Odlehlá pozorování Dean-Dixonův Q-test
Kritický obor: W={Q; Q ≥ Q(n;α)} Q statistika nemá standardní rozdělení, proto je nutno hledat v tabulce. n Q kritické 3 0,941 4 0,765 5 0,642 6 0,56 7 0,507 8 0,468 9 0,437 10 0,412 Kritické hodnoty Dean-Dixonova Q rozdělení (α = 0,05)

14 Odlehlá pozorování Dean-Dixonův Q-test
Příklad: Statistický soubor obsahuje 10 pozorování. H0: hodnota 8,95 není odlehlá HA: hodnota 8,95 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Hodnota 8,95 není odlehlým pozorováním. 2,82 3,72 3,91 4,70 4,77 5,24 6,20 6,28 6,73 8,95

15 Odlehlá pozorování Dean-Dixonův Q-test
Příklad: Statistický soubor obsahuje 10 pozorování. H0: hodnota 2,82 není odlehlá HA: hodnota 2,82 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Ani hodnota 2,82 není odlehlým pozorováním. 2,82 3,72 3,91 4,70 4,77 5,24 6,20 6,28 6,73 8,95

16 Testy shody Grafická analýza Kolmogorov-Smirnovův test
Chi-kvadrát test

17 Testy shody Testy shody mají široké využití. Pomáhají zjistit, zda výběr pochází z určitého hypotetického rozdělení. Nejčastěji se setkáváme s rozdělením normálním N(μ;σ2), ale lze testovat jakékoliv jiné rozdělení. Ať již diskrétní (Binomické, Poissonovo) nebo spojitá (Studentovo t rozdělení, F-rozdělení apod.)

18 Testy shody Oblasti využití testů shody:
Testování statistických hypotéz (viz. přednáška 5). Podmínkou testů o průměru (t-test) a rozptylu (F-test) je, že výběr pochází z normálního rozdělení.. Tato podmínka musela být splněna, pokud byl rozsah výběru menší než 30. Analýza rozptylu (viz. přednáška 6). Důležitou podmínkou použití analýzy rozptylu je, že všechny výběry pocházejí z normálního rozdělení. Regresní analýza (viz. přednáška 8). Jednou z podmínek vhodného modelu je, že rezidua mají normální rozdělení.

19 Testy shody Grafická analýza – Histogram Opět lze použít histogram k posouzení rozdělení souboru. Subjektivní metoda! Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd). Sleduje se tvar histogramu a porovnává s pravděpodobnostní nebo hustotní funkcí teoretického rozdělení.

20 Testy shody Grafická analýza – Histogram Grafy pravděpodobnostních nebo hustotních funkcí vybraných teoretických rozdělení jsou uvedeny v přednášce číslo 3. Největší význam v praxi má normální rozdělení. Histogram relativní četnosti a křivka hustoty pravděpodobnosti normálního rozdělení. Pokud má histogram podobný průběh jako hustotní funkce, je možné považovat rozdělení za shodná.

21 Testy shody Grafická analýza – Histogram Histogram absolutní četnosti.
V tomto případě se určitě nejedná o normální rozdělení. Histogram není souměrný. Jde o rozdělení zešikmené.

22 Testy shody Grafická analýza – Kvantilový graf Užitečným nástrojem je i kvantilový graf. Jedná se o bodový graf, mající na ose y kvantily teoretického rozdělení a na ose x kvantily posuzovaného souboru. Pokud se body pohybují po úhlopříčce grafu, je rozdělení souboru stejné jako rozdělní teoretické. Pokud se body odchylují, jde o rozdělení jiné.

23 Testy shody Kvantilový graf
Pokud by všechny body ležely na úhlopříčce, pak by se jednalo o totožná rozdělení. V tomto případě se zdá, že by soubor mohl pocházet z normálního rozdělení (i podle histogramu).

24 Testy shody Kvantilový graf
V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Vpravo nahoře uvedený histogram ukazuje, že jde o zešikmené rozdělení.

25 Testy shody Kvantilový graf – konstrukce grafu v MS Excel Pro konstrukci grafu je postačující vypočítat kvantily v rozmezí 5 % až 95 % po 5 % (x0,05, x0,1, x0,15, ... , x0,95) Lze počítat i detailněji, třeba percentily (po 1 %). Kvantily souboru se počítají funkcí = PERCENTIL (oblast, kvantil – p)

26 Testy shody Kvantilový graf – konstrukce grafu v MS Excel Kvantily hypotetického rozdělení podle odpovídající funkce rozdělení např. pro normální rozdělení: = NORMINV (kvantil - p; střední hodnota hypotetického rozdělení - μ; směrodatná odchylka hypotetického rozdělení – σ)

27 Testy shody Kvantilový graf – konstrukce grafu v MS Excel Samotný graf je bodový graf mající na ose y kvantily hypotetického rozdělení a na ose x kvantily posuzovaného souboru.

28 Testy shody Kvantil Kvantily souboru Teoretické rozdělení 0,05 12 -155,412 0,1 22 -73,3667 0,15 30 -18,011 0,2 41 25,98394 0,25 55 63,72771 0,3 63 97,62278 0,35 79,8 129,0316 0,4 93 158,8355 0,45 114 187,6711 0,5 131 216,0496 0,55 153 244,428 0,6 181 273,2637 0,65 205 303,0676 0,7 236 334,4764 0,75 280 368,3715 0,8 353 406,1152 0,85 478,6 450,1102 0,9 620 505,4659 0,95 730,2 587,5114 Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení? Kvantilový graf Aritmetický průměr souboru je 216,05. Výběrová směrodatná odchylka 225,83. Pomocí grafu se pokusíme zjistit, zda výběr pochází z normálního rozdělení N(216,05; 225,832). Parametry základního souboru tedy odhadujeme pomocí výběrových charakteristik.

29 Testy shody Kvantil Kvantily souboru Teoretické rozdělení 0,05 12 -155,412 0,1 22 -73,3667 0,15 30 -18,011 0,2 41 25,98394 0,25 55 63,72771 0,3 63 97,62278 0,35 79,8 129,0316 0,4 93 158,8355 0,45 114 187,6711 0,5 131 216,0496 0,55 153 244,428 0,6 181 273,2637 0,65 205 303,0676 0,7 236 334,4764 0,75 280 368,3715 0,8 353 406,1152 0,85 478,6 450,1102 0,9 620 505,4659 0,95 730,2 587,5114 Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,8322)? = PERCENTIL (oblast dat; kvantil – p) = PERCENTIL (oblast dat; 0,1) = PERCENTIL (oblast dat; 0,6)

30 Testy shody Kvantil Kvantily souboru Teoretické rozdělení 0,05 12 -155,412 0,1 22 -73,3667 0,15 30 -18,011 0,2 41 25,98394 0,25 55 63,72771 0,3 63 97,62278 0,35 79,8 129,0316 0,4 93 158,8355 0,45 114 187,6711 0,5 131 216,0496 0,55 153 244,428 0,6 181 273,2637 0,65 205 303,0676 0,7 236 334,4764 0,75 280 368,3715 0,8 353 406,1152 0,85 478,6 450,1102 0,9 620 505,4659 0,95 730,2 587,5114 Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,8322)? = NORMINV (kvantil - p; μ; σ) = NORMINV (0,1; 216,05; 225,832) = NORMINV(0,6; 216,05; 225,832)

31 Testy shody Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,832)? V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Body neleží na úhlopříčce!

32 Testy shody Chi-kvadrát test dobré shody
Chi-kvadrát test dobré shody je stejný jako u kontingenčních tabulek (viz. přednáška 6) Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení Data je nutno roztřídit do tabulky četností, počet tříd se určuje pomocí Sturgessova pravidla. Test je vhodný pro soubory s n > 50.

33 Testy shody Chi-kvadrát test dobré shody
Nutnou podmínkou testu je, že hypotetické četnosti jsou větší než 5. Pokud to tak není, je nutno spojit třídu s třídou sousední. Test posuzuje skutečné četnosti výběru ni s hypotetickými četnostmi npi stanovenými rozdělením. Testové kritérium: Kritický obor: , kde k je počet tříd a r je počet parametrů hypotetického rozdělní.

34 Testy shody Chi-kvadrát test dobré shody
Nevýhody testu: Je vhodný jen pro velké rozsahy testovaného souboru (n > 50). Je závislý na tabulce četnosti, pro dvě různé tabulky četností vyjde testové kritérium různě! Nutnost slučovat třídy pokud nejsou dostatečně obsazeny.

35 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení? Aritmetický průměr souboru je 4,89. Výběrová směrodatná odchylka souboru je 1,16. Výběrové charakteristiky použijeme jako parametry hypotetického rozdělení. Provedeme tedy test, zda soubor má normální rozdělení N(4,89; 1,162).

36 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Třídy Četnost ni Teoretická pravď. pi - 3> 2 0,051235 (3 - 4> 8 0,168792 (4 - 5> 22 0,315347 (5 - 6> 0,293487 (6 - 7> 0,136034 (7 - 0,035104 p1 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do hodnoty 3). Neboli P(x ≤ 3) = F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (3;4,89;1,16;1) = 0,051235

37 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Třídy Četnost ni Teoretická pravď. pi - 3> 2 0,051235 (3 - 4> 8 0,168792 (4 - 5> 22 0,315347 (5 - 6> 0,293487 (6 - 7> 0,136034 (7 - 0,035104 p2 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (3 až 4). Neboli P(3 < x ≤ 4) = = F(4) – F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) - NORMDIST(dolní mez intervalu; μ; σ; 1) = = 0,22 - 0,051 = 0,169

38 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Třídy ni Teoretická pravď. pi Hypotetická četnost npi - 3> 2 0, 2, (3 - 4> 8 0, 8, (4 - 5> 22 0, 15, (5 - 6> 0, 14, (6 - 7> 0, 6, (7 - 0, 1, np2 je součin celkového počtu pozorování (n = 50) a hypotetické pravděpodobnosti pi. Neboli 50·0,169 = 8,439 Hypoteticky by četnost měla být 8,439 (skutečná je 8). Nutnou podmínkou testu je, že hypotetické četnosti npi jsou větší než 5. První a poslední třídu je tedy nutno sloučit!

39 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Třídy ni pi Hypotetická četnost npi (2 - 4> 10 0, 11, (4 - 5> 22 0, 15, (5 - 6> 8 0, 14, (6 - 8> 0, 8, Podmínka testu, že hypotetické četnosti npi jsou větší než 5, je nyní splněna.

40 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Třídy ni pi Hypotetická četnost npi (2 - 4> 10 0, 11, 0, (4 - 5> 22 0, 15, 2, (5 - 6> 8 0, 14, 3, (6 - 8> 0, 8, 0, Celkem 5,833 Provedeme pomocný výpočet. Testové kritérium:

41 Testy shody Chi-kvadrát test dobré shody
Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Testové kritérium: Kritický obor: Protože hodnota testového kritéria náleží do kritického oboru, zamítáme H0. Sledovaný soubor nepochází z normálního rozdělení.

42 Testy shody Kolmogorov-Smirnovův test
Kolmogorov-Smirnovův test je dalším testem shody. Je vhodný pro malé rozsahy souborů (n< 50). Lze jej použít i pro velké soubory. Je silnější než Chí-kvadrát test (dává přesnější výsledky). Nemá omezující podmínky. Vychází přímo z původních dat, nikoliv z údajů setříděných do tříd. Nedochází ke ztrátě informací. Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení

43 Testy shody Kolmogorov-Smirnovův test
Hodnoty souboru se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(x(i)) založená na hypotetickém rozdělení. Při testu normality jde o normální rozdělení N(µ;σ2). Testové kritérium: je maximum z hodnot vypočtených pro všechna pozorování x(i).

44 Testy shody Kolmogorov-Smirnovův test
Kritický obor: W={D; D ≥ d(n;α)} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce ( Pro n >50 pak d(n; 0,05) ≈ 1,36 / n1/2

45 Testy shody Kolmogorov-Smirnovův test
Příklad: Statistický soubor obsahuje 12 pozorování. Jedná se informace o spotřebě benzínu určitého typu automobilu. 5,7 5,0 5,3 5,6 6,1 5,3 5,8 5,7 5,4 5,5 4,9 5,2 Lze tvrdit, že spotřeba tohoto typu automobilu má normální rozdělení N(5,4; 0,42)?

46 Testy shody Kolmogorov-Smirnovův test
Příklad: Statistický soubor obsahuje 12 pozorování… i x(i) F(x(i)) 1 4,9 0,106 2 5 0,159 3 5,2 0,309 4 5,3 0,401 6 5,4 0,500 7 5,5 0,599 8 5,6 0,691 9 5,7 0,773 10 11 5,8 0,841 12 6,1 0,960 Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,42). F(x(1)) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 4,9). Neboli P(x ≤ 4,9) = F(4,9) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (4,9;5,4;0,42;1) = 0,106

47 Testy shody Kolmogorov-Smirnovův test
Příklad: Statistický soubor obsahuje 12 pozorování… i x(i) F(x(i)) 1 4,9 0,106 2 5 0,159 3 5,2 0,309 4 5,3 0,401 6 5,4 0,500 7 5,5 0,599 8 5,6 0,691 9 5,7 0,773 10 11 5,8 0,841 12 6,1 0,960 Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,42). F(x(2)) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 5). Neboli P(x ≤ 5) = F(5) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (5;5,4;0,42;1) = 0,159

48 Testy shody Kolmogorov-Smirnovův test
Příklad: Statistický soubor obsahuje 12 pozorování… i x(i) F(x(i)) 1 4,9 0,106 0,022 2 5 0,159 0,075 0,008 3 5,2 0,309 0,142 0,059 4 5,3 0,401 0,151 0,068 0,015 6 5,4 0,500 0,083 0,000 7 5,5 0,599 0,099 8 5,6 0,691 0,108 0,025 9 5,7 0,773 0,107 0,023 10 0,060 11 5,8 0,841 12 6,1 0,960 0,043 0,040 Dopočtou se hodnoty pro výpočet testového kritéria D. Je jím maximální hodnota z pomocných výpočtů T1 a T2. D = 0,151.

49 Testy shody Kolmogorov-Smirnovův test
Příklad: Statistický soubor obsahuje 12 pozorování… Hodnota testového kritéria D = 0,151. Kritický obor: W={D; D ≥ d(12;0,05)} W={D; D ≥ 0,375} Protože hodnota testového kritéria nenáleží do kritického oboru, nezamítáme H0. Spotřeba tohoto typu automobilu má skutečně normální rozdělení N(5,4; 0,42).

50 Testy střední hodnoty Neprametrické testy posuzují střední hodnoty souborů v situacích, kdy nejsou splněny podmínky použití testů parametrických (přednáška 5). Zejména pokud: data nejsou normálně rozdělena, data mají ordinální charakter (pořadová proměnná), výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů. Neparametrické testy lze použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení jejich validity. Hodnoty souborů nahrazují jejich pořadím, proto jsou známy i pod názvem pořadové testy.

51 Testy střední hodnoty Počet výběrů Závislé/ nezávislé Počet hodnot
Rozdělení Test Nástroj 1 - n ≥ 30 Jednovýběrový t-test MS Excel n < 30 Normální Není normální Znaménkový test Online kalkulátory 2 Nezávislé Dvouvýběrový t-test Normální rozdělení Mann–Whitneův test nebo Wilcoxonův test Závislé (párové) Dvouvýběrový párový t-test Wilcoxonův test

52 Kruskal–Wallisův test
Testy střední hodnoty Počet výběrů Závislé/ nezávislé Rozdělení Rozptyly Test Nástroj 3 a více Nezávislé Normální rozdělení Shodné ANOVA MS Excel - Kruskal–Wallisův test Online kalkulátory Závislé Friedmanův test

53 Testy střední hodnoty Znaménkový test
Znaménkový test se zabývá mediánem základního souboru. Ho: Ha: Testové kritérium: Spočítáme ukazatel Z+ jako počet kladných odchylek hodnot od mediánu (xi - µo) a Z- jako počet záporných odchylek. Vynecháme páry, kdy jsou odchylky 0. Kritický obor: W={Z+; Z+ ≥ Bi(n;0,5)} Online kalkulátory:

54 Testy střední hodnoty Mann-Whitneyův test pro dva nezávislé výběry
Mannův-Whitneyův test je obdobou t-testu pro dva nezávislé výběry. Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) Testové kritérium: Seřadíme všechny hodnoty podle velikosti a určíme jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr z jejich pořadí). Spočítáme součet pořadí pro každou skupinu zvlášť R1 a R2. Pro kontrolu platí R1 + R2 = 0,5(n1+n2)(n1+n2+1) . Testovacím kritériem je menší z hodnot U1 = R1 - 0,5 ∙ n1(n1+1) a U2 = R2 - 0,5 ∙ n2(n2+1). Pro kontrolu platí U1 + U2 = n1 ∙ n2.

55 Testy střední hodnoty Mann-Whitneyův test pro dva nezávislé výběry
Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např: Online kalkulátory: &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rja list v MS Excel.

56 Testy střední hodnoty Wilcoxonův test pro dva závislé výběry
Wilcoxonův test je testem dvou závislých výběrů (párová měření). Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) Testové kritérium: Vypočteme rozdíly všech párových měření di = xi – yi. Nulové rozdíly z dalšího hodnocení vyřazujeme. Seřadíme všechny hodnoty podle velikosti bez ohledu na znaménka a určíme jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr z jejich pořadí). Spočítáme součet pořadí kladných rozdílů W1 a záporných rozdílů W2. Pro kontrolu platí W1 + W2 = 0,5(n1+n2)(n1+n2+1) . Testovým kritériem je menší z hodnot W1 a W2 .

57 Testy střední hodnoty Wilcoxonův test pro dva závislé výběry
Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např: Online kalkulátory:

58 Testy střední hodnoty Wilcoxonův test pro dva závislé výběry
Příklad: Na skupině dobrovolníků byl testován prostředek na snížení váhy. Hmotnosti 12 testovaných lidí před a po dietní kůře jsou v tabulce. Určete párovým testem, zda je prostředek na hladině významnosti 0,05 účinný. hmotnost před dietou (kg) hmotnost po dietě (kg) 85 76 75 90 81 65 64 150 155 80 72 110 99 56 45 88 89 73 66 67 134

59 Testy střední hodnoty Wilcoxonův test pro dva závislé výběry
Příklad: Na skupině dobrovolníků byl testován prostředek ... K dispozici jsou soubory malého rozsahu, nevíme, zda je splněn předpoklad normality, proto použijeme Wilcoxonův test. Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) P-hodnota vypočtená online kalkulátorem (P-hodnota = 0,0121). P-hodnota testu < 0,05, zamítáme tedy H0. Mediány obou souborů nejsou shodné. Medián hmotností před dietou je 82,5 kg, medián po dietě je 75,5 kg. Testem bylo potvrzeno, že dieta vede ke snížení hmotnosti.

60 Testy střední hodnoty Kruskal–Wallisův test pro více nezávislých výběrů
Kruskal–Wallisův test je obdobou testu ANOVA, zabývá se mediány základních souborů. Používáme, pokud nejsou splněny podmínky testu ANOVA. Ho: mediány všech souborů jsou shodné Ha: mediány alespoň dvou souborů se nerovnají Testové kritérium: Všechna měření uspořádáme podle velikosti. Hodnoty nahradíme jejich pořadími a vypočteme hodnoty SRi jako součty pořadí pro každou ze skupin Testové kritérium H vypočteme:

61 Testy střední hodnoty Kruskal–Wallisův test pro více nezávislých výběrů
Kritický obor: má chí-kvadrát rozdělení W={H; H ≥ χα2(m-1)}, kde m je počet skupin. Online kalkulátory: pro 3 nebo 4 skupiny &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rja list v MS Excel pro až 20 skupin.

62 Testy střední hodnoty Friedmanův test pro více závislých výběrů
Friedmanův test je určen pro opakovaná měření ve více jak dvou skupinách. Ho: mediány všech souborů jsou shodné Ha: mediány alespoň dvou souborů se nerovnají Testové kritérium: Určíme zvlášť pořadí hodnot pro každý měřený objekt (každý řádek) a vypočteme součet pořadí pro každý sloupec SRi. Testové kritérium Fr vypočteme: kde n je počet měřených objektů (počet řádků) a m je počet opakování.

63 Testy střední hodnoty Friedmanův test pro více závislých výběrů
Kritický obor: má chí-kvadrát rozdělení W={Fr; Fr ≥ χα2(m-1)}, kde m je počet opakování. Online kalkulátory: pro 3 nebo 4 skupiny

64 Testy střední hodnoty Friedmanův test pro více závislých výběrů
Příklad: Zkoumáme znečištění přízemním ozónem O3 na čtyřech lokalitách (A1 – A5), kde byla provedena opakovaná měsíční měření od ledna do května. Na hladině významnosti 0,05 zjistěte, zda jsou koncentrace na všech lokalitách stejné. Lokalita/měsíc A1 A2 A3 A4 leden 44 32 28 61 únor 103 18 113 březen 47 23 5 31 duben 7 1 6 květen 2

65 Testy střední hodnoty Friedmanův test pro více závislých výběrů
Příklad: Zkoumáme znečištění přízemním ozónem O3 … Jde o závislá měření, test ANOVA nelze použít, není splněna podmínka rovnosti rozptylů: max si /min si = 45,9/11,8 = 3,89. Použijeme Friedmanův test. Lokalita/měsíc A1 A2 A3 A4 leden 44 32 28 61 únor 103 18 113 březen 47 23 5 31 duben 7 1 6 květen 2 medián sm.odch. 40,5 17,4 11,8 45,9

66 Testy střední hodnoty Friedmanův test pro více závislých výběrů
Příklad: Zkoumáme znečištění přízemním ozónem O3 … Ho: mediány koncentrací jsou na všech čtyřech lokalitách shodné Ha: mediány alespoň dvou lokalit se nerovnají P-hodnota vypočtená online kalkulátorem P-hodnota = 0,0752 P-hodnota testu > 0,05, nezamítáme tedy H0. Mediány koncentrací přízemního ozónu O3 jsou na všech čtyřech lokalitách shodné.

67 Neparametrické testy Důležité pojmy – 7. přednáška
Identifikace odlehlých hodnot Testy shody rozdělení Neparametrické testy střední hodnoty


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google