Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 N EPARAMETRICKÉ TESTY

3 Testování existence odlehlých pozorování Testy shody Testy střední hodnoty

4 O DLEHLÁ POZOROVÁNÍ Grafická analýza Grubbsův test Deanův a Dixonův Q-test

5 O DLEHLÁ POZOROVÁNÍ V datech se mohou objevit odlehlé, vybočující hodnoty (outlier), tj. hodnoty nepatřící mezi ostatní. Tyto hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat, ale i při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele, useknuté průměry.

6 O DLEHLÁ POZOROVÁNÍ Nalezení odlehlých hodnot je možné například pomocí grafů. Jde však o subjektivní metody! Vhodný je histogram nebo krabicový diagram (Box-and-Whisker Plot).

7 O DLEHLÁ POZOROVÁNÍ Informace o homogenitě souboru poskytuje také variační koeficient (Coefficient of Variation). Je-li v > 50 % znamená to silně nesourodý soubor. Neboli soubor není homogenní a může obsahovat jedno nebo více odlehlých pozorování.

8 O DLEHLÁ POZOROVÁNÍ G RUBBSŮV TEST Grubbsův test je exaktní metodou pro zjištění odlehlých pozorování. Nulová hypotéza: hodnota x (i) není odlehlá Alternativní hypotéza: hodnota x (i) je odlehlá Testové kritérium:, kde x (i) je testovaná hodnota, s je populační směrodatná odchylka souboru a aritmetický průměr souboru. Online kalkulátory:

9 O DLEHLÁ POZOROVÁNÍ G RUBBSŮV TEST Grubbsův test Kritický obor: W={T; T ≥ T(n;α)} Grubbsova statistika T nemá standardní rozdělení, proto je nutno hledat v tabulce. ulky.xls n kritické hodnoty Tn 31,412122,387 41,689132,426 51,869142,461 61,996152,493 72,093162,523 82,172172,551 92,237182, ,294192, ,343202,623 Kritické hodnoty Grubbsova T-rozdělení (α = 0,05)

10 O DLEHLÁ POZOROVÁNÍ G RUBBSŮV TEST Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Nejvyšší hodnota souboru je 36 a je podezřelá, že jde o odlehlé pozorování. Grubbsův test H 0 : hodnota 36 není odlehlá H A : hodnota 36 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria je vyšší než hranice kritického oboru. Zamítáme tedy H 0. Hodnota 36 je skutečně odlehlým pozorováním.

11 O DLEHLÁ POZOROVÁNÍ G RUBBSŮV TEST Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Druhá nejvyšší hodnota souboru je 7,37. Jde také o odlehlé pozorování? Grubbsův test H 0 : hodnota 7,37 není odlehlá H A : hodnota 7,37 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H 0. Hodnota 7,37 již není odlehlým pozorováním.

12 O DLEHLÁ POZOROVÁNÍ D EAN -D IXONŮV Q- TEST Dean-Dixonův Q-test je vhodný pro soubory malého rozsahu (do 10 prvků). Nulová hypotéza:hodnota x (n) není odlehlá Alternativní hypotéza:hodnota x (n) je odlehlá Testové kritérium: kde x (n) je testovaná,hodnota, x (n-1) je sousední hodnota a R je variační rozpětí (x max - x min ).

13 O DLEHLÁ POZOROVÁNÍ D EAN -D IXONŮV Q- TEST Kritický obor: W={Q; Q ≥ Q(n;α)} Q statistika nemá standardní rozdělení, proto je nutno hledat v tabulce. Kritické hodnoty Dean-Dixonova Q rozdělení (α = 0,05) nQ kritické 30,941 40,765 50,642 60,56 70,507 80,468 90, ,412

14 O DLEHLÁ POZOROVÁNÍ D EAN -D IXONŮV Q- TEST Příklad: Statistický soubor obsahuje 10 pozorování. H 0 : hodnota 8,95 není odlehlá H A : hodnota 8,95 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H 0. Hodnota 8,95 není odlehlým pozorováním. 2,823,723,914,704,775,246,206,286,738,95

15 O DLEHLÁ POZOROVÁNÍ D EAN -D IXONŮV Q- TEST Příklad: Statistický soubor obsahuje 10 pozorování. H 0 : hodnota 2,82 není odlehlá H A : hodnota 2,82 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H 0. Ani hodnota 2,82 není odlehlým pozorováním. 2,823,723,914,704,775,246,206,286,738,95

16 T ESTY SHODY Grafická analýza Kolmogorov-Smirnovův test Chi-kvadrát test

17 T ESTY SHODY Testy shody mají široké využití. Pomáhají zjistit, zda výběr pochází z určitého hypotetického rozdělení. Nejčastěji se setkáváme s rozdělením normálním N(μ;σ 2 ), ale lze testovat jakékoliv jiné rozdělení. Ať již diskrétní (Binomické, Poissonovo) nebo spojitá (Studentovo t rozdělení, F-rozdělení apod.)

18 T ESTY SHODY Oblasti využití testů shody: Testování statistických hypotéz (viz. přednáška 5). Podmínkou testů o průměru (t-test) a rozptylu (F-test) je, že výběr pochází z normálního rozdělení.. Tato podmínka musela být splněna, pokud byl rozsah výběru menší než 30. Analýza rozptylu (viz. přednáška 6). Důležitou podmínkou použití analýzy rozptylu je, že všechny výběry pocházejí z normálního rozdělení. Regresní analýza (viz. přednáška 8). Jednou z podmínek vhodného modelu je, že rezidua mají normální rozdělení.

19 T ESTY SHODY Grafická analýza – Histogram Opět lze použít histogram k posouzení rozdělení souboru. Subjektivní metoda! Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd). Sleduje se tvar histogramu a porovnává s pravděpodobnostní nebo hustotní funkcí teoretického rozdělení.

20 T ESTY SHODY Grafická analýza – Histogram Grafy pravděpodobnostních nebo hustotních funkcí vybraných teoretických rozdělení jsou uvedeny v přednášce číslo 3. Největší význam v praxi má normální rozdělení. Histogram relativní četnosti a křivka hustoty pravděpodobnosti normálního rozdělení. Pokud má histogram podobný průběh jako hustotní funkce, je možné považovat rozdělení za shodná.

21 T ESTY SHODY Grafická analýza – Histogram Histogram absolutní četnosti. V tomto případě se určitě nejedná o normální rozdělení. Histogram není souměrný. Jde o rozdělení zešikmené.

22 T ESTY SHODY Grafická analýza – Kvantilový graf Užitečným nástrojem je i kvantilový graf. Jedná se o bodový graf, mající na ose y kvantily teoretického rozdělení a na ose x kvantily posuzovaného souboru. Pokud se body pohybují po úhlopříčce grafu, je rozdělení souboru stejné jako rozdělní teoretické. Pokud se body odchylují, jde o rozdělení jiné.

23 T ESTY SHODY Kvantilový graf Pokud by všechny body ležely na úhlopříčce, pak by se jednalo o totožná rozdělení. V tomto případě se zdá, že by soubor mohl pocházet z normálního rozdělení (i podle histogramu).

24 T ESTY SHODY Kvantilový graf V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Vpravo nahoře uvedený histogram ukazuje, že jde o zešikmené rozdělení.

25 T ESTY SHODY Kvantilový graf – konstrukce grafu v MS Excel Pro konstrukci grafu je postačující vypočítat kvantily v rozmezí 5 % až 95 % po 5 % (x 0,05, x 0,1, x 0,15,..., x 0,95 ) Lze počítat i detailněji, třeba percentily (po 1 %). Kvantily souboru se počítají funkcí = PERCENTIL (oblast, kvantil – p)

26 T ESTY SHODY Kvantilový graf – konstrukce grafu v MS Excel Kvantily hypotetického rozdělení podle odpovídající funkce rozdělení např. pro normální rozdělení: = NORMINV (kvantil - p; střední hodnota hypotetického rozdělení - μ; směrodatná odchylka hypotetického rozdělení – σ)

27 T ESTY SHODY Kvantilový graf – konstrukce grafu v MS Excel Samotný graf je bodový graf mající na ose y kvantily hypotetického rozdělení a na ose x kvantily posuzovaného souboru.

28 T ESTY SHODY Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení? Kvantilový graf Aritmetický průměr souboru je 216,05. Výběrová směrodatná odchylka 225,83. Pomocí grafu se pokusíme zjistit, zda výběr pochází z normálního rozdělení N(216,05; 225,83 2 ). Parametry základního souboru tedy odhadujeme pomocí výběrových charakteristik. KvantilKvantily souboru Teoretické rozdělení 0, ,412 0,122-73,3667 0, ,011 0,24125, ,255563, ,36397, ,3579,8129,0316 0,493158,8355 0, ,6711 0, ,0496 0, ,428 0, ,2637 0, ,0676 0, ,4764 0, ,3715 0, ,1152 0,85478,6450,1102 0, ,4659 0,95730,2587,5114

29 T ESTY SHODY Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,832 2 )? = PERCENTIL (oblast dat; kvantil – p) = PERCENTIL (oblast dat; 0,1) = PERCENTIL (oblast dat; 0,6) Kvantil Kvantily souboru Teoretické rozdělení 0, ,412 0,122-73,3667 0, ,011 0,24125, ,255563, ,36397, ,3579,8129,0316 0,493158,8355 0, ,6711 0, ,0496 0, ,428 0, ,2637 0, ,0676 0, ,4764 0, ,3715 0, ,1152 0,85478,6450,1102 0, ,4659 0,95730,2587,5114

30 T ESTY SHODY Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,832 2 )? = NORMINV (kvantil - p; μ; σ) = NORMINV (0,1; 216,05; 225,832) = NORMINV(0,6; 216,05; 225,832) Kvantil Kvantily souboru Teoretické rozdělení 0, ,412 0,122-73,3667 0, ,011 0,24125, ,255563, ,36397, ,3579,8129,0316 0,493158,8355 0, ,6711 0, ,0496 0, ,428 0, ,2637 0, ,0676 0, ,4764 0, ,3715 0, ,1152 0,85478,6450,1102 0, ,4659 0,95730,2587,5114

31 T ESTY SHODY Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,832)? V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Body neleží na úhlopříčce!

32 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Chi-kvadrát test dobré shody je stejný jako u kontingenčních tabulek (viz. přednáška 6) Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení Data je nutno roztřídit do tabulky četností, počet tříd se určuje pomocí Sturgessova pravidla. Test je vhodný pro soubory s n > 50.

33 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Nutnou podmínkou testu je, že hypotetické četnosti jsou větší než 5. Pokud to tak není, je nutno spojit třídu s třídou sousední. Test posuzuje skutečné četnosti výběru n i s hypotetickými četnostmi np i stanovenými rozdělením. Testové kritérium: Kritický obor:, kde k je počet tříd a r je počet parametrů hypotetického rozdělní.

34 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Nevýhody testu: 1. Je vhodný jen pro velké rozsahy testovaného souboru (n > 50). 2. Je závislý na tabulce četnosti, pro dvě různé tabulky četností vyjde testové kritérium různě! 3. Nutnost slučovat třídy pokud nejsou dostatečně obsazeny.

35 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení? Aritmetický průměr souboru je 4,89. Výběrová směrodatná odchylka souboru je 1,16. Výběrové charakteristiky použijeme jako parametry hypotetického rozdělení. Provedeme tedy test, zda soubor má normální rozdělení N(4,89; 1,16 2 ).

36 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? TřídyČetnost n i Teoretická pravď. p i - 3>20, (3- 4>80, (4- 5>220, (5- 6>80, (6- 7>80, (7-20, p 1 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do hodnoty 3). Neboli P(x ≤ 3) = F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (3;4,89;1,16;1) = 0,051235

37 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? TřídyČetnost n i Teoretická pravď. p i - 3>20, (3- 4>80, (4- 5>220, (5- 6>80, (6- 7>80, (7-20, p 2 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (3 až 4). Neboli P(3 < x ≤ 4) = = F(4) – F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) - NORMDIST(dolní mez intervalu; μ; σ; 1) = = 0,22 - 0,051 = 0,169

38 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? Třídynini Teoretická pravď. p i Hypotetická četnost np i - 3>20, , (3- 4>80, , (4- 5>220, , (5- 6>80, , (6- 7>80, , (7-20, , np 2 je součin celkového počtu pozorování (n = 50) a hypotetické pravděpodobnosti p i. Neboli 50·0,169 = 8,439 Hypoteticky by četnost měla být 8,439 (skutečná je 8). Nutnou podmínkou testu je, že hypotetické četnosti np i jsou větší než 5. První a poslední třídu je tedy nutno sloučit!

39 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? Třídynini pipi Hypotetická četnost np i (2- 4>100, , (4- 5>220, , (5- 6>80, , (6- 8>100, , Podmínka testu, že hypotetické četnosti np i jsou větší než 5, je nyní splněna.

40 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? Třídynini pipi Hypotetická četnost np i (2- 4>100, , , (4- 5>220, , , (5- 6>80, , , (6- 8>100, , , Celkem5,833 Testové kritérium: Provedeme pomocný výpočet.

41 T ESTY SHODY C HI - KVADRÁT TEST DOBRÉ SHODY Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,16 2 )? Testové kritérium: Kritický obor: Protože hodnota testového kritéria náleží do kritického oboru, zamítáme H 0. Sledovaný soubor nepochází z normálního rozdělení.

42 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Kolmogorov-Smirnovův test je dalším testem shody. 1. Je vhodný pro malé rozsahy souborů (n< 50). 2. Lze jej použít i pro velké soubory. 3. Je silnější než Chí-kvadrát test (dává přesnější výsledky). 4. Nemá omezující podmínky. 5. Vychází přímo z původních dat, nikoliv z údajů setříděných do tříd. Nedochází ke ztrátě informací. Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení

43 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Hodnoty souboru se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(x (i) ) založená na hypotetickém rozdělení. Při testu normality jde o normální rozdělení N(µ;σ 2 ). Testové kritérium: je maximum z hodnot vypočtených pro všechna pozorování x (i).

44 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Kritický obor: W={D; D ≥ d(n;α)} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce (http://most.ujep.cz/~popelka/tabulky.xls)http://most.ujep.cz/~popelka/tabulky.xls Pro n >50 pak d(n; 0,05) ≈ 1,36 / n 1/2

45 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Příklad: Statistický soubor obsahuje 12 pozorování. Jedná se informace o spotřebě benzínu určitého typu automobilu. 5,75,05,35,66,15,35,85,75,4 5,54,95,2 Lze tvrdit, že spotřeba tohoto typu automobilu má normální rozdělení N(5,4; 0,4 2 )?

46 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Příklad: Statistický soubor obsahuje 12 pozorování… ix (i) F(x (i) ) 14,90, ,159 35,20,309 45,30,401 55,30,401 65,40,500 75,50,599 85,60,691 95,70, ,70, ,80, ,10,960 Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,4 2 ). F(x (1) ) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 4,9). Neboli P(x ≤ 4,9) = F(4,9) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (4,9;5,4;0,42;1) = 0,106

47 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST ix (i) F(x (i) ) 14,90, ,159 35,20,309 45,30,401 55,30,401 65,40,500 75,50,599 85,60,691 95,70, ,70, ,80, ,10,960 Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,4 2 ). F(x (2) ) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 5). Neboli P(x ≤ 5) = F(5) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (5;5,4;0,42;1) = 0,159 Příklad: Statistický soubor obsahuje 12 pozorování…

48 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST ix (i) F(x (i) ) 14,90,106 0, ,159 0,0750,008 35,20,309 0,1420,059 45,30,401 0,1510,068 55,30,401 0,0680,015 65,40,500 0,0830,000 75,50,599 0,0990,015 85,60,691 0,1080,025 95,70,773 0,1070, ,70,773 0,0230, ,80,841 0,0080, ,10,960 0,0430,040 Dopočtou se hodnoty pro výpočet testového kritéria D. Je jím maximální hodnota z pomocných výpočtů T 1 a T 2. D = 0,151. Příklad: Statistický soubor obsahuje 12 pozorování…

49 T ESTY SHODY K OLMOGOROV -S MIRNOVŮV TEST Příklad: Statistický soubor obsahuje 12 pozorování… Hodnota testového kritéria D = 0,151. Kritický obor: W={D; D ≥ d(12;0,05)} W={D; D ≥ 0,375} Protože hodnota testového kritéria nenáleží do kritického oboru, nezamítáme H 0. Spotřeba tohoto typu automobilu má skutečně normální rozdělení N(5,4; 0,4 2 ).

50 T ESTY STŘEDNÍ HODNOTY Neprametrické testy posuzují střední hodnoty souborů v situacích, kdy nejsou splněny podmínky použití testů parametrických (přednáška 5). Zejména pokud: data nejsou normálně rozdělena, data mají ordinální charakter (pořadová proměnná), výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů. Neparametrické testy lze použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení jejich validity. Hodnoty souborů nahrazují jejich pořadím, proto jsou známy i pod názvem pořadové testy.

51 T ESTY STŘEDNÍ HODNOTY Počet výběrů Závislé/ nezávislé Počet hodnot RozděleníTestNástroj 1- n ≥ 30- Jednovýběrový t-test MS Excel n < 30 Normální Jednovýběrový t-test MS Excel Není normální Znaménkový test Online kalkulátory 2 Nezávislé n ≥ 30- Dvouvýběrový t-test MS Excel n < 30 Normální rozdělení Dvouvýběrový t-test MS Excel Není normální Mann–Whitneův test nebo Wilcoxonův test Online kalkulátory Závislé (párové) n ≥ 30 Dvouvýběrový párový t-test MS Excel n < 30 Normální rozdělení Dvouvýběrový párový t-test MS Excel Není normální Wilcoxonův test Online kalkulátory

52 T ESTY STŘEDNÍ HODNOTY Počet výběrů Závislé/ nezávislé RozděleníRozptylyTestNástroj 3 a více Nezávislé Normální rozdělení ShodnéANOVAMS Excel -- Kruskal– Wallisův test Online kalkulátory Závislé Normální rozdělení ShodnéANOVAMS Excel -- Friedmanův test Online kalkulátory

53 T ESTY STŘEDNÍ HODNOTY Z NAMÉNKOVÝ TEST Znaménkový test se zabývá mediánem základního souboru. Ho: Ha: Testové kritérium: Spočítáme ukazatel Z + jako počet kladných odchylek hodnot od mediánu (x i - µ o ) a Z - jako počet záporných odchylek. Vynecháme páry, kdy jsou odchylky 0. Kritický obor: W={Z + ; Z + ≥ Bi(n;0,5)} Online kalkulátory:

54 T ESTY STŘEDNÍ HODNOTY M ANN -W HITNEYŮV TEST PRO DVA NEZÁVISLÉ VÝBĚRY Mannův-Whitneyův test je obdobou t-testu pro dva nezávislé výběry. Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) Testové kritérium: Seřadíme všechny hodnoty podle velikosti a určíme jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr z jejich pořadí). Spočítáme součet pořadí pro každou skupinu zvlášť R 1 a R 2. Pro kontrolu platí R 1 + R 2 = 0,5(n 1 +n 2 )(n 1 +n 2 +1). Testovacím kritériem je menší z hodnot U 1 = R 1 - 0,5 ∙ n 1 (n 1 +1) a U 2 = R 2 - 0,5 ∙ n 2 (n 2 +1). Pro kontrolu platí U 1 + U 2 = n 1 ∙ n 2.

55 T ESTY STŘEDNÍ HODNOTY M ANN -W HITNEYŮV TEST PRO DVA NEZÁVISLÉ VÝBĚRY Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např: Online kalkulátory: &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rjahttp://www.google.cz/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1 &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rja list v MS Excel.

56 T ESTY STŘEDNÍ HODNOTY W ILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY Wilcoxonův test je testem dvou závislých výběrů (párová měření). Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) Testové kritérium: Vypočteme rozdíly všech párových měření d i = x i – y i. Nulové rozdíly z dalšího hodnocení vyřazujeme. Seřadíme všechny hodnoty podle velikosti bez ohledu na znaménka a určíme jejich pořadí (stejné údaje mají stejné pořadí – počítáme průměr z jejich pořadí). Spočítáme součet pořadí kladných rozdílů W 1 a záporných rozdílů W 2. Pro kontrolu platí W 1 + W 2 = 0,5(n 1 +n 2 )(n 1 +n 2 +1). Testovým kritériem je menší z hodnot W 1 a W 2.

57 T ESTY STŘEDNÍ HODNOTY W ILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY Kritický obor: nemá běžné rozdělení, hledáme v tabulkách, např: Online kalkulátory:

58 Příklad: Na skupině dobrovolníků byl testován prostředek na snížení váhy. Hmotnosti 12 testovaných lidí před a po dietní kůře jsou v tabulce. Určete párovým testem, zda je prostředek na hladině významnosti 0,05 účinný. hmotnost před dietou (kg) hmotnost po dietě (kg) T ESTY STŘEDNÍ HODNOTY W ILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY

59 Příklad: Na skupině dobrovolníků byl testován prostředek... K dispozici jsou soubory malého rozsahu, nevíme, zda je splněn předpoklad normality, proto použijeme Wilcoxonův test. Ho: oba soubory mají shodné rozdělení (mediány obou souborů jsou shodné) Ha: oba soubory nemají shodné rozdělení (mediány obou souborů nejsou shodné) P-hodnota vypočtená online kalkulátorem (P-hodnota = 0,0121). P-hodnota testu < 0,05, zamítáme tedy H 0. Mediány obou souborů nejsou shodné. Medián hmotností před dietou je 82,5 kg, medián po dietě je 75,5 kg. Testem bylo potvrzeno, že dieta vede ke snížení hmotnosti. 59 T ESTY STŘEDNÍ HODNOTY W ILCOXONŮV TEST PRO DVA ZÁVISLÉ VÝBĚRY

60 T ESTY STŘEDNÍ HODNOTY K RUSKAL –W ALLISŮV TEST PRO VÍCE NEZÁVISLÝCH VÝBĚRŮ Kruskal–Wallisův test je obdobou testu ANOVA, zabývá se mediány základních souborů. Používáme, pokud nejsou splněny podmínky testu ANOVA. Ho: mediány všech souborů jsou shodné Ha: mediány alespoň dvou souborů se nerovnají Testové kritérium: Všechna měření uspořádáme podle velikosti. Hodnoty nahradíme jejich pořadími a vypočteme hodnoty SR i jako součty pořadí pro každou ze skupin Testové kritérium H vypočteme:

61 T ESTY STŘEDNÍ HODNOTY K RUSKAL –W ALLISŮV TEST PRO VÍCE NEZÁVISLÝCH VÝBĚRŮ Kritický obor: má chí-kvadrát rozdělení W={H; H ≥ χ α 2 (m-1)}, kde m je počet skupin. Online kalkulátory: pro 3 nebo 4 skupiny &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rjahttp://www.google.cz/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1 &ved=0CB8QFjAA&url=http%3A%2F%2Fudel.edu%2F~mcdonald% 2Fstatkruskalwallis.xls&ei=- 4GXUPSmHamh4gTEnoGoCg&usg=AFQjCNHfiKxhdRYv2mXZdT3JKRq WbyrL0Q&cad=rja list v MS Excel pro až 20 skupin.

62 T ESTY STŘEDNÍ HODNOTY F RIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ Friedmanův test je určen pro opakovaná měření ve více jak dvou skupinách. Ho: mediány všech souborů jsou shodné Ha: mediány alespoň dvou souborů se nerovnají Testové kritérium: Určíme zvlášť pořadí hodnot pro každý měřený objekt (každý řádek) a vypočteme součet pořadí pro každý sloupec SR i. Testové kritérium F r vypočteme: kde n je počet měřených objektů (počet řádků) a m je počet opakování.

63 T ESTY STŘEDNÍ HODNOTY F RIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ Kritický obor: má chí-kvadrát rozdělení W={F r ; F r ≥ χ α 2 (m-1)}, kde m je počet opakování. Online kalkulátory: pro 3 nebo 4 skupiny

64 T ESTY STŘEDNÍ HODNOTY F RIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ Příklad: Zkoumáme znečištění přízemním ozónem O 3 na čtyřech lokalitách (A1 – A5), kde byla provedena opakovaná měsíční měření od ledna do května. Na hladině významnosti 0,05 zjistěte, zda jsou koncentrace na všech lokalitách stejné. Lokalita /měsíc A1A2A3A4 leden únor březen duben7716 květen2222

65 T ESTY STŘEDNÍ HODNOTY F RIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ Příklad: Zkoumáme znečištění přízemním ozónem O 3 … Jde o závislá měření, test ANOVA nelze použít, není splněna podmínka rovnosti rozptylů: max s i /min s i = 45,9/11,8 = 3,89. Použijeme Friedmanův test. Lokalita /měsíc A1A2A3A4 leden únor březen duben7716 květen2222 medián sm.odch.40,517,411,845,9

66 T ESTY STŘEDNÍ HODNOTY F RIEDMANŮV TEST PRO VÍCE ZÁVISLÝCH VÝBĚRŮ Příklad: Zkoumáme znečištění přízemním ozónem O 3 … Ho: mediány koncentrací jsou na všech čtyřech lokalitách shodné Ha: mediány alespoň dvou lokalit se nerovnají P-hodnota vypočtená online kalkulátorem P-hodnota = 0,0752 P-hodnota testu > 0,05, nezamítáme tedy H 0. Mediány koncentrací přízemního ozónu O 3 jsou na všech čtyřech lokalitách shodné.

67 Identifikace odlehlých hodnot Testy shody rozdělení Neparametrické testy střední hodnoty 67 N EPARAMETRICKÉ TESTY D ŮLEŽITÉ POJMY – 7. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google