Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW: 1

2 T ESTOVÁNÍ STATISTICKÝCH HYPOTÉZ H A : σ 2 1 > σ 2 2 W={F; F ≥ F 1- α (n-1;m-1)} H A : σ 2 1 < σ 2 2 W={F; F ≤ F α (n-1;m-1)} H A : σ 2 1 ≠ σ 2 2 W={F; F ≤ F α/2 (n-1;m-1) U F ≥ F 1- α/2 (n-1;m-1)} 2

3 T ESTOVÁNÍ HYPOTÉZ Úvod do testování statistických hypotéz Parametrické testy jednovýběrové Parametrické testy dvouvýběrové Parametrické testy vícevýběrové 3

4 T ESTOVÁNÍ HYPOTÉZ Statistická hypotéza je určitý předpoklad (domněnka) o rozdělení jednoho nebo více základních souborů. Předpoklad se týká: parametrů rozdělení základního souboru (např. μ, σ, σ 2, π ) - Je průměrná hmotnost novorozenců vetší než 2600 g? - Je po dietě nižší hmotnost než před dietou? zákona rozdělení základního souboru (zda má proměnná konkrétní pravděpodobnostní rozdělení) - Má hmotnost novorozenců normální rozdělení? - Má koncentrace SO 2 chí-kvadrát rozdělení? 4

5 T ESTOVÁNÍ HYPOTÉZ Testem hypotézy je postup, pomocí kterého na základě výběrového souboru ověříme, zda je hypotéza správná nebo nesprávná. Testovaná hypotéza se značí H 0 (nulová hypotéza). Opačná hypotéza je H A (alternativní hypotéza). Opačnou hypotézu přijmeme pokud nulovou hypotézu zamítáme. Výsledkem testu je tedy buď přijetí nebo zamítnutí H 0. Např.: H 0 : Průměrný věk soudců je 50 let. H A : Průměrný věk soudců není 50 let. 5

6 T ESTOVÁNÍ HYPOTÉZ Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H 0. Hypotézy týkající se průměrného věku soudců. Je průměrný věk soudců 50 let? H 0 : μ = 50 vs. H A : μ ≠ 50 oboustranná hypotéza Je průměrný věk soudců vyšší než 50 let? H 0 : μ ≤ 50 vs. H A : μ > 50 pravostranná hypotéza Je průměrný věk soudců nižší než 50 let? H 0 : μ ≥ 50 vs. H A : μ < 50 levostranná hypotéza 6

7 T ESTOVÁNÍ HYPOTÉZ Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H 0. Hypotézy o dvou populačních poměrech. Podporuje vládu 70 % voličů? H 0 : π = 70% vs. H A : π ≠ 70% oboustranná hypotéza Podporuje vládu více jak 70 % voličů? H 0 : π ≤ 70% vs. H A : π > 70% pravostranná hypotéza Podporuje vládu méně jak 70 % voličů? H 0 : π ≥ 70% vs. H A : π < 70% levostranná hypotéza 7

8 T ESTOVÁNÍ HYPOTÉZ Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H 0. Hypotézy o dvou populačních průměrech. Je průměrný věk soudců a advokátů stejný? H 0 : μ soudci = μ advokáti vs. H A : μ soudci ≠ μ advokáti Je průměrný věk soudců vyšší než průměrný věk advokátů? H 0 : μ soudci ≤ μ advokáti vs. H A : μ soudci > μ advokáti Je průměrný věk soudců nižší než průměrný věk advokátů? H 0 : μ soudci ≥ μ advokáti vs. H A : μ soudci < μ advokáti 8

9 T ESTOVÁNÍ HYPOTÉZ Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H 0. Hypotézy o více populačních poměrech. Je průměrný cena bytu stejná ve třech vybraných městech? H 0 : μ 1. město = μ 2.město = μ 3. město vs. H A : alespoň dva průměry se nerovnají 9

10 T ESTOVÁNÍ HYPOTÉZ Stejně jako u intervalových odhadů nelze zjistit, zda platí hypotéza na 100 %. Nejčastěji se používají testy s jistotou 99 %, 95 % nebo 90 %, obecně 1- α. α se nazývá hladina významnosti*. Je to pravděpodobnost chyby testu, kdy zamítneme H 0, přestože tato hypotéza platí (tzv. chyba 1. řádu). Existuje i chyba 2. řádu β, že nezamítneme H 0, i když byla hypotéza nesprávná. *Poznámka: Při konstrukci intervalů spolehlivosti (přednáška 4) se α nazývá hladina spolehlivosti. 10

11 T ESTOVÁNÍ HYPOTÉZ Samotné testování se provádí pomocí testovací statistiky, číslo vypočtené dle zadaného vzorce, jehož hodnota má konkrétní pravděpodobnostní rozdělení a určuje, která hypotéza platí.  Každému testu odpovídá konkrétní testovací statistika.  Autor testové statistiky uvádí i její pravděpodobnostní rozdělení (nejčastěji jde o spojitá rozdělení: Normální, Studentovo, Chí- kvadrát, F rozdělení ).  Pokud je hodnota statistiky příliš extrémní (příliš vysoká nebo příliš nízká) zamítneme H 0 a přijmeme H A (to, zda je statistika extrémní, lze zjistit jejím porovnáním s kvantily odpovídajícího rozdělení testovací statistiky - př. 3). 11

12 T ESTOVÁNÍ HYPOTÉZ Oboustranný test o střední hodnotě H 0 : μ = 50 let vs.H A : μ ≠ 50 let pro α = 0,05 Obor přijetí H 0 Kritický obor – testovací statistika je příliš vysoká! Zamítáme H 0 Kritický obor – testovací statistika je příliš nízká! Zamítáme H 0 12

13 T ESTOVÁNÍ HYPOTÉZ Levostranný test o střední hodnotě H 0 : μ ≥ 50 let vs. H A : μ < 50 let pro α = 0,05 Obor přijetí H 0 Kritický obor – testovací statistika je příliš nízká! 13

14 T ESTOVÁNÍ HYPOTÉZ Pravostranný test o střední hodnotě H 0 : μ ≤ 50 let vs. H A : μ > 50 let pro α = 0,05 Obor přijetí H 0 Kritický obor – testovací statistika je příliš vysoká! 14

15 T ESTOVÁNÍ HYPOTÉZ 15

16 T ESTOVÁNÍ HYPOTÉZ – P OČÍTAČOVÝ SOFTWARE 16

17 T ESTOVÁNÍ HYPOTÉZ – P OČÍTAČOVÝ SOFTWARE Základem úspěchu při vyhodnocování testů statistických hypotéz je následující pravidlo: Je-li p-hodnota testu < α zamítáme H 0 a přijímáme H A. Je-li p-hodnota testu > α nezamítáme H 0 (H 0 platí). 17

18 T ESTOVÁNÍ HYPOTÉZ P-hodnota Je nejnižší hladina významnosti α, na které lze zamítnout H 0. Např.: p-value = 0,001. H 0 lze zamítnout na hladině významnosti α = 0,05 nebo i 0,01 (tedy i s 99% jistotou) Obor přijetí p-value = 0,001 18

19 T ESTOVÁNÍ HYPOTÉZ P-hodnota Je nejnižší hladina významnosti, na které lze zamítnout H 0. Např.: p-value = 0,4. H 0 nelze zamítnout na hladině významnosti α = 0,05, ale pro α = 0,45 ano (tedy s jistotou 55%). Obor přijetí p-value = 0,4 19

20 T ESTOVÁNÍ HYPOTÉZ Existují dvě základní skupiny testů: Parametrické testy – týkají se přímo parametrů daného základního souboru ( μ, σ, σ 2, π ). Jsou početně náročnější ovšem silné (jejich výsledek je dosti přesný). Neparametrické – Nejsou početně náročné, ale mají menší sílu. Používají se, pokud nejsou splněny podmínky použití testů parametrických (data nejsou normálně rozdělena, data mají ordinální charakter, výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů). Lze je použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení validity testů. 20

21 T ESTY STŘEDNÍ HODNOTY Počet výběrů Závislé/ nezávislé Počet hodnot RozděleníTestNástroj 1- n ≥ 30- Jednovýběrový t-test MS Excel n < 30 Normální Jednovýběrový t-test MS Excel Není normální Znaménkový test Online kalkulátory 2 Nezávislé n ≥ 30- Dvouvýběrový t-test MS Excel n < 30 Normální rozdělení Dvouvýběrový t-test MS Excel Není normální Mann–Whitneův test nebo Wilcoxonův test Online kalkulátory Závislé (párové) n ≥ 30 Dvouvýběrový párový t-test MS Excel n < 30 Normální rozdělení Dvouvýběrový párový t-test MS Excel Není normální Wilcoxonův test Online kalkulátory

22 T ESTY STŘEDNÍ HODNOTY Počet výběrů Závislé/ nezávislé RozděleníRozptylyTestNástroj 3 a více Nezávislé Normální rozdělení ShodnéANOVAMS Excel -- Kruskal– Wallisův test Online kalkulátory Závislé Normální rozdělení ShodnéANOVAMS Excel -- Friedmanův test Online kalkulátory

23 T ESTOVÁNÍ HYPOTÉZ Parametrické testy se zabývají parametry základního souboru. Má-li základní soubor normální rozdělení N(μ;σ 2 ), pak lze testovat právě střední hodnotu (populační průměr μ) a rozptyl σ 2. Tento předpoklad musí být splněn u všech následujících testů! Někdy je uváděna volnější podmínka počtu hodnot ve výběru (n > 30). 23

24 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Nulová hypotéza: H 0 : μ = μ 0, kde μ 0 je konkrétní číslo Alt. hypotézy: H A : μ > μ 0 pravostranná hypotéza H A : μ < μ 0 levostranná hypotéza H A : μ ≠ μ 0 oboustranná hypotéza Test. statistika: má Studentovo t rozdělení s (n-1) stupni volnosti Krit. obor: pro H A : μ > μ 0 W={t; t ≥ t 1- α (n-1)} pro H A : μ < μ 0 W={t; t ≤ t α (n-1)} pro H A : μ ≠ μ 0 W={t; |t| ≥ t 1- α/2 (n-1)} 24

25 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců. Bylo dotázáno 45 náhodně vybraných soudců. Dotázaní mají průměrný věk 49,58 let a směrodatnou odchylkou výběru 4,8 roku. Na hladině významnosti α = 0,05 (pravděpodobnost chybného závěru testu 5 %) máme zjisti, zda je průměrný věk soudců nižší jak 50 let. Jedná se o test velikosti střední hodnoty! Zabýváme se průměrným věkem soudců. Postupuje se podle dříve uvedených kroků (snímek 13): 25

26 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců... 1.Formulace H 0 a H A : H 0 : μ ≥ 50 let vs. H A : μ < 50 let 2.Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: 4.Vymezení kritického oboru: Alternativní hypotéze H A odpovídá kritický obor W={t; t ≤ t α (n-1)}, tedy W={t; t ≤ t 0,05 (45-1)}, W={t; t ≤ -1,68}. 26

27 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců… 5.Výpočet testovací statistiky t z hodnot výběru: 6.Zjištění, zda testovací statistika t padne do kritického oboru: Hodnota testovací statistiky je - 0,28. Testovací statistika nepadne do kritického oboru W={t; t ≤ -1,68}, (protože -0,28 > -1,68), takže nezamítáme H 0. 7.Formulace závěru testu: Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že průměrný věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí H A ). 27

28 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců… H 0 : μ ≥ 50 let vs. H A : μ < 50 let Obor přijetí Kritický obor W={t; t ≤ - 1,68 } Testovací statistika t = - 0,28 95%5% 28

29 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců… S pomocí MS Excel. Je nutné mít pracovat se zdrojovými daty! Nestačí průměr a směrodatná odchylka, ale všech 45 hodnot! 1.Formulace H 0 a H A : H 0 : μ ≥ 50 let vs. H A : μ < 50 let !Excel počítá p-hodnotu pro alternativní hypotézu H A :μ > μ 0 ! P-hodnotu pro levostranný test bude nutno přepočítat. 2.Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: = 1-ZTEST (oblast dat; hypotetická hodnota μ 0 tedy 50; sigma = nezadává se!) 29

30 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců… 4.Zjištění p-hodnoty testu: = 1 - 0,781 = 0,219 5.Formulace závěru testu: Protože platí: p-hodnota > α neboli 0,219 > 0,05, nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí H A ). 30

31 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Práce s výstupem funkce ZTEST Pro pravostranný test (H A : μ > μ 0 ) je p-hodnotou přímo hodnota vypočtená funkcí ZTEST. Pro levostranný test (H A : μ < μ 0 ) je nutno p-hodnotu dopočítat podle vzorečku 1 - hodnota vypočtená funkcí ZTEST. Pro oboustranný test (H A : μ ≠ μ 0 ) je nutno p-hodnotu dopočítat podle vzorečku 2x menší z hodnot (hodnota vypočtená funkcí ZTEST, 1 - hodnota vypočtená funkcí ZTEST). 31

32 T EST VELIKOSTI STŘEDNÍ HODNOTY μ Příklad: Předmětem zájmu je věk soudců… Funkce ZTEST vypočetla hodnotu 0,781. P-hodnota pro pravostranný test (H A : μ > 50 ) je 0,781 (platí H 0 ). P-hodnota pro levostranný test (H A : μ < 50 ) je 1 – 0,781 = 0,219 (platí H 0 ). P-hodnota pro oboustranný test (H A : μ ≠ 50 ) je 2 x menší z hodnot (0,781 a 0,219) = 2x 0,219 = 0,438 (platí H 0 ). 32

33 T EST VELIKOSTI ROZPTYLU σ 2 Nulová hypotéza: H 0 : σ 2 = σ 2 0, kde σ 2 0 je konkrétní číslo Alt. hypotézy: H A : σ 2 > σ 2 0 pravostranná hypotéza H A : σ 2 < σ 2 0 levostranná hypotéza H A : σ 2 ≠ σ 2 0 oboustranná hypotéza Testovací statistika:má chí-kvadrát rozdělení s (n - 1) stupni volnosti Kritický obor: H A : σ 2 > σ 2 0 W={z; z ≥ χ 2 1- α (n-1)} H A : σ 2 < σ 2 0 W={z; z ≤ χ 2 α (n-1)} H A : σ 2 ≠ σ 2 0 W={z; z ≤ χ 2 α/2 (n-1) U z ≥ χ 2 1-α/2 (n-1)} 33

34 T ESTOVÁNÍ HYPOTÉZ – D VA VÝBĚRY Stejně jako u intervalů spolehlivosti lze pomocí testů porovnávat dva výběry. Pocházejí-li oba výběry ze základních souborů s normálním rozdělením N( μ ; σ 2 ), pak lze testovat právě shodu středních hodnot (populačních průměrů) a rozptylů. Pocházejí-li oba ze základních souborů s binomickým rozdělením Bi(n; π ), pak lze testovat shodu populačních poměrů. Toto jsou nejčastější aplikace testování statistických hypotéz pro dva výběry. 34

35 T EST SHODY DVOU ROZPTYLŮ Nulová hypotéza: H 0 : σ 2 1 = σ 2 2 Alt.hypotézy: H A : σ 2 1 > σ 2 2 pravostranná hypotéza H A : σ 2 1 < σ 2 2 levostranná hypotéza H A : σ 2 1 ≠ σ 2 2 oboustranná hypotéza Testovací statistika:má F rozdělení s (n-1; m-1) stupni volnosti Kritický obor: H A : σ 2 1 > σ 2 2 W={F; F ≥ F 1- α (n-1;m-1)} H A : σ 2 1 < σ 2 2 W={F; F ≤ F α (n-1;m-1)} H A : σ 2 1 ≠ σ 2 2 W={F; F ≤ F α/2 (n-1;m-1) U F ≥ F 1- α/2 (n-1;m-1)} 35

36 T EST SHODY DVOU ROZPTYLŮ MS Excel = FTEST (první oblast; druhá oblast) počítá p-hodnotu oboustranného testu. nebo Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl počítá p-hodnotu vybraného jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je s 2 1

37 T EST SHODY DVOU PRŮMĚRŮ Nulová hypotéza: H 0 : μ 1 = μ 2 Alt. hypotézy: H A : μ 1 > μ 2 pravostranná hypotéza H A : μ 1 < μ 2 levostranná hypotéza H A : μ 1 ≠ μ 2 oboustranná hypotéza Testovací statistikamá Studentovo t rozdělení (za podmínky σ 2 1 = σ 2 2 )(n+m-2) stupni volnosti, kde 37

38 T EST SHODY DVOU PRŮMĚRŮ Kritický obor: H A : μ 1 > μ 2 W={t; t ≥ t 1- α (n+m-2)} H A : μ 1 < μ 2 W={t; t ≤ t α (n+m-2)} H A : μ 1 ≠ μ 2 W={t; |t| ≥ t 1- α/2 (n+m-2)} 38

39 T EST SHODY DVOU PRŮMĚRŮ MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry se stejným rozptylem = 2) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je, pak má H A tvar: μ 1 < μ 2. 39

40 T EST SHODY DVOU PRŮMĚRŮ Nulová hypotéza: H 0 : μ 1 = μ 2 Alt. hypotézy: H A : μ 1 > μ 2 pravostranná hypotéza H A : μ 1 < μ 2 levostranná hypotéza H A : μ 1 ≠ μ 2 oboustranná hypotéza Testovací statistika: (za podmínky σ 2 1 ≠ σ 2 2 ) má Studentovo t rozdělení s (v) stupni volnosti: 40

41 T EST SHODY DVOU PRŮMĚRŮ Kritický obor: H A : μ 1 > μ 2 W={t; t ≥ t 1- α (v)} H A : μ 1 < μ 2 W={t; t ≤ t α (v)} H A : μ 1 ≠ μ 2 W={t; |t| ≥ t 1- α/2 (v)} 41

42 T EST SHODY DVOU PRŮMĚRŮ MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry s různým rozptylem = 3) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s nerovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je, pak má H A tvar: μ 1 < μ 2. 42

43 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru skupiny zdravých lidí a skupiny nemocných. Naměřené hodnoty jsou v tabulce. Porovnejte na hladině významnosti 0,05 obsahy vápníku obou skupin, tj. určete, zda se obě skupiny od sebe statisticky významně liší. Předpoklad normality základních souborů je splněn. Jedná se o test shody dvou průměrů! Pro tento test je nutné nejprve vědět, jestli jsou rozptyly stejné σ 2 1 = σ 2 2 nebo různé σ 2 1 ≠ σ 2 2. Proto nejdříve provedeme test shody dvou rozptylů a teprve poté test shody dvou průměrů. Zdraví lidé Nemocní lidé obsah Ca (mmol/l) obsah Ca (mmol/l) 2,152,09 2,131,8 2,271,97 2,522,35 2,112,08 2,261,9 2,342,06 2,682,3 2,242,35 43

44 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... S pomocí MS Excel. 1.Formulace H 0 a H A : H 0 : σ 2 1 = σ 2 2 vs. H A : σ 2 1 ≠ σ Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: = FTEST (první oblast; druhá oblast) 44

45 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... 4.Zjištění p-hodnoty : = 0, Formulace závěru testu: Protože platí p-hodnota > α (0, > 0,05) nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že rozptyly obou souborů jsou stejné. Nyní lze přistoupit k samotnému testu shody dvou průměrů. 45

46 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... S pomocí MS Excel lze řešit i alternativně: H 0 : σ 2 1 =σ 2 2 vs. H A : σ 2 1 ≠ σ 2 2 Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl 46

47 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... Analýza dat počítá p-hodnotu jednostranného testu. P-hodnota oboustranného testu je 2x menší z hodnot p-hodnota (0,45285) a 1-p-hodnota (0,54715). P-hodnota oboustranného testu: P-hodnota = = 2*0,45285 = = 0,

48 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... S pomocí MS Excel. 1.Formulace H 0 a H A : H 0 : μ 1 = μ 2 vs. H A : μ 1 ≠ μ 2 2.Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; oboustranný test = 2; výběry se stejným rozptylem = 2) 48

49 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... 4.Zjištění p-hodnoty : = 0, Formulace závěru testu: Protože platí p-hodnota < α (0, < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Obsahy jsou rozdílné. 49

50 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... MS Excel: Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů jednostranný test H 0 : μ 1 ≤ μ 2 H A : μ 1 > μ 2 oboustranný test H 0 : μ 1 = μ 2 H A : μ 1 ≠ μ 2 50

51 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byl měřen obsah vápníku v krevním séru... 5.Formulace závěru testu: Na základě oboustranného testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Na základě jednostranného testu přijímáme hypotézu, že obsah Ca v krevním séru zdravých lidí je vyšší než u lidí nemocných! 51

52 T EST SHODY DVOU PRŮMĚRŮ Nulová hypotéza : H 0 : μ 1 = μ 2 Alt. hypotézy: H A : μ 1 > μ 2 pravostranná hypotéza H A : μ 1 < μ 2 levostranná hypotéza H A : μ 1 ≠ μ 2 oboustranná hypotéza Použití: v případech, kdy hodnoty ve výběrových souborech tvoří páry. Jde o párový test shody dvou průměrů. MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje – Analýza dat – Dvouvýběrový párový t-test na střední hodnotu 52

53 T EST SHODY DVOU PRŮMĚRŮ Příklad: Na skupině dobrovolníků byl testován prostředek na snížení váhy. Hmotnosti 12 testovaných lidí před a po dietní kůře jsou v tabulce. Určete párovým testem, zda je prostředek na hladině významnosti 0,05 účinný. Předpoklad normality základních souborů je splněn. Jedná se o párový test shody dvou průměrů, protože hmotnosti před a po se vztahují k jednomu člověku. U tohoto testu není nutné zjišťovat, zda jsou rozptyly obou souborů stejné nebo ne. hmotnost před dietou (kg) hmotnost po dietě (kg)

54 T EST SHODY DVOU PRŮMĚRŮ Příklad: Na skupině dobrovolníků byl testován prostředek... S pomocí MS Excel. 1.Formulace H 0 a H A : H 0 : μ 1 ≤ μ 2 vs. H A : μ 1 > μ 2 2.Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje - Analýza dat – Dvouvýběrový párový t-test na střední hodnotu 54

55 T EST SHODY DVOU PRŮMĚRŮ Příklad: Na skupině dobrovolníků byl testován prostředek... jednostranný test H 0 : μ 1 ≤ μ 2 H A : μ 1 > μ 2 (p-hodnota) oboustranný test H 0 : μ 1 = μ 2 H A : μ 1 ≠ μ 2 (p-hodnota) 55

56 T EST SHODY DVOU PRŮMĚRŮ Příklad: Na skupině dobrovolníků byl testován prostředek... 4.Zjištění p-hodnoty : = 0,004 5.Formulace závěru testu: Protože platí p-hodnota < α (0,004 < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že hmotnost před a po dietě je stejná a přijímáme hypotézu, že hmotnost po dietě skutečně klesla. 56

57 T EST SHODY VÍCE PRŮMĚRŮ Nulová hypotéza : H 0 : μ 1 = μ 2 = μ 3 = μ 4 =... Alternativní hypotéza: H A : alespoň dva průměry se nerovnají Jedná se o tzv. Analýzu rozptylu (ANOVA). Podmínky analýzy: výběry pocházejí z normálního rozdělení rozptyly všech souborů jsou stejné σ 2 1 = σ 2 2 = σ 2 3 = σ = σ k ověření postačuje pravidlo: MS Excel: Data – Analýza – Analýza dat – Anova: jeden faktor 57

58 T EST SHODY VÍCE PRŮMĚRŮ Testovací statistika: F má Fisherovo F rozdělení s (k-1; n-k) stupni volnosti, kde k... počet kategorií (počet výběrů) n... celkový počet prvků ve všech kategoriích Kritický obor: W={F; F ≥ F 1- α (k-1;n-k)} 58

59 T EST SHODY DVOU PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie 4+1 ve třech městech. Náhodně se podle inzerátů podařilo získat následující ceny (v tis. Kč). Jsou ceny v průměru stejné? Porovnáváme průměrné ceny bytů, použijeme analýzu rozptylu. ABC

60 T EST SHODY VÍCE PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie S pomocí MS Excel. 1.Formulace H 0 a H A : H 0 : μ 1 = μ 2 = μ 3 vs. H A : alespoň dva průměry se nerovnají nebo také H 0 : „průměrné ceny jsou všude stejné“ vs. H A : „průměry se liší“ 2.Volba hladiny významnosti: α = 0,05 3.Volba vhodné testovací statistiky: Data – Analýza – Analýza dat – Anova: jeden faktor 60

61 T EST SHODY VÍCE PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie

62 T EST SHODY VÍCE PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie Ověření podmínky rovnosti rozptylů: Maximální s i je pro město B (s i = √98640 = 314,1 ). Minimální s i je pro město C (s i = √ = 183,8). 314,1/183,8 = 1,71. Podíl je menší než 3, rozptyly lze považovat za rovné. Analýzu rozptylu lze použít. 62

63 T EST SHODY VÍCE PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie Protože platí p-hodnota > α (0,2167 > 0,05) nezamítáme nulovou hypotézu. Testovací statistika F Kritický obor 63

64 T EST SHODY VÍCE PRŮMĚRŮ Příklad: Byly sledovány ceny bytů kategorie S pomocí analýzy rozptylu se na hladině významnosti 0,05 nepodařilo prokázat, že by se průměrné ceny bytů v jednotlivých městech lišily. Průměrné ceny bytů jsou ve všech třech městech stejné. 64

65 Statistická hypotéza Nulová a alternativní hypotéza Hladina významnosti Testovací statistika Kritický obor P-hodnota testu Jednovýběrové testy Dvouvýběrové testy Vícevýběrové testy Předpoklad normality 65 T ESTOVÁNÍ STATISTICKÝCH HYPOTÉZ D ŮLEŽITÉ POJMY – 5. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google