Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Testování statistických hypotéz
HA: σ21 > σ22 W={F; F ≥ F1-α(n-1;m-1)} HA: σ21 < σ22 W={F; F ≤ Fα(n-1;m-1)} HA: σ21 ≠ σ22 W={F; F ≤ Fα/2(n-1;m-1) U F ≥ F1-α/2(n-1;m-1)} Testování statistických hypotéz

3 Testování hypotéz Úvod do testování statistických hypotéz
Parametrické testy jednovýběrové Parametrické testy dvouvýběrové Parametrické testy vícevýběrové

4 Testování hypotéz Statistická hypotéza je určitý předpoklad (domněnka) o rozdělení jednoho nebo více základních souborů. Předpoklad se týká: parametrů rozdělení základního souboru (např. μ, σ, σ2, π) - Je průměrná hmotnost novorozenců vetší než 2600 g? - Je po dietě nižší hmotnost než před dietou? zákona rozdělení základního souboru (zda má proměnná konkrétní pravděpodobnostní rozdělení) - Má hmotnost novorozenců normální rozdělení? - Má koncentrace SO2 chí-kvadrát rozdělení?

5 Testování hypotéz Testem hypotézy je postup, pomocí kterého na základě výběrového souboru ověříme, zda je hypotéza správná nebo nesprávná. Testovaná hypotéza se značí H0 (nulová hypotéza). Opačná hypotéza je HA (alternativní hypotéza). Opačnou hypotézu přijmeme pokud nulovou hypotézu zamítáme. Výsledkem testu je tedy buď přijetí nebo zamítnutí H0. Např.: H0: Průměrný věk soudců je 50 let. HA: Průměrný věk soudců není 50 let.

6 Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy týkající se průměrného věku soudců. Je průměrný věk soudců 50 let? H0: μ = 50 vs. HA: μ ≠ 50 oboustranná hypotéza Je průměrný věk soudců vyšší než 50 let? H0: μ ≤ 50 vs. HA: μ > 50 pravostranná hypotéza Je průměrný věk soudců nižší než 50 let? H0: μ ≥ 50 vs. HA: μ < 50 levostranná hypotéza !

7 Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o dvou populačních poměrech. Podporuje vládu 70 % voličů? H0: π = 70% vs. HA: π ≠ 70% oboustranná hypotéza Podporuje vládu více jak 70 % voličů? H0: π ≤ 70% vs. HA: π > 70% pravostranná hypotéza Podporuje vládu méně jak 70 % voličů? H0: π ≥ 70% vs. HA: π < 70% levostranná hypotéza !

8 Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o dvou populačních průměrech. Je průměrný věk soudců a advokátů stejný? H0: μsoudci = μadvokáti vs. HA: μsoudci ≠ μadvokáti Je průměrný věk soudců vyšší než průměrný věk advokátů? H0: μsoudci ≤ μadvokáti vs. HA: μsoudci > μadvokáti Je průměrný věk soudců nižší než průměrný věk advokátů? H0: μsoudci ≥ μadvokáti vs. HA: μsoudci < μadvokáti !

9 Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o více populačních poměrech. Je průměrný cena bytu stejná ve třech vybraných městech? H0: μ1. město = μ2.město = μ3. město vs. HA: alespoň dva průměry se nerovnají !

10 α se nazývá hladina významnosti*.
Testování hypotéz Stejně jako u intervalových odhadů nelze zjistit, zda platí hypotéza na 100 %. Nejčastěji se používají testy s jistotou 99 %, 95 % nebo 90 %, obecně 1-α. α se nazývá hladina významnosti*. Je to pravděpodobnost chyby testu, kdy zamítneme H0, přestože tato hypotéza platí (tzv. chyba 1. řádu). Existuje i chyba 2. řádu β, že nezamítneme H0, i když byla hypotéza nesprávná. *Poznámka: Při konstrukci intervalů spolehlivosti (přednáška 4) se α nazývá hladina spolehlivosti.

11 Testování hypotéz Samotné testování se provádí pomocí testovací statistiky, číslo vypočtené dle zadaného vzorce, jehož hodnota má konkrétní pravděpodobnostní rozdělení a určuje, která hypotéza platí. Každému testu odpovídá konkrétní testovací statistika. Autor testové statistiky uvádí i její pravděpodobnostní rozdělení (nejčastěji jde o spojitá rozdělení: Normální, Studentovo, Chí- kvadrát, F rozdělení ). Pokud je hodnota statistiky příliš extrémní (příliš vysoká nebo příliš nízká) zamítneme H0 a přijmeme HA (to, zda je statistika extrémní, lze zjistit jejím porovnáním s kvantily odpovídajícího rozdělení testovací statistiky - př. 3).

12 Testování hypotéz Oboustranný test o střední hodnotě
H0: μ = 50 let vs. HA: μ ≠ 50 let pro α = 0,05 Kritický obor – testovací statistika je příliš nízká! Zamítáme H0 Kritický obor – testovací statistika je příliš vysoká! Zamítáme H0 Obor přijetí H0

13 Testování hypotéz Levostranný test o střední hodnotě
H0: μ ≥ 50 let vs. HA: μ < 50 let pro α = 0,05 Kritický obor – testovací statistika je příliš nízká! Obor přijetí H0

14 Testování hypotéz Pravostranný test o střední hodnotě
H0: μ ≤ 50 let vs. HA: μ > 50 let pro α = 0,05 Obor přijetí H0 Kritický obor – testovací statistika je příliš vysoká!

15 Testování hypotéz 7. Formulace závěru testu:
1. Formulace H0 a HA (pozor na jejich správné pořadí). 2. Volba hladiny významnosti α (pokud není výslovně dáno volí se α = 0,05). 3. Volba testovací statistiky – závisí na tom, co testujeme. 4. Vymezení kritického oboru – závisí na rozdělení testovací statistiky. 5. Výpočet testovací statistiky z hodnot výběru. 6. Zjištění, zda testovací statistika padne do kritického oboru. 7. Formulace závěru testu: Padne-li testovací statistika do kritického oboru, pak zamítáme H0 a přijímáme HA. Nepadne-li, nezamítáme H0 (H0 platí).

16 Testování hypotéz – Počítačový software
1. Formulace H0 a HA (pozor na jejich správné pořadí). 2. Volba hladiny významnosti α (pokud není výslovně dáno volí se α = 0,05). 3. Volba vhodné testovací statistiky – tedy odpovídající funkce. 4. Výpočet p-hodnoty (provede program) – p-value. 7. Formulace závěru testu: Je-li p-hodnota < α zamítáme H0 a přijímáme HA. Je-li p-hodnota > α nezamítáme H0 (H0 platí).

17 Testování hypotéz – Počítačový software
Základem úspěchu při vyhodnocování testů statistických hypotéz je následující pravidlo: Je-li p-hodnota testu < α zamítáme H0 a přijímáme HA. Je-li p-hodnota testu > α nezamítáme H0 (H0 platí).

18 Testování hypotéz P-hodnota
Je nejnižší hladina významnosti α, na které lze zamítnout H0. Např.: p-value = 0,001. H0 lze zamítnout na hladině významnosti α = 0,05 nebo i 0,01 (tedy i s 99% jistotou) p-value = 0,001 Obor přijetí

19 Testování hypotéz P-hodnota
Je nejnižší hladina významnosti, na které lze zamítnout H0. Např.: p-value = 0,4. H0 nelze zamítnout na hladině významnosti α = 0,05 , ale pro α = 0,45 ano (tedy s jistotou 55%). p-value = 0,4 Obor přijetí

20 Testování hypotéz Existují dvě základní skupiny testů:
Parametrické testy – týkají se přímo parametrů daného základního souboru (μ, σ, σ2, π). Jsou početně náročnější ovšem silné (jejich výsledek je dosti přesný). Neparametrické – Nejsou početně náročné, ale mají menší sílu. Používají se, pokud nejsou splněny podmínky použití testů parametrických (data nejsou normálně rozdělena, data mají ordinální charakter, výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů). Lze je použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení validity testů.

21 Testy střední hodnoty Počet výběrů Závislé/ nezávislé Počet hodnot
Rozdělení Test Nástroj 1 - n ≥ 30 Jednovýběrový t-test MS Excel n < 30 Normální Není normální Znaménkový test Online kalkulátory 2 Nezávislé Dvouvýběrový t-test Normální rozdělení Mann–Whitneův test nebo Wilcoxonův test Závislé (párové) Dvouvýběrový párový t-test Wilcoxonův test

22 Kruskal–Wallisův test
Testy střední hodnoty Počet výběrů Závislé/ nezávislé Rozdělení Rozptyly Test Nástroj 3 a více Nezávislé Normální rozdělení Shodné ANOVA MS Excel - Kruskal–Wallisův test Online kalkulátory Závislé Friedmanův test

23 Testování hypotéz Parametrické testy se zabývají parametry základního souboru. Má-li základní soubor normální rozdělení N(μ;σ2), pak lze testovat právě střední hodnotu (populační průměr μ) a rozptyl σ2. Tento předpoklad musí být splněn u všech následujících testů! Někdy je uváděna volnější podmínka počtu hodnot ve výběru (n > 30).

24 Test velikosti střední hodnoty μ
Nulová hypotéza: H0: μ = μ0 , kde μ0 je konkrétní číslo Alt. hypotézy: HA: μ > μ0 pravostranná hypotéza HA: μ < μ0 levostranná hypotéza HA: μ ≠ μ0 oboustranná hypotéza Test. statistika: má Studentovo t rozdělení s (n-1) stupni volnosti Krit. obor: pro HA: μ > μ0 W={t; t ≥ t1-α(n-1)} pro HA: μ < μ0 W={t; t ≤ tα(n-1)} pro HA: μ ≠ μ0 W={t; |t| ≥ t1-α/2(n-1)}

25 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců. Bylo dotázáno 45 náhodně vybraných soudců. Dotázaní mají průměrný věk 49,58 let a směrodatnou odchylkou výběru 4,8 roku. Na hladině významnosti α = 0,05 (pravděpodobnost chybného závěru testu 5 %) máme zjisti, zda je průměrný věk soudců nižší jak 50 let. Jedná se o test velikosti střední hodnoty! Zabýváme se průměrným věkem soudců. Postupuje se podle dříve uvedených kroků (snímek 13):

26 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců... Formulace H0 a HA: H0: μ ≥ 50 let vs. HA: μ < 50 let Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: Vymezení kritického oboru: Alternativní hypotéze HA odpovídá kritický obor W={t; t ≤ tα(n-1)} , tedy W={t; t ≤ t0,05(45-1)} , W={t; t ≤ -1,68}.

27 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců… Výpočet testovací statistiky t z hodnot výběru: Zjištění, zda testovací statistika t padne do kritického oboru: Hodnota testovací statistiky je -0,28 . Testovací statistika nepadne do kritického oboru W={t; t ≤ -1,68}, (protože -0,28 > -1,68), takže nezamítáme H0. Formulace závěru testu: Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že průměrný věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí HA).

28 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců… H0: μ ≥ 50 let vs. HA: μ < 50 let Testovací statistika t = -0,28 5% 95% Obor přijetí Kritický obor W={t; t ≤ -1,68}

29 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců… S pomocí MS Excel. Je nutné mít pracovat se zdrojovými daty! Nestačí průměr a směrodatná odchylka, ale všech 45 hodnot! Formulace H0 a HA: H0: μ ≥ 50 let vs. HA: μ < 50 let !Excel počítá p-hodnotu pro alternativní hypotézu HA:μ > μ0! P-hodnotu pro levostranný test bude nutno přepočítat. Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = 1-ZTEST (oblast dat; hypotetická hodnota μ0 tedy 50; sigma = nezadává se!)

30 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců… Zjištění p-hodnoty testu: = 1-0,781 = 0,219 Formulace závěru testu: Protože platí: p-hodnota > α neboli 0,219 > 0,05, nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí HA).

31 Test velikosti střední hodnoty μ
Práce s výstupem funkce ZTEST Pro pravostranný test (HA: μ > μ0) je p-hodnotou přímo hodnota vypočtená funkcí ZTEST. Pro levostranný test (HA: μ < μ0) je nutno p-hodnotu dopočítat podle vzorečku 1 - hodnota vypočtená funkcí ZTEST. Pro oboustranný test (HA: μ ≠ μ0) je nutno p-hodnotu dopočítat podle vzorečku 2x menší z hodnot (hodnota vypočtená funkcí ZTEST, 1 - hodnota vypočtená funkcí ZTEST).

32 Test velikosti střední hodnoty μ
Příklad: Předmětem zájmu je věk soudců… Funkce ZTEST vypočetla hodnotu 0,781. P-hodnota pro pravostranný test (HA: μ > 50) je 0,781 (platí H0). P-hodnota pro levostranný test (HA: μ < 50) je 1 – 0,781 = 0,219 (platí H0). P-hodnota pro oboustranný test (HA: μ ≠ 50) je 2 x menší z hodnot (0,781 a 0,219) = 2x 0,219 = 0,438 (platí H0).

33 Test velikosti rozptylu σ2
Nulová hypotéza: H0: σ2 = σ20 , kde σ20 je konkrétní číslo Alt. hypotézy: HA: σ2 > σ20 pravostranná hypotéza HA: σ2 < σ20 levostranná hypotéza HA: σ2 ≠ σ20 oboustranná hypotéza Testovací statistika: má chí-kvadrát rozdělení s (n - 1) stupni volnosti Kritický obor: HA: σ2 > σ20 W={z; z ≥ χ21-α(n-1)} HA: σ2 < σ20 W={z; z ≤ χ2α(n-1)} HA: σ2 ≠ σ20 W={z; z ≤ χ2α/2(n-1) U z ≥ χ21-α/2(n-1)}

34 Testování hypotéz – Dva výběry
Stejně jako u intervalů spolehlivosti lze pomocí testů porovnávat dva výběry. Pocházejí-li oba výběry ze základních souborů s normálním rozdělením N(μ;σ2), pak lze testovat právě shodu středních hodnot (populačních průměrů) a rozptylů. Pocházejí-li oba ze základních souborů s binomickým rozdělením Bi(n;π), pak lze testovat shodu populačních poměrů. Toto jsou nejčastější aplikace testování statistických hypotéz pro dva výběry.

35 Test shody dvou rozptylů
Nulová hypotéza: H0: σ21 = σ22 Alt.hypotézy: HA: σ21 > σ22 pravostranná hypotéza HA: σ21 < σ22 levostranná hypotéza HA: σ21 ≠ σ22 oboustranná hypotéza Testovací statistika: má F rozdělení s (n-1; m-1) stupni volnosti Kritický obor: HA: σ21 > σ22 W={F; F ≥ F1-α(n-1;m-1)} HA: σ21 < σ22 W={F; F ≤ Fα(n-1;m-1)} HA: σ21 ≠ σ22 W={F; F ≤ Fα/2(n-1;m-1) U F ≥ F1-α/2(n-1;m-1)}

36 Test shody dvou rozptylů
MS Excel = FTEST (první oblast; druhá oblast) počítá p-hodnotu oboustranného testu. nebo Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl počítá p-hodnotu vybraného jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je s21<s 22, pak má HA tvar: σ21 < σ22 .

37 Test shody dvou průměrů
Nulová hypotéza: H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Testovací statistika má Studentovo t rozdělení (za podmínky σ21 = σ22) (n+m-2) stupni volnosti , kde

38 Test shody dvou průměrů
Kritický obor: HA: μ1 > μ2 W={t; t ≥ t1-α(n+m-2)} HA: μ1 < μ2 W={t; t ≤ tα(n+m-2)} HA: μ1 ≠ μ2 W={t; |t| ≥ t1-α/2(n+m-2)}

39 Test shody dvou průměrů
MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry se stejným rozptylem = 2) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je , pak má HA tvar: μ1 < μ2 .

40 Test shody dvou průměrů
Nulová hypotéza: H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Testovací statistika: (za podmínky σ21 ≠ σ22) má Studentovo t rozdělení s (v) stupni volnosti:

41 Test shody dvou průměrů
Kritický obor: HA: μ1 > μ2 W={t; t ≥ t1-α(v)} HA: μ1 < μ2 W={t; t ≤ tα(v)} HA: μ1 ≠ μ2 W={t; |t| ≥ t1-α/2(v)}

42 Test shody dvou průměrů
MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry s různým rozptylem = 3) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s nerovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je , pak má HA tvar: μ1 < μ2 .

43 Test shody dvou průměrů
Zdraví lidé Nemocní lidé obsah Ca (mmol/l) 2,15 2,09 2,13 1,8 2,27 1,97 2,52 2,35 2,11 2,08 2,26 1,9 2,34 2,06 2,68 2,3 2,24 Příklad: Byl měřen obsah vápníku v krevním séru skupiny zdravých lidí a skupiny nemocných. Naměřené hodnoty jsou v tabulce. Porovnejte na hladině významnosti 0,05 obsahy vápníku obou skupin, tj. určete, zda se obě skupiny od sebe statisticky významně liší. Předpoklad normality základních souborů je splněn. Jedná se o test shody dvou průměrů! Pro tento test je nutné nejprve vědět, jestli jsou rozptyly stejné σ21 = σ22 nebo různé σ21 ≠ σ22. Proto nejdříve provedeme test shody dvou rozptylů a teprve poté test shody dvou průměrů.

44 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel. Formulace H0 a HA: H0: σ21 = σ22 vs. HA: σ21 ≠ σ22 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = FTEST (první oblast; druhá oblast)

45 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... Zjištění p-hodnoty : = 0, Formulace závěru testu: Protože platí p-hodnota > α (0, > 0,05) nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že rozptyly obou souborů jsou stejné. Nyní lze přistoupit k samotnému testu shody dvou průměrů.

46 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel lze řešit i alternativně: H0: σ21=σ22 vs. HA: σ21≠ σ22 Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl

47 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... Analýza dat počítá p-hodnotu jednostranného testu. P-hodnota oboustranného testu je 2x menší z hodnot p-hodnota (0,45285) a 1-p-hodnota (0,54715). P-hodnota oboustranného testu: P-hodnota = = 2*0,45285 = = 0,9057.

48 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel. Formulace H0 a HA: H0: μ1 = μ2 vs. HA: μ1 ≠ μ2 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; oboustranný test = 2; výběry se stejným rozptylem = 2)

49 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... Zjištění p-hodnoty : = 0, Formulace závěru testu: Protože platí p-hodnota < α (0, < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Obsahy jsou rozdílné.

50 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... MS Excel: Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů jednostranný test H0: μ1 ≤ μ2 HA: μ1 > μ2 oboustranný test H0: μ1 = μ2 HA: μ1 ≠ μ2

51 Test shody dvou průměrů
Příklad: Byl měřen obsah vápníku v krevním séru ... Formulace závěru testu: Na základě oboustranného testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Na základě jednostranného testu přijímáme hypotézu, že obsah Ca v krevním séru zdravých lidí je vyšší než u lidí nemocných!

52 Test shody dvou průměrů
Nulová hypotéza : H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Použití: v případech, kdy hodnoty ve výběrových souborech tvoří páry. Jde o párový test shody dvou průměrů. MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje – Analýza dat – Dvouvýběrový párový t-test na střední hodnotu

53 Test shody dvou průměrů
hmotnost před dietou (kg) hmotnost po dietě (kg) 85 76 75 90 81 65 64 150 155 80 72 110 99 56 45 88 89 73 66 67 134 Příklad: Na skupině dobrovolníků byl testován prostředek na snížení váhy. Hmotnosti 12 testovaných lidí před a po dietní kůře jsou v tabulce. Určete párovým testem, zda je prostředek na hladině významnosti 0,05 účinný. Předpoklad normality základních souborů je splněn. Jedná se o párový test shody dvou průměrů, protože hmotnosti před a po se vztahují k jednomu člověku. U tohoto testu není nutné zjišťovat, zda jsou rozptyly obou souborů stejné nebo ne.

54 Test shody dvou průměrů
Příklad: Na skupině dobrovolníků byl testován prostředek ... S pomocí MS Excel. Formulace H0 a HA: H0: μ1 ≤ μ2 vs. HA: μ1 > μ2 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje - Analýza dat – Dvouvýběrový párový t-test na střední hodnotu

55 Test shody dvou průměrů
Příklad: Na skupině dobrovolníků byl testován prostředek ... jednostranný test H0: μ1 ≤ μ2 HA: μ1 > μ2 (p-hodnota) oboustranný test H0: μ1 = μ2 HA: μ1 ≠ μ2

56 Test shody dvou průměrů
Příklad: Na skupině dobrovolníků byl testován prostředek ... Zjištění p-hodnoty : = 0,004 Formulace závěru testu: Protože platí p-hodnota < α (0,004 < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že hmotnost před a po dietě je stejná a přijímáme hypotézu, že hmotnost po dietě skutečně klesla.

57 Test shody více průměrů
Nulová hypotéza : H0: μ1 = μ2 = μ3 = μ4 = ... Alternativní hypotéza: HA: alespoň dva průměry se nerovnají Jedná se o tzv. Analýzu rozptylu (ANOVA). Podmínky analýzy: výběry pocházejí z normálního rozdělení rozptyly všech souborů jsou stejné σ21 = σ22= σ23 = σ = σ k ověření postačuje pravidlo: MS Excel: Data – Analýza – Analýza dat – Anova: jeden faktor

58 Test shody více průměrů
Testovací statistika: F má Fisherovo F rozdělení s (k-1; n-k) stupni volnosti, kde k ... počet kategorií (počet výběrů) n ... celkový počet prvků ve všech kategoriích Kritický obor: W={F; F ≥ F1-α(k-1;n-k)}

59 Test shody dvou průměrů
Příklad: Byly sledovány ceny bytů kategorie 4+1 ve třech městech. Náhodně se podle inzerátů podařilo získat následující ceny (v tis. Kč). Jsou ceny v průměru stejné? Porovnáváme průměrné ceny bytů, použijeme analýzu rozptylu. A B C 1040 900 1550 950 1700 1300 1100 1290 1220 1570 1660 820 1250 1340 1460

60 Test shody více průměrů
Příklad: Byly sledovány ceny bytů kategorie S pomocí MS Excel. Formulace H0 a HA: H0: μ1 = μ2 = μ3 vs. HA: alespoň dva průměry se nerovnají nebo také H0: „průměrné ceny jsou všude stejné“ vs. HA: „průměry se liší“ Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: Data – Analýza – Analýza dat – Anova: jeden faktor

61 Test shody více průměrů
Příklad: Byly sledovány ceny bytů kategorie

62 Test shody více průměrů
Příklad: Byly sledovány ceny bytů kategorie Ověření podmínky rovnosti rozptylů: Maximální si je pro město B (si = √98640 = 314,1). Minimální si je pro město C (si = √33780 = 183,8). 314,1/183,8 = 1,71. Podíl je menší než 3, rozptyly lze považovat za rovné. Analýzu rozptylu lze použít.

63 Test shody více průměrů
Příklad: Byly sledovány ceny bytů kategorie Testovací statistika F Kritický obor Protože platí p-hodnota > α (0,2167 > 0,05) nezamítáme nulovou hypotézu.

64 Test shody více průměrů
Příklad: Byly sledovány ceny bytů kategorie S pomocí analýzy rozptylu se na hladině významnosti 0,05 nepodařilo prokázat, že by se průměrné ceny bytů v jednotlivých městech lišily. Průměrné ceny bytů jsou ve všech třech městech stejné.

65 Testování statistických hypotéz Důležité pojmy – 5. přednáška
Statistická hypotéza Nulová a alternativní hypotéza Hladina významnosti Testovací statistika Kritický obor P-hodnota testu Jednovýběrové testy Dvouvýběrové testy Vícevýběrové testy Předpoklad normality


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google