Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Testování parametrických hypotéz
Testování neparametrických hypotéz
Testování statistických hypotéz
Statistické metody v ochraně kulturního dědictví
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Cvičení 6 – 25. října 2010 Heteroskedasticita
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
P‑value ano, či ne? Roman Biskup
Výzkumy volebních preferencí za ČR a kraje od
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Zábavná matematika.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Testování hypotéz (ordinální data)
Testování hypotéz přednáška.
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Náhodná proměnná Rozdělení.
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Náhoda, generátory náhodných čísel
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
TRUHLÁŘ II.ročník Výrobní zařízení Střední škola stavební Teplice
Testování hypotéz vymezení důležitých pojmů
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
T - testy. Předpokládejme, že data mají normální rozdělení (pocházejí z normálního rozdělení N(m, s2)). Předpokládejme, že parametr s rozdělení je znám.
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Přednost početních operací
KONTROLNÍ PRÁCE.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Biostatistika 6. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
PSY717 – statistická analýza dat
Základy testování hypotéz
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Jednovýběrový a párový t - test
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Testování hypotéz párový test
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Odhady parametrů základního souboru
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
příklad: hody hrací kostkou
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Testování hypotéz - pojmy
Transkript prezentace:

Statistika Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW: http://most.ujep.cz/~popelka

Testování statistických hypotéz HA: σ21 > σ22 W={F; F ≥ F1-α(n-1;m-1)} HA: σ21 < σ22 W={F; F ≤ Fα(n-1;m-1)} HA: σ21 ≠ σ22 W={F; F ≤ Fα/2(n-1;m-1) U F ≥ F1-α/2(n-1;m-1)} Testování statistických hypotéz

Testování hypotéz Úvod do testování statistických hypotéz Parametrické testy jednovýběrové Parametrické testy dvouvýběrové Parametrické testy vícevýběrové

Testování hypotéz Statistická hypotéza je určitý předpoklad (domněnka) o rozdělení jednoho nebo více základních souborů. Předpoklad se týká: parametrů rozdělení základního souboru (např. μ, σ, σ2, π) - Je průměrná hmotnost novorozenců vetší než 2600 g? - Je po dietě nižší hmotnost než před dietou? zákona rozdělení základního souboru (zda má proměnná konkrétní pravděpodobnostní rozdělení) - Má hmotnost novorozenců normální rozdělení? - Má koncentrace SO2 chí-kvadrát rozdělení?

Testování hypotéz Testem hypotézy je postup, pomocí kterého na základě výběrového souboru ověříme, zda je hypotéza správná nebo nesprávná. Testovaná hypotéza se značí H0 (nulová hypotéza). Opačná hypotéza je HA (alternativní hypotéza). Opačnou hypotézu přijmeme pokud nulovou hypotézu zamítáme. Výsledkem testu je tedy buď přijetí nebo zamítnutí H0. Např.: H0: Průměrný věk soudců je 50 let. HA: Průměrný věk soudců není 50 let.

Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy týkající se průměrného věku soudců. Je průměrný věk soudců 50 let? H0: μ = 50 vs. HA: μ ≠ 50 oboustranná hypotéza Je průměrný věk soudců vyšší než 50 let? H0: μ ≤ 50 vs. HA: μ > 50 pravostranná hypotéza Je průměrný věk soudců nižší než 50 let? H0: μ ≥ 50 vs. HA: μ < 50 levostranná hypotéza !

Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o dvou populačních poměrech. Podporuje vládu 70 % voličů? H0: π = 70% vs. HA: π ≠ 70% oboustranná hypotéza Podporuje vládu více jak 70 % voličů? H0: π ≤ 70% vs. HA: π > 70% pravostranná hypotéza Podporuje vládu méně jak 70 % voličů? H0: π ≥ 70% vs. HA: π < 70% levostranná hypotéza !

Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o dvou populačních průměrech. Je průměrný věk soudců a advokátů stejný? H0: μsoudci = μadvokáti vs. HA: μsoudci ≠ μadvokáti Je průměrný věk soudců vyšší než průměrný věk advokátů? H0: μsoudci ≤ μadvokáti vs. HA: μsoudci > μadvokáti Je průměrný věk soudců nižší než průměrný věk advokátů? H0: μsoudci ≥ μadvokáti vs. HA: μsoudci < μadvokáti !

Testování hypotéz Nulová hypotéza testu obsahuje vždy znaménko rovná se =! Alternativní hypotéza je vždy opakem H0. Hypotézy o více populačních poměrech. Je průměrný cena bytu stejná ve třech vybraných městech? H0: μ1. město = μ2.město = μ3. město vs. HA: alespoň dva průměry se nerovnají !

α se nazývá hladina významnosti*. Testování hypotéz Stejně jako u intervalových odhadů nelze zjistit, zda platí hypotéza na 100 %. Nejčastěji se používají testy s jistotou 99 %, 95 % nebo 90 %, obecně 1-α. α se nazývá hladina významnosti*. Je to pravděpodobnost chyby testu, kdy zamítneme H0, přestože tato hypotéza platí (tzv. chyba 1. řádu). Existuje i chyba 2. řádu β, že nezamítneme H0, i když byla hypotéza nesprávná. *Poznámka: Při konstrukci intervalů spolehlivosti (přednáška 4) se α nazývá hladina spolehlivosti.

Testování hypotéz Samotné testování se provádí pomocí testovací statistiky, číslo vypočtené dle zadaného vzorce, jehož hodnota má konkrétní pravděpodobnostní rozdělení a určuje, která hypotéza platí. Každému testu odpovídá konkrétní testovací statistika. Autor testové statistiky uvádí i její pravděpodobnostní rozdělení (nejčastěji jde o spojitá rozdělení: Normální, Studentovo, Chí- kvadrát, F rozdělení ). Pokud je hodnota statistiky příliš extrémní (příliš vysoká nebo příliš nízká) zamítneme H0 a přijmeme HA (to, zda je statistika extrémní, lze zjistit jejím porovnáním s kvantily odpovídajícího rozdělení testovací statistiky - př. 3).

Testování hypotéz Oboustranný test o střední hodnotě H0: μ = 50 let vs. HA: μ ≠ 50 let pro α = 0,05 Kritický obor – testovací statistika je příliš nízká! Zamítáme H0 Kritický obor – testovací statistika je příliš vysoká! Zamítáme H0 Obor přijetí H0

Testování hypotéz Levostranný test o střední hodnotě H0: μ ≥ 50 let vs. HA: μ < 50 let pro α = 0,05 Kritický obor – testovací statistika je příliš nízká! Obor přijetí H0

Testování hypotéz Pravostranný test o střední hodnotě H0: μ ≤ 50 let vs. HA: μ > 50 let pro α = 0,05 Obor přijetí H0 Kritický obor – testovací statistika je příliš vysoká!

Testování hypotéz 7. Formulace závěru testu: 1. Formulace H0 a HA (pozor na jejich správné pořadí). 2. Volba hladiny významnosti α (pokud není výslovně dáno volí se α = 0,05). 3. Volba testovací statistiky – závisí na tom, co testujeme. 4. Vymezení kritického oboru – závisí na rozdělení testovací statistiky. 5. Výpočet testovací statistiky z hodnot výběru. 6. Zjištění, zda testovací statistika padne do kritického oboru. 7. Formulace závěru testu: Padne-li testovací statistika do kritického oboru, pak zamítáme H0 a přijímáme HA. Nepadne-li, nezamítáme H0 (H0 platí).

Testování hypotéz – Počítačový software 1. Formulace H0 a HA (pozor na jejich správné pořadí). 2. Volba hladiny významnosti α (pokud není výslovně dáno volí se α = 0,05). 3. Volba vhodné testovací statistiky – tedy odpovídající funkce. 4. Výpočet p-hodnoty (provede program) – p-value. 7. Formulace závěru testu: Je-li p-hodnota < α zamítáme H0 a přijímáme HA. Je-li p-hodnota > α nezamítáme H0 (H0 platí).

Testování hypotéz – Počítačový software Základem úspěchu při vyhodnocování testů statistických hypotéz je následující pravidlo: Je-li p-hodnota testu < α zamítáme H0 a přijímáme HA. Je-li p-hodnota testu > α nezamítáme H0 (H0 platí).

Testování hypotéz P-hodnota Je nejnižší hladina významnosti α, na které lze zamítnout H0. Např.: p-value = 0,001. H0 lze zamítnout na hladině významnosti α = 0,05 nebo i 0,01 (tedy i s 99% jistotou) p-value = 0,001 Obor přijetí

Testování hypotéz P-hodnota Je nejnižší hladina významnosti, na které lze zamítnout H0. Např.: p-value = 0,4. H0 nelze zamítnout na hladině významnosti α = 0,05 , ale pro α = 0,45 ano (tedy s jistotou 55%). p-value = 0,4 Obor přijetí

Testování hypotéz Existují dvě základní skupiny testů: Parametrické testy – týkají se přímo parametrů daného základního souboru (μ, σ, σ2, π). Jsou početně náročnější ovšem silné (jejich výsledek je dosti přesný). Neparametrické – Nejsou početně náročné, ale mají menší sílu. Používají se, pokud nejsou splněny podmínky použití testů parametrických (data nejsou normálně rozdělena, data mají ordinální charakter, výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů). Lze je použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení validity testů.

Testy střední hodnoty Počet výběrů Závislé/ nezávislé Počet hodnot Rozdělení Test Nástroj 1 - n ≥ 30 Jednovýběrový t-test MS Excel n < 30 Normální Není normální Znaménkový test Online kalkulátory 2 Nezávislé Dvouvýběrový t-test Normální rozdělení Mann–Whitneův test nebo Wilcoxonův test Závislé (párové) Dvouvýběrový párový t-test Wilcoxonův test

Kruskal–Wallisův test Testy střední hodnoty Počet výběrů Závislé/ nezávislé Rozdělení Rozptyly Test Nástroj 3 a více Nezávislé Normální rozdělení Shodné ANOVA MS Excel - Kruskal–Wallisův test Online kalkulátory Závislé Friedmanův test

Testování hypotéz Parametrické testy se zabývají parametry základního souboru. Má-li základní soubor normální rozdělení N(μ;σ2), pak lze testovat právě střední hodnotu (populační průměr μ) a rozptyl σ2. Tento předpoklad musí být splněn u všech následujících testů! Někdy je uváděna volnější podmínka počtu hodnot ve výběru (n > 30).

Test velikosti střední hodnoty μ Nulová hypotéza: H0: μ = μ0 , kde μ0 je konkrétní číslo Alt. hypotézy: HA: μ > μ0 pravostranná hypotéza HA: μ < μ0 levostranná hypotéza HA: μ ≠ μ0 oboustranná hypotéza Test. statistika: má Studentovo t rozdělení s (n-1) stupni volnosti Krit. obor: pro HA: μ > μ0 W={t; t ≥ t1-α(n-1)} pro HA: μ < μ0 W={t; t ≤ tα(n-1)} pro HA: μ ≠ μ0 W={t; |t| ≥ t1-α/2(n-1)}

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců. Bylo dotázáno 45 náhodně vybraných soudců. Dotázaní mají průměrný věk 49,58 let a směrodatnou odchylkou výběru 4,8 roku. Na hladině významnosti α = 0,05 (pravděpodobnost chybného závěru testu 5 %) máme zjisti, zda je průměrný věk soudců nižší jak 50 let. Jedná se o test velikosti střední hodnoty! Zabýváme se průměrným věkem soudců. Postupuje se podle dříve uvedených kroků (snímek 13):

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců... Formulace H0 a HA: H0: μ ≥ 50 let vs. HA: μ < 50 let Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: Vymezení kritického oboru: Alternativní hypotéze HA odpovídá kritický obor W={t; t ≤ tα(n-1)} , tedy W={t; t ≤ t0,05(45-1)} , W={t; t ≤ -1,68}.

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců… Výpočet testovací statistiky t z hodnot výběru: Zjištění, zda testovací statistika t padne do kritického oboru: Hodnota testovací statistiky je -0,28 . Testovací statistika nepadne do kritického oboru W={t; t ≤ -1,68}, (protože -0,28 > -1,68), takže nezamítáme H0. Formulace závěru testu: Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že průměrný věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí HA).

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců… H0: μ ≥ 50 let vs. HA: μ < 50 let Testovací statistika t = -0,28 5% 95% Obor přijetí Kritický obor W={t; t ≤ -1,68}

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců… S pomocí MS Excel. Je nutné mít pracovat se zdrojovými daty! Nestačí průměr a směrodatná odchylka, ale všech 45 hodnot! Formulace H0 a HA: H0: μ ≥ 50 let vs. HA: μ < 50 let !Excel počítá p-hodnotu pro alternativní hypotézu HA:μ > μ0! P-hodnotu pro levostranný test bude nutno přepočítat. Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = 1-ZTEST (oblast dat; hypotetická hodnota μ0 tedy 50; sigma = nezadává se!)

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců… Zjištění p-hodnoty testu: = 1-0,781 = 0,219 Formulace závěru testu: Protože platí: p-hodnota > α neboli 0,219 > 0,05, nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že věk soudců je roven nebo větší 50 let. Nelze tedy tvrdit, že je věk menší jak 50 let (neplatí HA).

Test velikosti střední hodnoty μ Práce s výstupem funkce ZTEST Pro pravostranný test (HA: μ > μ0) je p-hodnotou přímo hodnota vypočtená funkcí ZTEST. Pro levostranný test (HA: μ < μ0) je nutno p-hodnotu dopočítat podle vzorečku 1 - hodnota vypočtená funkcí ZTEST. Pro oboustranný test (HA: μ ≠ μ0) je nutno p-hodnotu dopočítat podle vzorečku 2x menší z hodnot (hodnota vypočtená funkcí ZTEST, 1 - hodnota vypočtená funkcí ZTEST).

Test velikosti střední hodnoty μ Příklad: Předmětem zájmu je věk soudců… Funkce ZTEST vypočetla hodnotu 0,781. P-hodnota pro pravostranný test (HA: μ > 50) je 0,781 (platí H0). P-hodnota pro levostranný test (HA: μ < 50) je 1 – 0,781 = 0,219 (platí H0). P-hodnota pro oboustranný test (HA: μ ≠ 50) je 2 x menší z hodnot (0,781 a 0,219) = 2x 0,219 = 0,438 (platí H0).

Test velikosti rozptylu σ2 Nulová hypotéza: H0: σ2 = σ20 , kde σ20 je konkrétní číslo Alt. hypotézy: HA: σ2 > σ20 pravostranná hypotéza HA: σ2 < σ20 levostranná hypotéza HA: σ2 ≠ σ20 oboustranná hypotéza Testovací statistika: má chí-kvadrát rozdělení s (n - 1) stupni volnosti Kritický obor: HA: σ2 > σ20 W={z; z ≥ χ21-α(n-1)} HA: σ2 < σ20 W={z; z ≤ χ2α(n-1)} HA: σ2 ≠ σ20 W={z; z ≤ χ2α/2(n-1) U z ≥ χ21-α/2(n-1)}

Testování hypotéz – Dva výběry Stejně jako u intervalů spolehlivosti lze pomocí testů porovnávat dva výběry. Pocházejí-li oba výběry ze základních souborů s normálním rozdělením N(μ;σ2), pak lze testovat právě shodu středních hodnot (populačních průměrů) a rozptylů. Pocházejí-li oba ze základních souborů s binomickým rozdělením Bi(n;π), pak lze testovat shodu populačních poměrů. Toto jsou nejčastější aplikace testování statistických hypotéz pro dva výběry.

Test shody dvou rozptylů Nulová hypotéza: H0: σ21 = σ22 Alt.hypotézy: HA: σ21 > σ22 pravostranná hypotéza HA: σ21 < σ22 levostranná hypotéza HA: σ21 ≠ σ22 oboustranná hypotéza Testovací statistika: má F rozdělení s (n-1; m-1) stupni volnosti Kritický obor: HA: σ21 > σ22 W={F; F ≥ F1-α(n-1;m-1)} HA: σ21 < σ22 W={F; F ≤ Fα(n-1;m-1)} HA: σ21 ≠ σ22 W={F; F ≤ Fα/2(n-1;m-1) U F ≥ F1-α/2(n-1;m-1)}

Test shody dvou rozptylů MS Excel = FTEST (první oblast; druhá oblast) počítá p-hodnotu oboustranného testu. nebo Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl počítá p-hodnotu vybraného jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je s21<s 22, pak má HA tvar: σ21 < σ22 .

Test shody dvou průměrů Nulová hypotéza: H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Testovací statistika má Studentovo t rozdělení (za podmínky σ21 = σ22) (n+m-2) stupni volnosti , kde

Test shody dvou průměrů Kritický obor: HA: μ1 > μ2 W={t; t ≥ t1-α(n+m-2)} HA: μ1 < μ2 W={t; t ≤ tα(n+m-2)} HA: μ1 ≠ μ2 W={t; |t| ≥ t1-α/2(n+m-2)}

Test shody dvou průměrů MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry se stejným rozptylem = 2) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je , pak má HA tvar: μ1 < μ2 .

Test shody dvou průměrů Nulová hypotéza: H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Testovací statistika: (za podmínky σ21 ≠ σ22) má Studentovo t rozdělení s (v) stupni volnosti:

Test shody dvou průměrů Kritický obor: HA: μ1 > μ2 W={t; t ≥ t1-α(v)} HA: μ1 < μ2 W={t; t ≤ tα(v)} HA: μ1 ≠ μ2 W={t; |t| ≥ t1-α/2(v)}

Test shody dvou průměrů MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test* = 1 nebo oboustranný test = 2; výběry s různým rozptylem = 3) počítá p-hodnotu oboustranného nebo jednostranného testu nebo Data – Analýza – Analýza dat – Dvouvýběrový t-test s nerovností rozptylů počítá p-hodnotu oboustranného i jednostranného testu Program testuje „logickou variantu“ jednostranného test. Znaménko nerovnosti v alt. hypotéze je stejné jako znaménko nerovnosti mezi výběrovými průměry. Např. pokud je , pak má HA tvar: μ1 < μ2 .

Test shody dvou průměrů Zdraví lidé Nemocní lidé obsah Ca (mmol/l) 2,15 2,09 2,13 1,8 2,27 1,97 2,52 2,35 2,11 2,08 2,26 1,9 2,34 2,06 2,68 2,3 2,24 Příklad: Byl měřen obsah vápníku v krevním séru skupiny zdravých lidí a skupiny nemocných. Naměřené hodnoty jsou v tabulce. Porovnejte na hladině významnosti 0,05 obsahy vápníku obou skupin, tj. určete, zda se obě skupiny od sebe statisticky významně liší. Předpoklad normality základních souborů je splněn. Jedná se o test shody dvou průměrů! Pro tento test je nutné nejprve vědět, jestli jsou rozptyly stejné σ21 = σ22 nebo různé σ21 ≠ σ22. Proto nejdříve provedeme test shody dvou rozptylů a teprve poté test shody dvou průměrů.

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel. Formulace H0 a HA: H0: σ21 = σ22 vs. HA: σ21 ≠ σ22 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = FTEST (první oblast; druhá oblast)

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... Zjištění p-hodnoty : = 0,905699288 Formulace závěru testu: Protože platí p-hodnota > α (0,905699288 > 0,05) nezamítáme nulovou hypotézu. Na základě testu nezamítáme na hladině významnosti 0,05 hypotézu, že rozptyly obou souborů jsou stejné. Nyní lze přistoupit k samotnému testu shody dvou průměrů.

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel lze řešit i alternativně: H0: σ21=σ22 vs. HA: σ21≠ σ22 Data – Analýza – Analýza dat – Dvouvýběrový F-test pro rozptyl

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... Analýza dat počítá p-hodnotu jednostranného testu. P-hodnota oboustranného testu je 2x menší z hodnot p-hodnota (0,45285) a 1-p-hodnota (0,54715). P-hodnota oboustranného testu: P-hodnota = = 2*0,45285 = = 0,9057.

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... S pomocí MS Excel. Formulace H0 a HA: H0: μ1 = μ2 vs. HA: μ1 ≠ μ2 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; oboustranný test = 2; výběry se stejným rozptylem = 2)

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... Zjištění p-hodnoty : = 0,043918178 Formulace závěru testu: Protože platí p-hodnota < α (0,043918178 < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Obsahy jsou rozdílné.

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... MS Excel: Data – Analýza – Analýza dat – Dvouvýběrový t-test s rovností rozptylů jednostranný test H0: μ1 ≤ μ2 HA: μ1 > μ2 oboustranný test H0: μ1 = μ2 HA: μ1 ≠ μ2

Test shody dvou průměrů Příklad: Byl měřen obsah vápníku v krevním séru ... Formulace závěru testu: Na základě oboustranného testu zamítáme na hladině významnosti 0,05 hypotézu, že obsah vápníku v krevním séru u zdravých a nemocných lidí je stejný. Na základě jednostranného testu přijímáme hypotézu, že obsah Ca v krevním séru zdravých lidí je vyšší než u lidí nemocných!

Test shody dvou průměrů Nulová hypotéza : H0: μ1 = μ2 Alt. hypotézy: HA: μ1 > μ2 pravostranná hypotéza HA: μ1 < μ2 levostranná hypotéza HA: μ1 ≠ μ2 oboustranná hypotéza Použití: v případech, kdy hodnoty ve výběrových souborech tvoří páry. Jde o párový test shody dvou průměrů. MS Excel: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje – Analýza dat – Dvouvýběrový párový t-test na střední hodnotu

Test shody dvou průměrů hmotnost před dietou (kg) hmotnost po dietě (kg) 85 76 75 90 81 65 64 150 155 80 72 110 99 56 45 88 89 73 66 67 134 Příklad: Na skupině dobrovolníků byl testován prostředek na snížení váhy. Hmotnosti 12 testovaných lidí před a po dietní kůře jsou v tabulce. Určete párovým testem, zda je prostředek na hladině významnosti 0,05 účinný. Předpoklad normality základních souborů je splněn. Jedná se o párový test shody dvou průměrů, protože hmotnosti před a po se vztahují k jednomu člověku. U tohoto testu není nutné zjišťovat, zda jsou rozptyly obou souborů stejné nebo ne.

Test shody dvou průměrů Příklad: Na skupině dobrovolníků byl testován prostředek ... S pomocí MS Excel. Formulace H0 a HA: H0: μ1 ≤ μ2 vs. HA: μ1 > μ2 Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: = TTEST (první oblast; druhá oblast; jednostranný test = 1 nebo oboustranný test = 2; spárované výběry = 1) Nástroje - Analýza dat – Dvouvýběrový párový t-test na střední hodnotu

Test shody dvou průměrů Příklad: Na skupině dobrovolníků byl testován prostředek ... jednostranný test H0: μ1 ≤ μ2 HA: μ1 > μ2 (p-hodnota) oboustranný test H0: μ1 = μ2 HA: μ1 ≠ μ2

Test shody dvou průměrů Příklad: Na skupině dobrovolníků byl testován prostředek ... Zjištění p-hodnoty : = 0,004 Formulace závěru testu: Protože platí p-hodnota < α (0,004 < 0,05) zamítáme nulovou hypotézu. Na základě testu zamítáme na hladině významnosti 0,05 hypotézu, že hmotnost před a po dietě je stejná a přijímáme hypotézu, že hmotnost po dietě skutečně klesla.

Test shody více průměrů Nulová hypotéza : H0: μ1 = μ2 = μ3 = μ4 = ... Alternativní hypotéza: HA: alespoň dva průměry se nerovnají Jedná se o tzv. Analýzu rozptylu (ANOVA). Podmínky analýzy: výběry pocházejí z normálního rozdělení rozptyly všech souborů jsou stejné σ21 = σ22= σ23 = σ24 ... = σ k ověření postačuje pravidlo: MS Excel: Data – Analýza – Analýza dat – Anova: jeden faktor

Test shody více průměrů Testovací statistika: F má Fisherovo F rozdělení s (k-1; n-k) stupni volnosti, kde k ... počet kategorií (počet výběrů) n ... celkový počet prvků ve všech kategoriích Kritický obor: W={F; F ≥ F1-α(k-1;n-k)}

Test shody dvou průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ve třech městech. Náhodně se podle inzerátů podařilo získat následující ceny (v tis. Kč). Jsou ceny v průměru stejné? Porovnáváme průměrné ceny bytů, použijeme analýzu rozptylu. A B C 1040 900 1550 950 1700 1300 1100 1290 1220 1570 1660 820 1250 1340 1460

Test shody více průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ... S pomocí MS Excel. Formulace H0 a HA: H0: μ1 = μ2 = μ3 vs. HA: alespoň dva průměry se nerovnají nebo také H0: „průměrné ceny jsou všude stejné“ vs. HA: „průměry se liší“ Volba hladiny významnosti: α = 0,05 Volba vhodné testovací statistiky: Data – Analýza – Analýza dat – Anova: jeden faktor

Test shody více průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ...

Test shody více průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ... Ověření podmínky rovnosti rozptylů: Maximální si je pro město B (si = √98640 = 314,1). Minimální si je pro město C (si = √33780 = 183,8). 314,1/183,8 = 1,71. Podíl je menší než 3, rozptyly lze považovat za rovné. Analýzu rozptylu lze použít.

Test shody více průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ... Testovací statistika F Kritický obor Protože platí p-hodnota > α (0,2167 > 0,05) nezamítáme nulovou hypotézu.

Test shody více průměrů Příklad: Byly sledovány ceny bytů kategorie 4+1 ... S pomocí analýzy rozptylu se na hladině významnosti 0,05 nepodařilo prokázat, že by se průměrné ceny bytů v jednotlivých městech lišily. Průměrné ceny bytů jsou ve všech třech městech stejné.

Testování statistických hypotéz Důležité pojmy – 5. přednáška Statistická hypotéza Nulová a alternativní hypotéza Hladina významnosti Testovací statistika Kritický obor P-hodnota testu Jednovýběrové testy Dvouvýběrové testy Vícevýběrové testy Předpoklad normality