Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Princip testování hypotéz,  2 testy. Příklad. Předpokládá se (= je dokázáno), že poměr pohlaví v dané populaci je 1:1. Ve snaze popřít tento fakt jsme.

Podobné prezentace


Prezentace na téma: "Princip testování hypotéz,  2 testy. Příklad. Předpokládá se (= je dokázáno), že poměr pohlaví v dané populaci je 1:1. Ve snaze popřít tento fakt jsme."— Transkript prezentace:

1 Princip testování hypotéz,  2 testy. Příklad. Předpokládá se (= je dokázáno), že poměr pohlaví v dané populaci je 1:1. Ve snaze popřít tento fakt jsme náhodně vybrali 100 jedinců populace. Ve vzorku 55 samců a 45 samic. 55:45 = 11: 9  1:1. Je náš výsledek důsledkem “špatného výběru“ jedinců, tj. vzorek je malý, nebo nebyla dodržena náhodnost a nezávislot výběru, NEBO neplatí v populaci poměr 1:1? Z příkladu je patrné:  to, co testujeme je výsledkem předchozího poznání  cílem našeho šetření je popřít tuto hypotézu (nikoliv ji potvrdit). Nulová hypotéza H0: to, co by mělo platit (v našem případě 1:1). Často je ve tvaru rovnosti, platnosti nějakého tvrzení. Alternativní hypotéza H1: to, co platí, když neplatí H0 (v našem případě jiný poměr pohlaví než 1:1) Často je ve tvaru nerovnosti, neplatnosti tvrzení.

2 Za platnosti nulové hypotézy náhodná veličina “zastoupení pohlaví (počet) v náhodné populaci 100 jedinců“ má binomické rozdělení. Pravděpodobnost, že náhodně vybraný jedinec je samec, je p = 0.5. Rozdělení pravděpodobností jednotlivých počtů samců je znázorněno v následujícím grafu: S nenulovou pravděpodobností nastane případ 100 samců, nebo 100 samic. Pravděpodobnost takového případu je však malá, P = 7.88E-31. Četnost s maximální pravděpodobností je 50 samců mezi 100 jedinci, P =

3 Při opakování (1000 x) výběru tedy například můžeme dostat následující výsledky: Pro platnost nulové hypotézy je ideální stav 1:1, který by měl nastat v nejvyšším počtu případů. Náhodná veličina “zastoupení pohlaví (počet) v náhodné populaci 100 jedinců“ má binomické rozdělení. Střední hodnota tohoto rozdělení je rovna  = np = 50. Realizací náhodné veličiny X 1 : „počet samců“ je konkrétní počet samců (x 1 ), realizací náhodné veličiny X 2 : „počet samic“ je konkrétní počet samix (x 2 ) v populaci 100 jedinců. Platí, že náhodná veličina má  2 rozdělení s (2-1) = 1 stupněm volnosti.

4 Poznámka. V případě více než 2 možností v každém nezávislém pokusu, je k > 2 a rozdělení náhodné veličiny je multinomické. V tomto případě má náhodná veličina má  2 rozdělení s (k-1) stupni volnosti. Princip statistického testování: Ideální pro platnost H0 je pozorovat střední hodnotu, tj X i = np i, neboli =0. Jestliže je výraz“daleko od nuly“, pak řekneme, že H0 neplatí. Jestliže výraznení “daleko od nuly“, pak H0 nezamítáme. zamítám H0nezamítám H0 plocha P < 0.05  Plocha pod křivkou je rovna 1.  Zamítám pouze málo pravděpodobné případy.

5 Při tomto postupu se mohu dopustit 2 chyb:  chyba 1. druhu  : zamítám H0, ona ale platí. (zamítám málo pravděpodobné případy. To neznamená, že i při platnosti H0 takový případ nemůže nastat.  chyba 2. druhu  : nezamítám H0, ona ale neplatí. (i když jsem “blízko“ optimální hodnotě pro platnost H0, přesto může platit H1.) Za prioritní se považuje snižování chyby 1. druhu. Při tom ale snižování  vede Ke zvyšování . Testy jsou konstruovány tak, aby oba typy chyb byly “nízké“. Příklad (pokračování). np i = 50, x 1 = 55, x 2 = 45. Vypočítáme testovou charakteristiku: (55 – 50) 2 /50 + (45 – 50) 2 /50 = 1 P = > 0.05 Závěr: Nezamítám nulovou hypotézu: poměr pohlaví v populaci je 1:1, (c2 (1) = 1, P = 0.683) P se nazývá dosažená hladina významnosti

6

7 Příklady. Při 120 opakovaných nezávislých hodech kostkou jsme obdrželi následující výsledky: padne1 : padne2 : padne3 : padne4 : padne5 : padne6 = 15 : 5 : 30 : 20 : 40 : 10. Testujte, zda je hrací kostka v pořádku. Řetězec cukráren, který nabízí 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40 jahodová 18, pistáciová 22. Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce.

8 Test shody dat s rozdělením. Nejčastěji se používá pro testování shody s normálním rozdělením N( ,  2 ). Měřené hodnoty se rozdělí do n tříd (x i ). H0: data mají normální rozdělení N( ,  2 ). Parametry rozdělení jsou známy předem. Vytvořím náhodnou veličinu, která má  2 (n-1) rozdělení. Příklad. Hmotnost novorozenců pochází z N(3400, ). Můžeme tuto skutečnost popřít na základě 60 měření?

9 Velmi záleží na šířce třídy. Na obrázku je šířka třídy 200g. Na dalším obrázku je šířka třídy 400g. C2 (5) = , P = > 0.05  nelze zamítnout shodu s rozdělením. Sloučení tříd programem

10 Poznámky.  Test shody s rozdělením se v praxi neprovádí, protože  Máme-li dostatek dat, shodu zamítneme (  2 je velmi citlivý test)  nezamítneme-li shodu, pak je to spíše důsledek malého počtu tříd (dat), než shody s rozdělením.  Pokud neznáme předem parametry rozdělení, ale odhadujeme je z dat pak se stupně volnosti snižují o počet takto odhadovaných parametrů. Pro data z předchozího příkladu odhadneme ,  z dat: C2 (3) = , P = > 0.05  nelze zamítnout shodu s rozdělením.

11 Kontingenční tabulky. X = (Y, Z) T je 2-rozměrný náhodný vektor. Y může nabývat hodnot 1, 2, …, r, Z může nabývat hodnot 1, 2, …, c. Pravděpodobnosti p ij = P(Y= i, Z = j). Označme n ij počet případů, kdy Y = i, Z = j. Příklad. V parlamentu se projednává zákon. Zaznamenáváme volbu koaličních a nekoaličních poslanců do tabulky. Y … náhodně zvolený poslanec patří ke koalici Z … náhodně zvolený poslanec hlasuje pro zákon. r = c = 2 Platí: Veličiny Y a Z jsou nezávislé právě, když p ij = p i. p.j, kde p i. je příslušnost řádku i, p.j je příslušnost sloupci j v tabulce.

12 Testujeme H0: Y a Z jsou nezávislé náhodné vektory proti H1: Y a Z nejsou nezávislé náhodné vektory Za předpokladu H0 je tabulka četností (očekávaná tabulka) následující: P(ano,koalice) = P(ano)P(koalice) = 13/25 *14/25 = P(ano,nekoalice) = P(ano)P(nekoalice) = 13/25 *11/25 = P(ne,koalice) = P(ne)P(koalice) = 12/25 *14/25 = P(ne,nekoalice) = P(ne)P(nekoalice) = 13/25 *14/25 = Očekávané četnosti tedy jsou:

13 Použije se  2 test s počtem stupňů volnosti (počet řádků – 1)*(počet sloupců -1): V našem příkladě:, P = Závěr: nezamítám nulovou hypotézu, že hlasování a příslušnost koalici na sobě nezávisí. Pro malý počet pozorování se provádí Fisherův faktoriálový test. Provádí se pro četnosti menší než 5.

14 Korekce na malý počet pozorování.  2 test je velmi citlivý ve smyslu, že odhalí i “malé“ závislosti. Často je neprůkazný test spíše následkem malého počtu pozorování, než nezávislosti. Proto se provádějí korekce na malý počet pozorování: V-square, φ-square, Yatesova korekce c2, … McNemarův test. Příklad. Byla vybrána skupina 100 řidičů, kteří měli projet tutéž trať střízliví a po požití alkoholu. Otázka je, zda alkohol ovlivňuje správné projetí trati. H0: alkohol a projetí trati nejsou závislé. Titíž řidiči však projeli trať střízliví i pod vlivem alkoholu. Každý, byť náhodně vybraný řidič byl testován 2x, před a po. K řešení podobných úloh se používá McNemarův test. Používá se pouze pro tabulky 2x2, tzv. čtyřpolní.

15 Tabulku dat si lze představit takto: McNemarův test testuje 2 nulové hypotézy:  2 (A/D) testuje, zda očekávané a sledované frekvence v buňkách A a D jsou stejné  2 (A/D) = 30.42, P = 0, zamítám nulovou hypotézu  2 (B/C) testuje, zda očekávané a sledované frekvence v buňkách B a C jsou stejné  2 (B/C) = 7.22, P = , zamítám nulovou hypotézu Pozorované a očekávané (v závorce) frekvence. Závěr: zamítám hypotézu, že alkohol a správné projetí trati jsou nezávislé znaky ve smyslu, že alkohol tuto schopnost zhoršuje.

16 U 27 náhodně vybraných pacientů trpících určitou chorobou bylo zjišťováno, zda byli proti ní očkováni a jaký průběh choroba měla. Očkování + těžký průběh 2, očkování + lehký průběh 10, neočkování + těžký průběh 11, neočkování + lehký průběh 4. Bylo vybráno náhodně 200 obyvatel ČR, 300 obyvatel Norska a 150 obyvatel. Turecka. Z toho kouří 50 Čechů, 70 Norů a 80 Turků. Závisí kouření na státu? Bylo vybráno 200 obyvatel Ostravy, 150 obyvatel Českých Budějovic a 500 obyvatel Prahy. Zjistilo se, že 20 Ostraváků, 20 obyvatel Budějovic a 100 obyvatel Prahy trpí onemocněním ledvin. Závisí onemocnění ledvin na místě bydliště? 200 lidí byl změřen krevní tlak. 80 z nich mělo tlak vyšší. Pak byl všem lidem podán přípravek na snížení tlaku. Poté jim byl tlak znovu změřen. 70 z původních 80 mělo tlak vyšší. Ze zbylých 120 mělo po požití léku 20 tlak vyšší. Je lék účinný? Cvičení.


Stáhnout ppt "Princip testování hypotéz,  2 testy. Příklad. Předpokládá se (= je dokázáno), že poměr pohlaví v dané populaci je 1:1. Ve snaze popřít tento fakt jsme."

Podobné prezentace


Reklamy Google