Princip testování hypotéz, c2 testy. Příklad. Předpokládá se (= je dokázáno), že poměr pohlaví v dané populaci je 1:1. Ve snaze popřít tento fakt jsme náhodně vybrali 100 jedinců populace. Ve vzorku 55 samců a 45 samic. 55:45 = 11: 9 1:1. Je náš výsledek důsledkem “špatného výběru“ jedinců, tj. vzorek například je malý, nebo nebyla dodržena náhodnost a nezávislot výběru, NEBO neplatí v populaci poměr 1:1? Z příkladu je patrné: cílem našeho šetření je popřít hypotézu (nikoliv ji potvrdit). Nulová hypotéza H0: to, co by mělo platit (v našem případě 1:1). Často je ve tvaru rovnosti, platnosti nějakého tvrzení. Alternativní hypotéza H1: to, co platí, když neplatí H0 (v našem případě jiný poměr pohlaví než 1:1) Často je ve tvaru nerovnosti, neplatnosti tvrzení.
Za platnosti nulové hypotézy: náhodná veličina “zastoupení pohlaví (počet) v náhodné populaci 100 jedinců“ má binomické rozdělení. Pravděpodobnost, že náhodně vybraný jedinec je samec, je p = 0.5. Rozdělení pravděpodobností jednotlivých počtů samců je znázorněno v následujícím grafu: ( = np = 50, 2 = np(1-p) = 12.5).
Při opakování (1000 x) výběru tedy například můžeme dostat následující výsledky: Pro platnost nulové hypotézy je ideální stav 1:1, který by měl nastat v nejvyšším počtu případů. Náhodná veličina “zastoupení pohlaví (počet) v náhodné populaci 100 jedinců“ má binomické rozdělení. Střední hodnota tohoto rozdělení je rovna m = np = 50. Realizací náhodné veličiny X1: „počet samců“ je konkrétní počet samců (x1), realizací náhodné veličiny X2: „počet samic“ je konkrétní počet samix (x2) v populaci 100 jedinců. Platí, že náhodná veličina má c2 rozdělení s (2-1) = 1 stupněm volnosti.
náhodné veličiny je multinomické. V tomto případě má náhodná veličina Poznámka. V případě více než 2 možností v každém nezávislém pokusu je k > 2 a rozdělení náhodné veličiny je multinomické. V tomto případě má náhodná veličina má c2 rozdělení s (k-1) stupni volnosti. Princip statistického testování: Ideální pro platnost H0 je pozorovat střední hodnotu, tj xi = npi, neboli =0. Jestliže je výraz “daleko od nuly“, pak řekneme, že H0 neplatí. Jestliže výraz není “daleko od nuly“, pak H0 nezamítáme. Plocha pod křivkou je rovna 1. Zamítám pouze málo pravděpodobné případy. nezamítám H0 zamítám H0 plocha P < 0.05
Při tomto postupu se mohu dopustit 2 chyb: chyba 1. druhu a : zamítám H0, ona ale platí. (zamítám málo pravděpodobné případy. To neznamená, že i při platnosti H0 takový případ nemůže nastat. chyba 2. druhu b : nezamítám H0, ona ale neplatí. (i když jsem “blízko“ optimální hodnotě pro platnost H0, přesto může platit H1.) Za prioritní se považuje snižování chyby 1. druhu. Při tom ale snižování a vede Ke zvyšování b. Testy jsou konstruovány tak, aby oba typy chyb byly “nízké“. Příklad (pokračování). npi = 50, x1 = 55, x2 = 45. Vypočítáme testovou charakteristiku: (55 – 50)2/50 + (45 – 50)2/50 = 1 Závěr: Nezamítám nulovou hypotézu: poměr pohlaví v populaci je 1:1, (c2 (1) = 1, P = 0.683) P se nazývá dosažená hladina významnosti P = 0.683 > 0.05
Příklady. Při 120 opakovaných nezávislých hodech kostkou jsme obdrželi následující výsledky: padne1 : padne2 : padne3 : padne4 : padne5 : padne6 = 15 : 5 : 30 : 20 : 40 : 10 . Testujte, zda je hrací kostka v pořádku. Řetězec cukráren, který nabízí 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40, jahodová 18, pistáciová 22. Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce.
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Charakteristiky náhodných veličin: Hmotnost: střední hodnota = 3400 g, S.D. = 554 Délka: střední hodnota = 50 cm, S.D. = 2.5
s12 m1
s22 m2
(očekávané četnosti) sledované četnosti k je počet tříd (počet sloupců v histogramu)
Normální rozdělení: je předpokladem použití mnoha statistických metod zachovává se vzhledem k některým (lineární) transformacím je definována pouze 2 parametry je symetrická (šikmost = 0) Ověřování normality dat: pomocí c2 rozdělení ověřování se neprovádí: pro velké množství dat normalitu zamítneme normalitu nezamítáme při malém počtu pozorování statistické metody jsou málo citlivé na mírné porušení normality
Kontingenční tabulky. X = (Y, Z)T je 2-rozměrný náhodný vektor. Y může nabývat hodnot 1, 2, …, r, Z může nabývat hodnot 1, 2, …, c. Pravděpodobnosti pij = P(Y= i, Z = j). Označme nij počet případů, kdy Y = i, Z = j. Příklad. V parlamentu se projednává zákon. Zaznamenáváme volbu koaličních a nekoaličních poslanců do tabulky. Y … náhodně zvolený poslanec patří ke koalici Z … náhodně zvolený poslanec hlasuje pro zákon. r = c = 2 Platí: Veličiny Y a Z jsou nezávislé právě, když pij = pi. p.j, kde pi. je příslušnost řádku i, p.j je příslušnost sloupci j v tabulce.
Testujeme H0: Y a Z jsou nezávislé náhodné vektory proti H1: Y a Z nejsou nezávislé náhodné vektory Za předpokladu H0 je tabulka četností (očekávaná tabulka) následující: P(ano,koalice) = P(ano)P(koalice) = 13/25 *14/25 = 0.2912 P(ano,nekoalice) = P(ano)P(nekoalice) = 13/25 *11/25 = 0.2288 P(ne,koalice) = P(ne)P(koalice) = 12/25 *14/25 = 0.2688 P(ne,nekoalice) = P(ne)P(nekoalice) = 13/25 *14/25 = 0.2112 Očekávané četnosti tedy jsou:
Použije se c2 test s počtem stupňů volnosti (počet řádků – 1) Použije se c2 test s počtem stupňů volnosti (počet řádků – 1)*(počet sloupců -1): V našem příkladě: , P = 0.1654 Závěr: nezamítám nulovou hypotézu, že hlasování a příslušnost koalici na sobě nezávisí. Pro malý počet pozorování se provádí Fisherův faktoriálový test. Provádí se pro četnosti menší než 5.
Cvičení. U 27 náhodně vybraných pacientů trpících určitou chorobou bylo zjišťováno, zda byli proti ní očkováni a jaký průběh choroba měla. Očkování + těžký průběh 2, očkování + lehký průběh 10, neočkování + těžký průběh 11, neočkování + lehký průběh 4. Bylo vybráno náhodně 200 obyvatel ČR, 300 obyvatel Norska a 150 obyvatel. Turecka. Z toho kouří 50 Čechů, 70 Norů a 80 Turků. Závisí kouření na státu? Bylo vybráno 200 obyvatel Ostravy, 150 obyvatel Českých Budějovic a 500 obyvatel Prahy. Zjistilo se, že 20 Ostraváků, 20 obyvatel Budějovic a 100 obyvatel Prahy trpí onemocněním ledvin. Závisí onemocnění ledvin na místě bydliště?