Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

Testování statistických hypotéz
VÝPOČET OC.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Testování parametrických hypotéz
Testování hypotéz Jana Zvárová
Testování neparametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování hypotéz Distribuce náhodných proměnných
Testování statistických hypotéz
Diskrétní rozdělení a jejich použití
Testování hypotéz přednáška.
Princip testování hypotéz, c2 testy.
Náhodná proměnná Rozdělení.
také Gaussovo rozdělení (normal or Gaussian distribution)
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
T - testy. Předpokládejme, že data mají normální rozdělení (pocházejí z normálního rozdělení N(m, s2)). Předpokládejme, že parametr s rozdělení je znám.
Poskytuje daný generátor opravdu posloupnost náhodných čísel?
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Některá diskrétní a spojitá rozdělení náhodné veličiny.
Diskrétní rozdělení Karel Zvára 1.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Ringier ČR - Výzkumné oddělení
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Princip testování hypotéz, c2 testy.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Jak statistika dokazuje závislost
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Test dobré shody Fisherův přesný test McNemar test
Testování hypotéz párový test
Základy statistické indukce
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Induktivní statistika
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky dokázáno, nebo ze zkušenosti se ví), že poměr pohlaví v dané populaci je1:1. Platí-li poměr pohlaví v populaci 1:1:  Pravděpodobnost, že náhodně vybraný jedinec je samec, je p = 0.5.  Náhodná veličina “počet samců v náhodném výběru 100 jedinců“ má binomické rozdělení.  Binomické rozdělení je unimodální, s nejvyšší pravděpodobností nastává případ střední hodnoty.   = np = 50,  2 = np(1-p) = 25 Rozdělení pravděpodobností pro počty samců je znázorněno v následujícím grafu:

Nejsme si jisti, že v naší populaci platí poměr pohlaví 1:1. ZZpochybňujeme platnost poměru pohlaví 1:1  zzpochybňujeme p = 0.5  ZZpochybňujeme  = 50 v populaci se 100 jedinci To, co by mělo platit (co se ví, nebo je teoreticky dokázáno), označíme jako nulovou hypotézu H0. V našem případě H0: střední hodnota náhodné veličiny „počet samců mezi 100 náhodně vybranými jedinci“ je 50. To, co platí, neplatí-li H0, označíme jako alternativní hypotézu H1. V našem případě H1: střední hodnota náhodné veličiny „počet samců mezi 100 náhodně vybranými jedinci“ se nerovná 50.

Máme tyto možnosti:  p = 0.5, chyba je v našem náhodném výběru (rozsah, náhodnost)  p ≠ 0.5 Proto náhodně vybereme 100 jedinců z dané populace. Ve výběru je 80 samců a 20 samic  80:20 ≠ 50:50. Rozhodování mezi těmito dvěma možnostmi je důsledkem toho, že neznáme vlastnosti celé populace. Rozhodování mezi těmito dvěma možnostmi se provádí statistickým testováním. Víme, že i za platnosti nulové hypotézy může nastat případ, že v náhodném výběru 100 jedinců je 100 samců, nebo 0 samců. Pravděpodobnost takového výsledku je však velmi malá. Testování ve statistice si klade za cíl vyslovovat kvalitativní závěry (závěry o základním souboru) na základě náhodného výběru.

Jestliže počet samců v náhodném výběru není „příliš odlišný“ od ideální hodnoty svědčící o platnosti H0 (tj. od 50 samců ve výběru) NEZAMÍTÁM H0. Jestliže počet samců v náhodném výběru „ je daleko“ od ideální hodnoty svědčící o platnosti H0 (tj. od 50 samců ve výběru) ZAMÍTÁM H0. Nulovou hypotézu nelze potvrdit, lze ji pouze zamítnout. Proto Alternativní hypotéza (to, co platí, když neplatí H0) formuluje to, co chceme ukázat. Je třeba definovat přesně, co znamená „příliš daleko, příliš odlišný“ nebo „ne příliš daleko, ne příliš odlišný “ od ideálního stavu pro platnost H0. Jestliže v populaci platí poměr 1:1, tj. jestliže platí nulová hypotéza, nejpravděpodobnější četnost samců ve výběru 100 jedinců je samců ve 100 náhodně vybraných jedincích je možno považovat za ideální pro platnost H0.

Ideální pro platnost H0 (p = 0.5)

Ideální pro p = 0.8 Málo pravděpodobné pro p = 0.5 Buď se jedná o málo pravděpodobný případ, p = 0.5 však platí. Nebo se jedná o pravděpodobný případ pro p ≠ 0.5, například p = 0.8. Protože 80 samců je za hranicí takovou, že součet „málo pravděpodobných“ případů je menší než 0.05 (5%), zamítám H0. Závěr: poměr pohlaví v dané populaci není 1:1.

má  2 rozdělení s (2-1) = 1 stupněm volnosti. Pokud je počet samců v intervalu, nezamítám H0. Vně intervalu H0 zamítám.

Poznámka. V případě více než 2 možností v každém nezávislém pokusu je rozdělení náhodné veličiny multinomické. V tomto případě má náhodná veličina má  2 rozdělení s (k-1) stupni volnosti, kde k > 2. Princip statistického testování: Ideální pro platnost H0 je pozorovat střední hodnotu, tj x i = np i, neboli =0. Jestliže je výraz“daleko od nuly“, pak řekneme, že H0 neplatí. Jestliže výraznení “daleko od nuly“, pak H0 nezamítáme. zamítám H0nezamítám H0 plocha P < 0.05  Plocha pod křivkou je rovna 1.  Zamítám pouze málo pravděpodobné případy.

Při tomto postupu se mohu dopustit 2 chyb:  chyba 1. druhu  : zamítám H0, ona ale platí. (zamítám málo pravděpodobné případy. To neznamená, že i při platnosti H0 takový případ nemůže nastat.  chyba 2. druhu  : nezamítám H0, ona ale neplatí. (i když jsem “blízko“ optimální hodnotě pro platnost H0, přesto může platit H1.) Za prioritní se považuje snižování chyby 1. druhu. Při tom ale snižování  vede ke zvyšování . Testy jsou konstruovány tak, aby oba typy chyb byly “nízké“. Příklad (pokračování). np i = 50, x 1 = 80, x 2 = 20. Vypočítáme testovou charakteristiku: (80 – 50) 2 /50 + (20 – 50) 2 /50 = 36 Vypočtená hodnota 36 > 3.841, proto zamítáme nulovou hypotézu o poměru pohlaví v populaci 1:1. P = 0.05, K = 3.841

Příklady. Při 120 opakovaných nezávislých hodech kostkou jsme obdrželi následující výsledky: padne1 : padne2 : padne3 : padne4 : padne5 : padne6 = 15 : 5 : 30 : 20 : 40 : 10. Testujte, zda je hrací kostka v pořádku. Řetězec cukráren, který nabízí 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40, jahodová 18, pistáciová 22. Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce.

Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].

Charakteristiky náhodných veličin: Hmotnost: střední hodnota = 3400 g, S.D. = 554 Délka: střední hodnota = 50 cm, S.D. = 2.5

  

  

(očekávané četnosti) sledované četnosti k je počet tříd (počet sloupců v histogramu)

Normální rozdělení:  je předpokladem použití mnoha statistických metod  zachovává se vzhledem k některým (lineární) transformacím  je definována pouze 2 parametry  je symetrická (šikmost = 0) Ověřování normality dat:  pomocí  2 rozdělení  ověřování se neprovádí:  pro velké množství dat normalitu zamítneme  normalitu nezamítáme při malém počtu pozorování  statistické metody jsou málo citlivé na mírné porušení normality

Kontingenční tabulky. X = (Y, Z) T je 2-rozměrný náhodný vektor. Y může nabývat hodnot 1, 2, …, r, Z může nabývat hodnot 1, 2, …, c. Pravděpodobnosti p ij = P(Y= i, Z = j). Označme n ij počet případů, kdy Y = i, Z = j. Příklad. V parlamentu se projednává zákon. Zaznamenáváme volbu koaličních a nekoaličních poslanců do tabulky. Y … náhodně zvolený poslanec patří ke koalici Z … náhodně zvolený poslanec hlasuje pro zákon. r = c = 2 Platí: Veličiny Y a Z jsou nezávislé právě, když p ij = p i. p.j, kde p i. je příslušnost řádku i, p.j je příslušnost sloupci j v tabulce.

Testujeme H0: Y a Z jsou nezávislé náhodné vektory proti H1: Y a Z nejsou nezávislé náhodné vektory Za předpokladu H0 je tabulka četností (očekávaná tabulka) následující: P(ano,koalice) = P(ano)P(koalice) = 13/25 *14/25 = P(ano,nekoalice) = P(ano)P(nekoalice) = 13/25 *11/25 = P(ne,koalice) = P(ne)P(koalice) = 12/25 *14/25 = P(ne,nekoalice) = P(ne)P(nekoalice) = 13/25 *14/25 = Očekávané četnosti tedy jsou:

Použije se  2 test s počtem stupňů volnosti (počet řádků – 1)*(počet sloupců -1): V našem příkladě:, P = Závěr: nezamítám nulovou hypotézu, že hlasování a příslušnost koalici na sobě nezávisí. Pro malý počet pozorování se provádí Fisherův faktoriálový test. Provádí se pro četnosti menší než 5.

U 27 náhodně vybraných pacientů trpících určitou chorobou bylo zjišťováno, zda byli proti ní očkováni a jaký průběh choroba měla. Očkování + těžký průběh 2, očkování + lehký průběh 10, neočkování + těžký průběh 11, neočkování + lehký průběh 4. Bylo vybráno náhodně 200 obyvatel ČR, 300 obyvatel Norska a 150 obyvatel. Turecka. Z toho kouří 50 Čechů, 70 Norů a 80 Turků. Závisí kouření na státu? Bylo vybráno 200 obyvatel Ostravy, 150 obyvatel Českých Budějovic a 500 obyvatel Prahy. Zjistilo se, že 20 Ostraváků, 20 obyvatel Budějovic a 100 obyvatel Prahy trpí onemocněním ledvin. Závisí onemocnění ledvin na místě bydliště? Cvičení.