F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Neparametrické metody
Testování parametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Testování hypotéz.
Testování statistických hypotéz
Test dobré shody 2 test.
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení října 2010.
Analýza variance (Analysis of variance)
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Zábavná matematika.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Testování hypotéz (ordinální data)
Testování hypotéz přednáška.
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Náhodná proměnná Rozdělení.
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Náhoda, generátory náhodných čísel
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
T - testy. Předpokládejme, že data mají normální rozdělení (pocházejí z normálního rozdělení N(m, s2)). Předpokládejme, že parametr s rozdělení je znám.
ANOVA (s použitím materiálů Petra Šmilauera)
Inference jako statistický proces 1
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Data s diskrétním rozdělením
Slovní úlohy řešené soustavou rovnic
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
základní principy a použití
Závislost dvou kvantitativních proměnných
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Samostatný úkol: Jednovýběrový t-test Dvouvýběrový nepárový t-test
Dvouvýběrové testy parametrickch hypotéz
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Dvouvýběrový t-test 11 stejně starých selat bylo náhodně rozděleno do 2 skupin. První skupina byla krmena krmivem A, druhá krmivem B. Po 6 měsících byly.
8. Kontingenční tabulky a χ2 test
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Korelace.
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Biostatistika Opakování – základy testování hypotéz
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Testování hypotéz párový test
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Induktivní statistika
Úvod do statistického testování
Samostatný úkol: Jednovýběrový t-test Dvouvýběrový nepárový t-test
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
7. Kontingenční tabulky a χ2 test
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat) Porovnání dvou vzorků F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)

Mám dva vzorky, a chci vědět, jestli se liší Deset krys krmených standardní a deset krmených obohacenou stravou, na jednom roce zjišťuji váhu (nebo počet červených krvinek) Mám x individuí jednoho a y individuí druhého druhu, a chci vědět, jestli se liší druhy délkami zobáků (a věřím, že jsou to náhodné výběry individuí daných druhů)

Mám dva vzorky Ty (jejich mateřská rozdělení) se mohou lišit buď variancí nebo střední hodnotou nebo obojím... I dva vzorky z téhož základního souboru se mi vždy budou lišit jak variancí, tak průměrem. Proto mě zajímá, jestli se dva vzorky liší tak moc, že je nepravděpodobné, že by byly vzaty z téhož základního souboru

F-test - test shody variancí H0: 12 = 22, alternativa HA: 12  22 Předpokládáme (tj. určíme, který je vzorek 1, aby: d.f. numerator d.f. denominator Kritická hodnota pro test na 5% je tedy 97.5% kvantil POZOR – při prezentaci jakéhokoliv F-testu uvádím vždy df čitatele i df jmenovatele

Hodnotu této plochy musím násobit dvěma, abych dostal dosaženou hladinu významnosti

Příklad: Dvoustranný test na poměr variancí pro hypotézy H0: 12=22 a HA: 1222 Data jsou počty můr chycených během noci jedenácti lapači jednoho nebo osmi lapači druhého typu. H0: 12=22 HA: 1222 =0.05 Lapač typu 1: 41, 34, 33, 36, 40, 25, 31, 37, 34, 30, 38 Lapač typu 2: 52, 57, 62, 55, 64, 57, 56, 55 n1 = 11, df1 = 10 n2 = 8, df2 = 7 s12 = 21.87 můr2 s22 = 15.36 můr2 F = 1.42 F0.05(2),10,7 = 4.76 Nezamítáme proto H0. P(F  1.42) > 0.50 Kritická hodnota, závisí na dvojích stupních volnosti

Pokud dojdu k názoru, že se variance neliší, můžu odhadnout společnou varianci Pro můry sp2=(218.73 + 107.50) / (10 + 7) = 19.19 můr2. Pozor, neprůkazný výsledek mohl ale být i slabým testem (když je málo pozorování)!

Častěji než variance ale porovnáváme střední hodnoty Testujeme nulovou hypotézu H0: 1 = 2 proti alternativní HA: 1  2. Klasický t-test Rozdíl průměrů Střední chyba rozdílu průměrů

Střední chybu rozdílu průměrů spočítám pomocí odhadu společné variance s2p Předpokládám tedy homogenitu variancí Výsledný vzorec potom je

Předpoklady t-testu tedy jsou Normalita dat (tj.data mají normální rozdělení v rámci každé skupiny) Homogenita variancí Pozor, nezávislost pozorovnání je předpokladem prakticky pro všechno (nebo ji musím v testu zohlednit), takže i tady

Všimněte si, že velikost střední chyby klesá (a síla testu tak stoupá) s počty pozorování ve skupinách; máme-li konstantní celkový počet pozorování, pak je chyba nejmenší při stejné velikosti skupin. Na druhou stranu, stejná velikost skupin je výhodná, ale vůbec není nutná!!!

Počet stupňů volnosti je součtem počtu stupňů volnosti pro oba výběry, tedy (n1-1) + (n2-1) = n1 + n2 - 2.

Dvouvýběrový t-test pro oboustranné hypotézy H0: 1 = 2 a HA: 1  2 (které lze také vyjádřit jako H0: 1 - 2 = 0 a HA: 1 - 2  0). Data jsou sedimentační časy (v minutách) lidské krve po podání dvou různých léků (B, G). Podán lék B: 8.8, 8.4, 7.9, 8.7, 9.1, 9.6 Podán lék G: 9.9, 9.0, 11.1, 9.6, 8.7, 10.4, 9.5 n1 = 6 n2 = 7 df1 = 5 df2 = 6 X1= 8.75 min X2 = 9.74 min SS1= 1.6950 min SS2 = 4.0171 min sp2 = 0.5193 min2 t0.05(2),=t0.05(2),11 = 2.201 Zamítáme proto H0. 0.02 < P(t  2.475) < 0.05

Dnes spíše najdeme plochu “ocásku” a (protože se jedná o dvoustranný test), výsledek znásobíme dvěma. tato plocha má velikost 0,0154 - platí tedy že P=0.0308

Pokud je narušena homogenita variancí, lze užít aproximaci Welchovo přibližné t Existují i jiné aproximace t-testu pro různé variance s přibližným počtem stupňů volnosti

Stejný počet pozorování v obou skupinách není předpokladem t-testu Ale robustnost testu vůči narušení homogenity variancí klesá při výrazně nevyváženém počtu pozorování (a test na homogenitu bude zoufale slabý)

Stejný počet pozorování v obou skupinách není předpokladem t-testu Také síla testu klesá s nevyvážeností skupin

Narušení normality dat Do vzorce pro t-test vstupují průměry - tedy ony musí mít normální rozdělení Centrální limitní věta – průměry budou mít normální rozdělení, pokud budou založeny na velkém počtu pozorování S vzrůstajícím počtem pozorování roste nejen síla testu, ale i robustnost

Podobně jako pro jednovýběrový (párový) t-test, i tady můžeme provést jednostranný test Oboustranný test - testuji nulovou hypotézu H0: 1 = 2 proti alternativní HA: 1  2. Jednostranný test - testuji nulovou hypotézu H0: 1 > 2 proti alternativní HA: 1 < 2 (nebo opačným směrem)

ROZLIŠUJ test jednostranný - oboustranný - jak formuluji nulovou hypotézu t-test jednovýběrový (párový) a dvouvýběrový - jaké je uspořádání pokusu nebo pozorování

Párový vs. dvouvýběrový test