T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.

Slides:



Advertisements
Podobné prezentace
Jednovýběrové testy parametrickch hypotéz
Advertisements

T - testy. Předpokládejme, že data mají normální rozdělení (pocházejí z normálního rozdělení N(m, s2)). Předpokládejme, že parametr s rozdělení je znám.
Dvouvýběrový t-test 11 stejně starých selat bylo náhodně rozděleno do 2 skupin. První skupina byla krmena krmivem A, druhá krmivem B. Po 6 měsících byly.
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pearsonova korelace Kolomogorovův-Smirnovův (Lilieforsův)
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
© Institut biostatistiky a analýz SPEKTRÁLNÍ ANALÝZA Č ASOVÝCH Ř AD prof. Ing. Jiří Holčík, CSc.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Odborný výcvik ve 3. tisíciletí Tato prezentace byla vytvořena v rámci projektu.
Experimentální metody oboru – Pokročilá tenzometrie – Měření vnitřního pnutí Další využití tenzometrie Měření vnitřního pnutí © doc. Ing. Zdeněk Folta,
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
Experimenty a jejich statistické vyhodnocení I Biologická technika.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
Úvod do testování hypotéz
Analýza variance (ANOVA).
Testování hypotéz Testování hypotéz o rozdílu průměrů
Interpolace funkčních závislostí
7. Statistické testování
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
Řešení nerovnic Lineární nerovnice
Lineární rovnice a nerovnice I.
Testování hypotéz Testování hypotéz o rozdílu průměrů
Lineární rovnice a nerovnice III.
Soustava dvou lineárních rovnic se dvěma neznámými
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Soustava dvou lineárních rovnic se dvěma neznámými
Biostatistika Opakování Modelová rozložení náhodné veličiny
Párový neparametrický test
Poměr v základním tvaru.
Základy statistické indukce
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
Soustava dvou lineárních rovnic se dvěma neznámými
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Řešení nerovnic Lineární nerovnice
Opakování: Parametrické testy.
Spojité VELIČINY Vyšetřování normality dat
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
XII. Binomické rozložení
3. přednáška Laplaceova transformace
ASTAc/03 Biostatistika 4. cvičení
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
SEM – speciální přístupy
Lomené výrazy (2) Podmínky řešitelnost
Analýza variance (ANOVA).
Poměr v základním tvaru.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Nejistota měření Chyba měření - odchylka naměřené hodnoty od správné hodnoty → Nejistota měření Kombinovaná standartní nejistota: statistické (typ A) -
Centrální limitní věta
Lineární funkce a její vlastnosti
Více náhodných veličin
Rovnice opakování Výukový materiál pro 9.ročník
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

t - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední hodnota sjetí vlevo (m2) H1: střední hodnota sjetí vpravo ≠ střední hodnota sjetí vlevo Náhodný výběr 6 aut daného typu: Předpoklady: Náhodné proměnné „sjetí vpravo“ a „sjetí vlevo“ pocházejí z normálního rozdělení. rozptyly obou proměnných se rovnají.

Předpoklad normality dat se neověřuje Pokud první soubor pochází z N (m1, s2) a druhý má rozdělení N(m2, s2), pak rozdíl obou náhodných proměnných má rozdělení N(1 - 2, s2). Hodnoty m1, m2, s2 neznáme, víme však, že platnost H0 znamená 1 - 2 = 0 a známe výběrový odhad variance S2 . Jestliže provedeme náhodný výběr z obou rozdělení, pak jejich rozdíl s výběrovou střední hodnotou 𝑋 , pak 𝑋 ≈𝑁(1 - 2, S.E.) ≈𝑁(1 - 2, 𝜎 2 𝑛 ). Odtud 𝑛 𝑋 − 𝜇 1 + 𝜇 2 𝜎 ≈𝑁 0, 1 . V našem případě za platnosti H0 je 1 - 2 = 0, ale s2 neznáme. Známe však odhad, výběrovou varianci, 𝑆 2 . Pak ale 𝑋 𝑛 𝑆 ≈ 𝑡 𝑛−1 . Původní testování, zda 1 - 2 = 0 se mění na 𝑋 𝑛 𝑆 = 0, tedy na testování 𝑋 𝑛 𝑆 pomocí Studentovo t-rozdělení s n-1 stupni volnosti.

Poznámka. Konfindenční interval = interval spolehlivosti pro 𝜇 na hladině 1-𝛼 je interval s náhodnými konci, který s jistotou 1- 𝛼 překryje 𝜇. Jestliže první soubor pochází z N (m1, s2) a druhý má rozdělení N(m2, s2), pak rozdíl obou náhodných proměnných má rozdělení N(1 - 2, s2) , v našem případě je to N(0, 𝜎 2 ). Obecně, pokud 1 - 2 = 𝜇 ≠0, pak 𝑛 𝜇 𝜎 ≈𝑁 𝜇, 1 a 𝑛 𝜎 𝑋 −𝜇 ≈𝑁 0, 1 . Nulovou hypotézu H0: 1 - 2 = 𝜇 nezamítáme na hladině 𝛼, pokud existuje kritická hodnota K (𝛼) taková, že −𝐾 𝛼 ≤ 𝑛 𝜎 𝑋 −𝜇 ≤𝐾(𝛼), neboli 𝑋 ∈ <𝜇 − 𝜎𝐾 𝛼 𝑛 , 𝜇+ 𝜎𝐾 𝛼 𝑛 >. H0 naopak zamítáme, pokud 𝑋  (𝜇 − 𝜎𝐾(𝛼) 𝑛 , 𝜇+ 𝜎𝐾(𝛼) 𝑛 ). Jinými slovy pro 1 - 2 = 𝜇=0 je interval spolehlivosti na hladině 1-𝛼 tvaru (− 𝜎𝐾(𝛼) 𝑛 , 𝜎𝐾(𝛼) 𝑛 ). Pokud interval „překryje 0“, H0 nezamítáme, jinak ano.

Náš příklad.   P2 P1

Příklad. Byla sledována hmotnost lidí před a po absolvování diety: H0: před = po H1: před ≠ po Oboustranný test   P2 = 0.0285 P1 = 0.0285

Proto: H1: před – po > 0, tedy před > po H0: před ≤ po Jednostranný test t(7) = 2,277, P = P1 = 0.057 / 2 = 0.0285   nezamítám jednostranný test (P ≥ 0.025) Postup. Oboustranný test stanovení H0 stanovení H1 t-hodnota, P Jednostranný test t-hodnota, P/2 Zamítám oboustranný test (P < 0.05) Zamítám jednostranný test (P < 0.025) nezamítám oboustranný test (P ≥ 0.05)

Jednovýběrový t-test Automat plní sáčky moukou. V každém sáčku by měl být 1 kg. Při testu automatu byly získány následující hodnoty: 0.98, 1.05, 1.03, 0.995, 1.1, 0.998, 1.002,1.03, 0.99,0.99. Vykazuje automat systematickou chybu? H0: automat nevykazuje systematickou chybu H1: automat vykazuje systematickou chybu Střední hodnota 1.0165, t (9) = 1.416571, P = 0.190277 ≥ 0.05 Nezamítám, že automat nevykazuje systematickou chybu.

Dvouvýběrový t-test   H0: střední hodnota přírůstku diety A = střední hodnota přírůstku diety B H1: nerovnost Předpoklady: oba soubory pocházejí z normálního rozdělení, N(m1, s12), N(m2, s22) Porušení rovnosti s1 = s2 vede ke snížení citlivosti testu korekce na nerovnost variancí Porušení rovnosti n1 = n2 vede ke snížení citlivosti testu korekce na nestejný počet pozorování.

Pokud m1 = m2 = 0, SX = SY = S, n1 = n2 = n, dostáváme F - test pro rovnost variancí (homogenity variancí). H0: s1 = s2  s1 / s2 = 1 H1: nerovnost  s1 / s2 ≠ 1

K příkladu. Dieta A: Výběrová střední hodnota 570 g, výběrová S.E. 14.6 Dieta B: 95% interval spolehlivosti pro střední hodnotu (konfindenční interval) je interval s náhodnými konci,který s jistotou 95% překryje teoretickou střední hodnotu (kterou neznám). 95% konfindenční interval pro Dietu A je (532.45, 607.55) Dietu B je (482.45, 549.55)

Pokud se konfindenční intervaly nepřekrývají, prokážeme rozdíl středních hodnot. I když se lehce překrývají, můžeme odhalit rozdíl (jako v tomto příkladu).   Jednostranný t-test: H1: střední hodnota přírůstku diety A > střední hodnota přírůstku diety B H0: střední hodnota přírůstku diety A ≤ střední hodnota přírůstku diety B t (9) = 2.77 , P = 0.011 < 0.05 Tvrdím, že strava A dává větší přírůstky než strava B

Neparametrické testy. Doposud se testování týkalo střední hodnoty (variance) normálního nebo t-rozdělení, neboli Testovala se shoda výběrových a teoretických parametrů známých rozdělení náhodných veličin. Takové testy se nazývají parametrické. Jejich předpokladem je, že výběrové Soubory pocházejí ze známého, většinou normálního rozdělení. Normalita dat se testuje, jak bylo uvedeno,  2 testem, který je velmi citlivý. Proto normalitu dat nezamítáte pouze v případě malého souboru dat. Parametrické testy nejsou citlivé na (slabé) porušení normality (jsou robustní). Z výše uvedeného vyplývá, že se normalita dat netestuje. Víme-li, že typ dat nepochází z normálního rozdělení, pak se snažíme data transformovat do normálního rozdělení můžeme na originální data použít neparametrické testy.

Transformace dat. Jestliže jsou data procentuální, pak nemají normální rozdělení. Jestliže jsou procenta v intervalu <10, 90>%, pak je možno použít parametrické testy bez úprav dat. Jestliže je rozsah dat vně intervalu <10, 90>%, pak se používá arcussinová t transformace dat: 𝑦= arcsin 𝑝/100 , pokud 𝑝∈<0,10> nebo 𝑝∈<90,100> . Standardně (pro použití parametrických testů) předpokládá, že pro měření Vyhovuje model 𝑥= 𝜇 + 𝜀, kde x je měření, 𝜇 je teoretická střední hodnota a 𝜀 je chyba měření. Pokud 𝑥= 𝜇 𝜀, pak log 𝑥= log 𝜇 + log 𝜀 a použije se standardní parametrický test. Závislost 𝑥= 𝜇 𝜀 umějí odhalit balíky statistických programů. Existují další transformace dat – viz například https://meloun.upce.cz/docs/publication/247.pdf

Neparametrické testy. Pokud nemůžeme použít parametrické testy, ani nám není známa transformace dat do normálního rozdělení, lze použít neparametrické testy. Jejich výhodou je, že nemají předpoklad na rozdělení dat, jejich nevýhodou je, že jsou slabé, tj. Že ve srovnání s parametrickými testy odhalí mnohem méně rozdílů. Výpočty jsou založeny na pořadí dat vzestupně (sestupně) uspořádaných. Rozdělení výsledných testových charakteristik často není známo. Aby se získala signifikance (konfindenční interval) pro tyto charakteristiky, provádí se transformace do známých rozdělení, nejčastěji N(0, 1), (ale také t-rozdělení nebo  2 rozdělení). Obdobou párového t-testu je Wilcoxonův párový test, obdobou 2-výběrového t-testu je například Mann Whitney U-test.