statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného výběru a teoretickou střední hodnotu, počty pozorované a očekávané atd.
liší se hmotnost samic a samců? mám hypotézu H: mf ≠ mm předpokládám, že se liší hypotézu nemůžu potvrdit (verifikovat) → zkusím zamítnout (falzifikovat) nulovou hypotézu H0: mf = mm mají stejnou hmotnost pokud ji zamítnu, přijmu opačnou alternativní hypotézu HA (tu moji původní) průměr mf, mm se téměř určitě bude lišit. Bude se lišit tak, abych mohl zamítnout H0?
statistické testy z dat spočítám testovou statistiku, která má známé teoretické rozdělení (t, F, 2, U….) lze určit, jakou hodnotu bude testová statistika mít, pokud platí H0 na základě stupňů volnosti (d.f., s.v. – z počtu nezávislých pozorování) stanovím, jestli odchylky jsou jen dílem náhody - p
statistické testy definuji si hladinu významnosti α – pravděpodobnost, že zamítnu H0 ačkoli platí – chyba prvního druhu většinou 5 % (= 0.05) pokud spočítané p je menší než α – zamítám H0 a tím „přijímám“ HA
statistické testy jako výsledek statistického testu uvádím hodnotu testové statistiky (t, F, 2, U…..) stupně volnosti (degrees of freedom – d.f., s.v.) dosažená hladina významnosti (p) t = 3.414, d.f. = 28, p = 0.0215 t (28) = 3.414, p = 0.0215 t28 = 3.414, p = 0.0215
Studentův t-test
testuji, zda můj výběr má střední hodnotu shodnou s danou hodnotou – jednovýběrový t-test (H0: μ = k) dlouhodobá průměrná denní teplota v červnu je rovna 17.5 °C. Byla letos stejná? testuji, zda dva náhodné výběry (nezávislé) pochází ze stejného základního souboru (mají stejnou střední hodnotu) – dvouvýběrový t-test (H0: μA = μB) hmotnost samic a samců,…. testuji, zda rozdíl párových hodnot (závislých) je roven dané hodnotě (větš. 0) - párový t-test (H0: μ1- μ2 = 0) hmotnost před a po zásahu, délka pravé a levé nohy,….
Studentův t-test předpoklad použití: normalita dat pracuji s průměry, pokud mám dostatek dat, tak se rozdělení blíží normálnímu (centrální limitní věta) pokud mám dat málo, většinou nemůžu zamítnout že data nepochází z normálního rozdělení ne kategoriální či ordinální stupnice! shodnost variancí – ale různé modifikace
Příklad: měřím zadní stehno bruslařky a chci porovnat, jestli se liší samci a samice chci zjistit, jestli se liší znalosti (= počet bodů v testu) žáků 2 gymnázií měřím střevle ve dvou řekách a chci zjistit, jestli jsou stejně velké dvouvýběrový t-test
Příklad: měřím zadní stehno bruslařky a chci porovnat, jestli se liší levé a pravé chci zjistit, jestli se liší znalosti (= počet bodů v testu) žáků před a po prázdninách / přednášce vážím lidi (myši) před a po snězení 0.1 kg cukru – je změna 0.1 kg? párový t-test
formální provedení chci ukázat: střevle z povodí Stropnice jsou jinak velké než střevle z povodí Černé (musím zdůvodnit proč!) formuluji hypotézu: H0: Výběry naměřených délek střevlí pochází z jednoho základního souboru (průměry se neliší) alternativní hypotéza: HA: Výběry naměřených délek střevlí z povodí Stropnice i Černé nepochází z jednoho základního souboru (= střevle obou povodí jsou různě velké) provedu testování, jak moc je pravděpodobné že oba výběry pochází ze stejného souboru pokud je pravděpodobnost malá (p < 0.05), zamítnu H0 a akceptuji HA pokud je p > 0.05, nemůžu zamítnout H0 (ale ani HA!)
dvouvýběrový t-test rovnají se rozptyly? shodnost rozptylů testuji F-testem (H0: s21 = s22) pokud p větší než 0.05 – nemůžu zamítnout H0 rozptyly se rovnají (asi) pokud p menší než 0.05 – můžu zamítnout H0 rozptyly se nerovnají (asi)
Excel vyžaduje, aby data s větším rozptylem byla zadána jako první!!!
hodnota t odpovídající p: jednostranného testu dvoustranného testu stupně volnosti
test jednostranný a dvoustranný testuji zda A se liší od B (H0: A=B) – dvoustranný testuji zda A je menší / větší než B (H0: A≤B) - jednostranný
výsledek Průměrná velikost střevlí z povodí Stropnice a Černé se signifikantně liší (t (33) = -2.61, p = 0.013) dobré je i uvést výsledek F-testu: Po nezamítnutí homogenity variancí (F(15,18) = 1.429, p = 0.466)….. formálně – zamítám H0 o shodnosti velikostí střevlí z obou povodí….
chyby statistických testů testu pravděpodobnost chyby je α = hladina významnosti rozhodnutí zamítnu H0 nezamítnu H0 H0 platí (např. A=B) chyba 1. druhu správně H0 neplatí (např. A≠B) chyba 2. druhu realita pravděpodobnost chyby je β = neznáme
Grafické vyjádření pro znázornění t-testu je vhodný krabicový graf
krabicový graf v Excelu problém
krabicový graf v Excelu problém doplněk do Excelu: http://peltiertech.com/Excel/Zips/PTS_Box_Charter_Setup.zip
Statistica data se zadávají odlišně každý sloupec je jedna proměnná u t-testu je jedna kategoriální proměnná (zde povodí) a jedna kvantitativní (zde délka)
dvouvýběrový t-test, data ve sloupci pod sebou dvouvýběrový t-test, data ve sloupcích vedle sebe (jako v Excelu) párový t-test, data ve sloupcích vedle sebe (jako v Excelu) jednovýběrový t-test na střední hodnotu
výsledek testů se ukládá v samostatném souboru
další výsledky, grafy apod.