t-test Počítání t-testu t statistika Měření velikosti efektu t rozložení (distribuce, rozdělení) Měření velikosti efektu Konfidenční interval (interval spolehlivosti) Cohenovo d
Základy - dodatek Pro normálně rozložené proměnné X a Y platí, že Z = X + Y je normálně rozložená proměnná. Toto platí i pro Poissonovské nezávislé proměnné. Pro normálně rozloženou proměnnou X platí, že Z = kX + q je normálně rozložená proměnná (k a q jsou konstanty).
První část Počítání t-testu t statistika t distribuce
z jako testovací statistika použití z statistiky je vázáno na znalost směrodatné odchylky (σ). Z-statistika konvertuje průměr do z-skóru jako vzdálenosti od nulové hypotézy. p-hodnota je pravděpodobnost získání hodnoty Ztest jako extrému za platnosti nulové hypotézy (nulového rozložení).
Jednostranný test .05 Dvouustranný test Odmítni H0 Neodmítne H0 Zkrit -1.65 Dvouustranný test Odmítni H0 Neodmítne H0 Odmítni H0 .025 .025 Zkrit Zkrit 1.96 -1.96
t jako testovací statistika Výběr X z-test Populace _ Výběr X, s t-test Populace _
t jako testovací statistika t-test: používá data k testování hypotézy o průměru v populaci bez znalosti populační směrodatné ochylky () Použijeme výběrovou směrodatnou odchylku (s) k odhadu směrodatné chyby x = n sx = s n standardní chyba Odhad standardní chyby
t jako testovací statistika Použijeme t-statistiku, jestliže neznáme hodnotu populační směrodatné odchylky (σ). t-statistika konvertuje výběrový průměr do t-skóru, přičemž se použije průměr µ (nulová hypotéza) p-hodnota je pravděpodobnost získání hodnoty ttest nebo ještě extrémnější za platnosti nulové hypotézy
t rozložení Můžeme použít s jako aproximaci σ, ale jako výběrové rozložení pak nepoužijeme normální rozložení nýbrž t- rozložení Proč jsou Z-skóry normálně rozložené, ale ne t-skóry? normální non normální Náhodná proměnná konstanta
t rozdělení S velkými výběry bude odhadnutá směrodatná chyba blízko populační hodnotě, takže t hodnota se bude skoro rovnat z hodnotě. Na rozdíl od standardizované normálního rodělení, je t-rozdělení upřesněno stupni volnosti, jde o třídu rozdělení. S rostoucím počtem stupňů volnosti se blíží normálnímu rozložení. Pro malá n, je t distribuce platykurtická, má delší konce Používáme “stupně volnosti“ k identifikaci, kterou t křivku použít, u t-testu je st.v. = n-1.
Porovnání t (s.v.=5) se standardní normální křivkou Zkrit 1,96 Tkrit 2,57
Stupně volnosti Počet hodnot ve výběru, které se mohou volně měnit Např. pro jeden výběr, výběrový průměr omezuje jednu hodnotu, tedy st.v.= n-1 S tím jak st.v. se blíží k nekonečnu, t-rozdělení je aproximováno normálním rozdělením Při st.v. malých, má t-rozdělení dlouhý konec, tedy tkrit je větší a testovací statistika musí být větší, aby byla významná.
t distribuce - tabulka Musí obsahovat hodnoty pro různé st.v., proto má více hodnot, na dalším obrázku vidíme pouze malou část.
t - rozdělení – kritické hodnoty pro jednostranný test tkrit st.v 0,05 0,025 0,01 0,005 1 2 3 4 6,314 2,920 2,353 2,132 12,706 4,303 3,182 2,776 32,821 6,965 4,541 3,747 63,657 9,925 5,841 4,604 Ale počítač dopočítá i p-hodnotu.
Příklad pro hledání v tabulce Rozsah výběru je 5, jaký je stupeň volnosti? Jaká je kritická hodnota pro alfa 0,05 pro jednostranný test? Jaká je kritická hodnota pro hladinu alfa= 0,05 pro dvoustranný test? St.v.=4, tcrit=2,132; tkrit=2,776
Ilustrace Ve studii rodin s rodičem s rakovinou Compas et al (1994) zjistili, že děti projevovali méně symptomů úzkosti na škále CMAS. CMAS obsahuje 9 položek měřící “sociální potřebu”. Compas chtěl vědět, zda děti nemají vysoké hladiny „sociální potřeby“.
Ilustrace Compas získal 36 dětí z rodin, kdy jeden z rodičů měl rakovinu. Průměrný skór SDS byl 4,39 se směrodatnou odchylkou 2,61. Předchozí studie indikovaly, že průměrný skór v populací dětí ze základních škol je 3,87 na škále SDS. Je zde evidence, že děti Compase se liší na škále SDS od běžných dětí? Jaký můžeme udělat závěr? tkalk=1,195, st.v. = 35 dvoustranná p-hodnota = mezi 0,20 a 0,30
t-rozdělení
N(0; 1) rozdělení
Faktory, které ovlivňují velikost t a příslušné rozhodnutí aktuální rozdíl hodnota výběrového rozptylu (s2) velikost výběru (n) hladina významnosti (alfa) zda se jedná o jednostranný nebo dvoustranný test Jak lze zvětšit možnost zamítnutí nulové hypotézy?
Část II Míry velikosti účinku Intervaly spolehlivosti Cohenovo d
Testování hypotéz vs. velikost účinku ES (effect size) Testy hypotéz Definujeme nulovou hypotézu pro µ. Odmítneme, nebo neodmítneme. Indikuje pouze směr poruchy (např.: >μH0) Nic neříká o velikosti efektu. ES Vypovídá o velikosti poruchy Pomáhá při úvahách o „významu“ Ne pouze o směru poruchy
P-hodnota: špatná míra velikosti účinku ES “Statistická významnost” neznamená důležitost vědeckou či klinickou Statistická významnost je závislá na počtu pozorování “Nulová hypotéza ve skutečnosti nikdy neplatí. Dejte mi dostatečně velký výběr a mohu dostat významný výsledek. ” -Abelson
Interval spolehlivosti Můžeme odhadovat velikost účinku pomocí poměru rozdílu a směrodatné odchylky. Chceme ale také vymezit, jak je náš odhad nejistý. Takže zjistíme “interval spolehlivosti” pro náš průměr nebo jinou statistiku. Říkáme, že s xx% spolehlivostí, leží neznámý parametr (jeho hodnota) v daném intervalu (okno spolehlivosti).
Nalezení okna pro hodnotu parametru __ X
Nalezení okna pro hodnotu parametru __ X
Nalezení okna pro hodnotu parametru __ X Může být…
Jestliže alfa = 0,05, jaká je nejnižší přijatelná hodnota µH0 ? 0,05 __ X
Jestliže máme alfa = 0,05, jaká je hodnota µH0 , kterou ještě akceptujeme? .05 __ X
Zobecníme. Pro danou hladinu alfa, je interval spolehlivosti po __ X Naše okno!
Interval spolehlivosti Hladina spolehlivosti = 1 - Jestliže alfa je 0,05, pak hladina spolehlivosti je 95% 95% spolehlivost znamená, že v 95% pokryje interval spolehlivosti skutečnou hodnotu parametru..
Konstrukce intervalu spolehlivosti Zvolíme hladinu spolehlivosti (90%, 95%, 99%…) Nalezneme kritickou mez t-hodnoty (volíme obvykle dvoustranný test) Nalezneme směrodatnou chybu Získáme interval spolehlivosti K.I. pro průměr K.I. pro efekt
Cvičení pro konstrukci KI Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Jaký je interval hodnot, který pokryje správnou hodnotu průměru s 95% spolehlivostí? Polovina délky = 3 roky KI = (12,50, 18,50) Použitím alfa= 0,05, odmítneme nulovou hypotézu µ=10? A co se stane, pokud µ=17? Ano Ne
Cvičení pro konstrukci KI Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Srovnáváme tento průměr (populace dívek v New Yorku) s celou USA populací dívek μ = 13 let. Jak může být veliká odlišnost (ES) dívek z New York od dívek z USA v průměru? Polovina délka je = 3 roky KI = (-0,50, 5,50)
Faktory ovlivňující KI Hladina spolehlivosti (vyšší spolehlivost ==> širší interval) Velikost výběru (větší n ==> užší interval)
Interval spolehlivosti Pro Proti Dává interval pravděpodobných hodnot hledaného parametru. Má v sobě více informace než výsledek testu. Vychází z úrovně spolehlivosti. Jednotky jsou specifické pro dané měření. Nelze tedy srovnávat různé studie. Nevíme, co je velký nebo malý efekt.
Cohenovo d Cesta vyjádření standardizovaného účinku (nebo odlišnosti od nulové hypotézy). Vyjádří rozdíl v počtu směrodatných odchylek
Cvičení pro konstrukci d Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Srovnáváme tento průměr (populace dívek v New Yorku) s celou USA populací dívek μ = 13 let. Jaký je odhad ES pomocí d odlišnosti průměru ?
Cvičení pro výpočet d Jaký je odhad d velikosti účinku, že budu v New Yorku? Je veliký? 0,2 malý 0,5 střední 0,8 veliký >1 velmi velký
Cohenovo D Pro Proti Používá vzdálenost nulové hypotézy a dat jako refrenci Je standaradizováno Lze porovnávat různé studie Není v původních jednotkách Neobsahuje odhad nejistoty
Přehled Testy hypotéz t-test Interval spolehlivosti t interval or Velikost efektu Cohenovo d