t-test Počítání t-testu t statistika Měření velikosti efektu

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
Statistická indukce Teorie odhadu.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Testování statistických hypotéz
Matematické metody vyhodnocování experimentů
Odhady parametrů základního souboru
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
t-rozdělení, jeho použití
Testování hypotéz přednáška.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Odhady parametrů základního souboru
Inference jako statistický proces 1
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Principy konstrukce norem a základní statistické pojmy
Odhady odhady bodové a intervalové odhady
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
HODNOCENÍ ROZDÍLŮ VÝKONŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2010 FTVS.
Lineární regresní analýza
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Pohled z ptačí perspektivy
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
8. Kontingenční tabulky a χ2 test
Statistická významnost a její problémy
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Základy testování hypotéz
Inferenční statistika - úvod
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Statistické testování – základní pojmy
Induktivní statistika
Induktivní statistika
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Normální rozložení Intervalová/poměrová proměnná
- váhy jednotlivých studií
Odhady parametrů základního souboru
Popisná statistika: přehled
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Pravděpodobnost a výběry – 1. část
Úvod do induktivní statistiky
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

t-test Počítání t-testu t statistika Měření velikosti efektu t rozložení (distribuce, rozdělení) Měření velikosti efektu Konfidenční interval (interval spolehlivosti) Cohenovo d

Základy - dodatek Pro normálně rozložené proměnné X a Y platí, že Z = X + Y je normálně rozložená proměnná. Toto platí i pro Poissonovské nezávislé proměnné. Pro normálně rozloženou proměnnou X platí, že Z = kX + q je normálně rozložená proměnná (k a q jsou konstanty).

První část Počítání t-testu t statistika t distribuce

z jako testovací statistika použití z statistiky je vázáno na znalost směrodatné odchylky (σ). Z-statistika konvertuje průměr do z-skóru jako vzdálenosti od nulové hypotézy. p-hodnota je pravděpodobnost získání hodnoty Ztest jako extrému za platnosti nulové hypotézy (nulového rozložení).

Jednostranný test .05 Dvouustranný test Odmítni H0 Neodmítne H0 Zkrit -1.65 Dvouustranný test Odmítni H0 Neodmítne H0 Odmítni H0 .025 .025 Zkrit Zkrit 1.96 -1.96

t jako testovací statistika Výběr X z-test Populace  _ Výběr X, s t-test Populace _

t jako testovací statistika t-test: používá data k testování hypotézy o průměru v populaci bez znalosti populační směrodatné ochylky () Použijeme výběrovou směrodatnou odchylku (s) k odhadu směrodatné chyby x =  n sx = s n standardní chyba Odhad standardní chyby

t jako testovací statistika Použijeme t-statistiku, jestliže neznáme hodnotu populační směrodatné odchylky (σ). t-statistika konvertuje výběrový průměr do t-skóru, přičemž se použije průměr µ (nulová hypotéza) p-hodnota je pravděpodobnost získání hodnoty ttest nebo ještě extrémnější za platnosti nulové hypotézy

t rozložení Můžeme použít s jako aproximaci σ, ale jako výběrové rozložení pak nepoužijeme normální rozložení nýbrž t- rozložení Proč jsou Z-skóry normálně rozložené, ale ne t-skóry? normální non normální Náhodná proměnná konstanta

t rozdělení S velkými výběry bude odhadnutá směrodatná chyba blízko populační hodnotě, takže t hodnota se bude skoro rovnat z hodnotě. Na rozdíl od standardizované normálního rodělení, je t-rozdělení upřesněno stupni volnosti, jde o třídu rozdělení. S rostoucím počtem stupňů volnosti se blíží normálnímu rozložení. Pro malá n, je t distribuce platykurtická, má delší konce Používáme “stupně volnosti“ k identifikaci, kterou t křivku použít, u t-testu je st.v. = n-1.

Porovnání t (s.v.=5) se standardní normální křivkou Zkrit 1,96 Tkrit 2,57

Stupně volnosti Počet hodnot ve výběru, které se mohou volně měnit Např. pro jeden výběr, výběrový průměr omezuje jednu hodnotu, tedy st.v.= n-1 S tím jak st.v. se blíží k nekonečnu, t-rozdělení je aproximováno normálním rozdělením Při st.v. malých, má t-rozdělení dlouhý konec, tedy tkrit je větší a testovací statistika musí být větší, aby byla významná.

t distribuce - tabulka Musí obsahovat hodnoty pro různé st.v., proto má více hodnot, na dalším obrázku vidíme pouze malou část.

t - rozdělení – kritické hodnoty pro jednostranný test tkrit st.v 0,05 0,025 0,01 0,005 1 2 3 4 6,314 2,920 2,353 2,132 12,706 4,303 3,182 2,776 32,821 6,965 4,541 3,747 63,657 9,925 5,841 4,604 Ale počítač dopočítá i p-hodnotu.

Příklad pro hledání v tabulce Rozsah výběru je 5, jaký je stupeň volnosti? Jaká je kritická hodnota pro alfa 0,05 pro jednostranný test? Jaká je kritická hodnota pro hladinu alfa= 0,05 pro dvoustranný test? St.v.=4, tcrit=2,132; tkrit=2,776

Ilustrace Ve studii rodin s rodičem s rakovinou Compas et al (1994) zjistili, že děti projevovali méně symptomů úzkosti na škále CMAS. CMAS obsahuje 9 položek měřící “sociální potřebu”. Compas chtěl vědět, zda děti nemají vysoké hladiny „sociální potřeby“.

Ilustrace Compas získal 36 dětí z rodin, kdy jeden z rodičů měl rakovinu. Průměrný skór SDS byl 4,39 se směrodatnou odchylkou 2,61. Předchozí studie indikovaly, že průměrný skór v populací dětí ze základních škol je 3,87 na škále SDS. Je zde evidence, že děti Compase se liší na škále SDS od běžných dětí? Jaký můžeme udělat závěr? tkalk=1,195, st.v. = 35 dvoustranná p-hodnota = mezi 0,20 a 0,30

t-rozdělení

N(0; 1) rozdělení

Faktory, které ovlivňují velikost t a příslušné rozhodnutí aktuální rozdíl hodnota výběrového rozptylu (s2) velikost výběru (n) hladina významnosti (alfa) zda se jedná o jednostranný nebo dvoustranný test Jak lze zvětšit možnost zamítnutí nulové hypotézy?

Část II Míry velikosti účinku Intervaly spolehlivosti Cohenovo d

Testování hypotéz vs. velikost účinku ES (effect size) Testy hypotéz Definujeme nulovou hypotézu pro µ. Odmítneme, nebo neodmítneme. Indikuje pouze směr poruchy (např.: >μH0) Nic neříká o velikosti efektu. ES Vypovídá o velikosti poruchy Pomáhá při úvahách o „významu“ Ne pouze o směru poruchy

P-hodnota: špatná míra velikosti účinku ES “Statistická významnost” neznamená důležitost vědeckou či klinickou Statistická významnost je závislá na počtu pozorování “Nulová hypotéza ve skutečnosti nikdy neplatí. Dejte mi dostatečně velký výběr a mohu dostat významný výsledek. ” -Abelson

Interval spolehlivosti Můžeme odhadovat velikost účinku pomocí poměru rozdílu a směrodatné odchylky. Chceme ale také vymezit, jak je náš odhad nejistý. Takže zjistíme “interval spolehlivosti” pro náš průměr nebo jinou statistiku. Říkáme, že s xx% spolehlivostí, leží neznámý parametr (jeho hodnota) v daném intervalu (okno spolehlivosti).

Nalezení okna pro hodnotu parametru  __ X

Nalezení okna pro hodnotu parametru  __ X

Nalezení okna pro hodnotu parametru  __ X Může být…

Jestliže alfa = 0,05, jaká je nejnižší přijatelná hodnota µH0 ?  0,05 __ X

Jestliže máme alfa = 0,05, jaká je hodnota µH0 , kterou ještě akceptujeme?  .05 __ X

Zobecníme. Pro danou hladinu alfa, je interval spolehlivosti po __ X Naše okno!

Interval spolehlivosti Hladina spolehlivosti = 1 -  Jestliže alfa je 0,05, pak hladina spolehlivosti je 95% 95% spolehlivost znamená, že v 95% pokryje interval spolehlivosti skutečnou hodnotu parametru..

Konstrukce intervalu spolehlivosti Zvolíme hladinu spolehlivosti (90%, 95%, 99%…) Nalezneme kritickou mez t-hodnoty (volíme obvykle dvoustranný test) Nalezneme směrodatnou chybu Získáme interval spolehlivosti K.I. pro průměr K.I. pro efekt

Cvičení pro konstrukci KI Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Jaký je interval hodnot, který pokryje správnou hodnotu průměru s 95% spolehlivostí? Polovina délky = 3 roky KI = (12,50, 18,50) Použitím alfa= 0,05, odmítneme nulovou hypotézu µ=10? A co se stane, pokud µ=17? Ano Ne

Cvičení pro konstrukci KI Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Srovnáváme tento průměr (populace dívek v New Yorku) s celou USA populací dívek μ = 13 let. Jak může být veliká odlišnost (ES) dívek z New York od dívek z USA v průměru? Polovina délka je = 3 roky KI = (-0,50, 5,50)

Faktory ovlivňující KI Hladina spolehlivosti (vyšší spolehlivost ==> širší interval) Velikost výběru (větší n ==> užší interval)

Interval spolehlivosti Pro Proti Dává interval pravděpodobných hodnot hledaného parametru. Má v sobě více informace než výsledek testu. Vychází z úrovně spolehlivosti. Jednotky jsou specifické pro dané měření. Nelze tedy srovnávat různé studie. Nevíme, co je velký nebo malý efekt.

Cohenovo d Cesta vyjádření standardizovaného účinku (nebo odlišnosti od nulové hypotézy). Vyjádří rozdíl v počtu směrodatných odchylek

Cvičení pro konstrukci d Máme výběr 10 dívek, které v průměru měly první rande v 15,5 letech, se směrodatnou odchylkou 4,2 let. Srovnáváme tento průměr (populace dívek v New Yorku) s celou USA populací dívek μ = 13 let. Jaký je odhad ES pomocí d odlišnosti průměru ?

Cvičení pro výpočet d Jaký je odhad d velikosti účinku, že budu v New Yorku? Je veliký? 0,2 malý 0,5 střední 0,8 veliký >1 velmi velký

Cohenovo D Pro Proti Používá vzdálenost nulové hypotézy a dat jako refrenci Je standaradizováno Lze porovnávat různé studie Není v původních jednotkách Neobsahuje odhad nejistoty

Přehled Testy hypotéz t-test Interval spolehlivosti t interval or Velikost efektu Cohenovo d