Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Úvod do analýzy rozptylu
Testování parametrických hypotéz
Neparametrické metody a analýza rozptylu (lekce 3-7)
Jednovýběrové testy parametrickch hypotéz
Testování statistických hypotéz
Statistické metody v ochraně kulturního dědictví
Jiří Šafr jiri.safr(zavináč)seznam.cz
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
Obecný postup při testování souborů
Testování hypotéz vymezení důležitých pojmů
Jiří Šafr jiri.safr(zavináč)seznam.cz
MUDr. Michal Jurajda, PhD. ÚPF LF MU
Biostatistika 9. přednáška Aneta Hybšová
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
základní principy a použití
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Analýza variance (ANOVA).
ODDS RATIO Relationships between categorical variables in contingency table Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis.
V. Analýza rozptylu ANOVA.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Dvouvýběrové testy parametrickch hypotéz
Dvouvýběrový t-test 11 stejně starých selat bylo náhodně rozděleno do 2 skupin. První skupina byla krmena krmivem A, druhá krmivem B. Po 6 měsících byly.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
Biostatistika 8. přednáška
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
PSY717 – statistická analýza dat
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Popisná analýza v programu Statistica
1. cvičení
Základy testování hypotéz
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Biostatistika Opakování – základy testování hypotéz
Historická sociologie
Statistické testování – základní pojmy
Testování hypotéz párový test
Neparametrické testy parametrické a neparametrické testy
Neparametrické testy parametrické a neparametrické testy
Popisná analýza v programu Statistica
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Normální rozdělení a ověření normality dat Modelová rozdělení
Opakování Shrnutí statistických testů Neparametrické testy
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek.
Parametrické testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Základy statistiky.
Transkript prezentace:

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014 UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Doplnění z AKD II.: t-test a ANOVA - testování hypotéz pro průměry (rozptyly) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

Testování hypotéz pro průměry (rozptyly) Doplnění z AKD II.

t-test: testy pro průměry Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovou-teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL 10.5 /VARIABLES prijem. Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TEST GROUPS s30(1 2)/ VARIABLES prijem.

Dvouvýběrový t-test (Independent-samples t-test) T-TEST GROUPS Treat (0 1)/ VARIABLES Bloodprs. Ve výstupu máme k dispozici: 1. konvenční t-test (Equal variances assumed) 2. modifikovaný Welch's t-test (equal variances not assumed). Pokud je Levenův test statisticky signifikantní (tj. předpoklad o rovnosti rozptylů je porušen) → interpretujeme výsledek Welchova t-testu (equal variances not assumed). Jeho použití se ostatně obecně doporučuje. Output: Sig. > 0,05 → skupiny mají stejné rozptyly → čteme první řádek: konvenční t-test Výsledek t-testu: P-value < 0,05 → hypotézu o rovnosti průměrů nemůžeme přijmout. → Krevní tlak je ve skupině s novým lékem (new drug) o 26 bodů nižší než ve skupině s placebem. Naměřená statistika t = (rozdíl průměrů / S.E. rozdílu průměrů) = 6,9 / 26,1 = 3,783 Tabulková hodnota Studentova t-rozdělení: pro Alfa 5 % a 18 df je 2,101 < 3,783 → H0 zamítáme. Zdroj: [SPSS Base User's Guide 13.0: 358-59]

Dvouvýběrový t-test: Předpoklady Test variables with extreme or outlying values should be carefully checked; boxplots can be used for this. Note that the assumption of equal variances is not the only assumption that may apply to a t-test. A t-test also assumes normal distributions of the variable within each group (although it's reasonably robust to this assumption). Depending on your perspective on measurement, and the type of inferences desired, it may also not be appropriate to use parametric statistics with "ordinal" data. For the equal-variance t test, Pozorování musí být na sobě nezávislá Náhodný výběr Normální rozložení distribuce hodnot Stejný rozptyl ve výběru jako v populaci from normal distributions with the same population variance. For the unequal-variance t test, the observations should be independent, random samples from normal distributions. The two-sample t test is fairly robust to departures from normality. When checking distributions graphically, look to see that they are symmetric and have no outliers. Zdroj: [SPSS Base User's Guide 13.0: 358]

Poznámka - neparametrické testy Pokud nejsou dodrženy předpoklady (malé výběry, normalita rozložení, ordinální závislý znak atd.) pak bychom měli pro testy střeních hodnot používat neparametrických testů: Independent-samples t-test → Mann-Whitney U test One-Way ANOVA → Kruskal-Wallis one-way analysis of variance

Pokud má nezávislá proměnná více kategorií než dvě pak alternativou pro dvouvýběrový t-test je jednoduchá analýza rozptylu (one-way ANOVA)

One-Way Analysis of Variance ANOVA jednoduchá analýza rozptylu

One-way ANOVA - předpoklady Předpokladem je rovnost rozptylů v testovaných podskupinách. Vizuálně ověříme pomocí ErrorBar grafu GRAPH /ERRORBAR (STDDEV 1)=prijem BY vzd4. Zde tomu tak není: Vysokoškoláci mají větší rozptyl v příjmech než ostatní. (viz také Levenův test) Zdroj: [data ISSP 2007, ČR]

(číselná-kardinální) One-way ANOVA – zadání Závislá proměnná (číselná-kardinální) Nezávislá proměnná (kategoriální) ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /POSTHOC=BONFERRONI ALPHA(0.05). *Zde máme navíc zadány: popisné statistiky, Levenův test homogeneity rozptylů, graf průměrů, a tzv. post-hoc test pro statistický test, které skupiny se navzájem odlišují (Bonferroniho test).

One-way ANOVA – Output (1) Popisné statistiky: průměry v podskupinách, STD, S.E., Intervaly spolehlivosti. Tyto výsledky posléze věcně interpretujeme (samotný F-test je až v další tabulce). Levenův test (Homogeneity of variance test) → stejnosti rozptylů v podskupinách H0 (shoda rozptylů) nemůžeme přijmout: P value < 0,05. Homogenita je porušena. → alternativní postupy: Provedeme transformaci (např. zlogaritmování závislé proměnné) použijeme neparatmetrický test Kruskal-Wallis one-way analysis of variance - také to můžeme ignorovat. ANOVA je vůči této podmínce poměrně robustní, pokud jsou podskupiny (v nezávislé proměnné) přibližně stejně velké.

One-way ANOVA – Output (2): hlavní výsledek F-test F test: Sig. < 0,05 proto zamítáme H0 (o shodě průměru v podskupinách). Pozor: samotný tento F-test neříká, které podskupiny se liší navzájem, pouze víme, že minimálně jedna vzdělanostní skupina se liší v průměrném příjmu od ostatních. Proto dále provedeme: Post-hoc test a nebo porovnáme Intervaly spolehlivosti mezi skupinami.

One-way ANOVA – Output (3) Post-hoc test (Bonferroni) → rozdíly mezi skupinami Test porovnává každou kategorii s každou, hvězdička * nám ukazuje, kde jsou rozdíly v průměru statisticky signifikantní na Alfa min. 5 %. Výsledek si můžeme přehledně znázornit: ZŠ VY SŠ VŠ (spojnice značí shodu průměru, na Alfa 0,05) Mnohem praktičtější je ale grafické zobrazení průměrů a intervalů spolehlivosti (viz dále).

Intervaly spolehlivosti mezi skupinami (ERROR-BAR) GRAPH ERRORBAR (CI) prijem BY vzd4. Zde máme mnohem více informací, interval spolehlivosti v sobě zahrnuje informaci o rozptylu (standardní chybě) i počtu případů ve skupině. A nezapomeňte, že záleží, jaké je na ose Y rozpětí (SPSS v grafu „optimalizuje“ zobrazení).

Neparametrické testy NPar Tests → „pořadové (Rank) testy“ K porovnání souborů statistických dat, u nichž není normální rozdělení pravděpodobností sledovaného znaku → náhodná veličina má neznámé rozdělení, které neumíme charakterizovat pomocí průměru a rozptylu (µ, s). nulová hypotéza, se proto vztahuje jen k obecným vlastnostem rozdělení: (shodu tvaru křivky rozdělení v porovnávaných souborech dat). Výpočty jsou založeny na pořadových číslech jednotlivých hodnot variační řady (→ pořadové testy), Můžeme je proto použít i pro ordinální proměnné (hodnoty, které nemají přesný číselný význam, odráží jen pořadí)

Neparametrický test: Two-Independent-Samples Tests Mann-Whitneyův pořadový test Ekvivalent dvouvýběrového t-testu NPAR TESTS /M-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES. Mann-Whitney Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.

Neparametrický test: Kruskal-Wallis one-way analysis of variance Ekvivalent jednoduché analýzy rozptylu One-Way ANOVA NPAR TESTS /K-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES. Kruskal-Wallis Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.