Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014.

Podobné prezentace


Prezentace na téma: "Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014."— Transkript prezentace:

1 Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014 UK FHS Historická sociologie Doplnění z AKD II.: t-test a ANOVA - testování hypotéz pro průměry (rozptyly)

2 Testování hypotéz pro průměry (rozptyly) Doplnění z AKD II.

3 t-test: testy pro průměry Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ 0 (nebo porovnání s jinou testovou- teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ 0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL 10.5 /VARIABLES prijem. Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TEST GROUPS s30(1 2)/ VARIABLES prijem.

4 Dvouvýběrový t-test (Independent-samples t-test) Zdroj: [SPSS Base User's Guide 13.0: ] T-TEST GROUPS Treat (0 1)/ VARIABLES Bloodprs. Ve výstupu máme k dispozici: 1. konvenční t-test (Equal variances assumed) 2. modifikovaný Welch's t-test (equal variances not assumed). Pokud je Levenův test statisticky signifikantní (tj. předpoklad o rovnosti rozptylů je porušen) → interpretujeme výsledek Welchova t-testu (equal variances not assumed). Jeho použití se ostatně obecně doporučuje. Sig. > 0,05 → skupiny mají stejné rozptyly → čteme první řádek: konvenční t-test Výsledek t-testu: P-value < 0,05 → hypotézu o rovnosti průměrů nemůžeme přijmout. → Krevní tlak je ve skupině s novým lékem (new drug) o 26 bodů nižší než ve skupině s placebem. Naměřená statistika t = (rozdíl průměrů / S.E. rozdílu průměrů) = 6,9 / 26,1 = 3,783 Tabulková hodnota Studentova t-rozdělení: pro Alfa 5 % a 18 df je 2,101 < 3,783 → H0 zamítáme. Output:

5 Poznámka - neparametrické testy Pokud nejsou dodrženy předpoklady (malé výběry, normalita rozložení, ordinální závislý znak atd.) pak bychom měli pro testy střeních hodnot používat neparametrických testů: Independent-samples t-test → Mann- Whitney U test One-Way ANOVA → Kruskal-Wallis one- way analysis of variance

6 Pokud má nezávislá proměnná více kategorií než dvě pak alternativou pro dvouvýběrový t-test je jednoduchá analýza rozptylu (one-way ANOVA)

7 One-Way Analysis of Variance ANOVA jednoduchá analýza rozptylu

8 One-way ANOVA - předpoklady Předpokladem je rovnost rozptylů v testovaných podskupinách. Vizuálně ověříme pomocí ErrorBar grafu GRAPH /ERRORBAR (STDDEV 1)=prijem BY vzd4. Zde tomu tak není: Vysokoškoláci mají větší rozptyl v příjmech než ostatní. (viz také Levenův test) Zdroj: [data ISSP 2007, ČR]

9 ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /POSTHOC=BONFERRONI ALPHA(0.05). *Zde máme navíc zadány: popisné statistiky, Levenův test homogeneity rozptylů, graf průměrů, a tzv. post-hoc test pro statistický test, které skupiny se navzájem odlišují (Bonferroniho test). One-way ANOVA – zadání Závislá proměnná (číselná- kardinální) Nezávislá proměnná (kategoriální)

10 One-way ANOVA – Output (1) Levenův test (Homogeneity of variance test) → stejnosti rozptylů v podskupinách H0 (shoda rozptylů) nemůžeme přijmout: P value < 0,05. Homogenita je porušena. → alternativní postupy: -Provedeme transformaci (např. zlogaritmování závislé proměnné) - použijeme neparatmetrický test Kruskal-Wallis one- way analysis of variance - také to můžeme ignorovat. ANOVA je vůči této podmínce poměrně robustní, pokud jsou podskupiny (v nezávislé proměnné) přibližně stejně velké. Popisné statistiky: průměry v podskupinách, STD, S.E., Intervaly spolehlivosti. Tyto výsledky posléze věcně interpretujeme (samotný F-test je až v další tabulce).

11 One-way ANOVA – Output (2): hlavní výsledek F-test F test: Sig. < 0,05 proto zamítáme H0 (o shodě průměru v podskupinách). Pozor: samotný tento F-test neříká, které podskupiny se liší navzájem, pouze víme, že minimálně jedna vzdělanostní skupina se liší v průměrném příjmu od ostatních. Proto dále provedeme: Post-hoc test a nebo porovnáme Intervaly spolehlivosti mezi skupinami.

12 One-way ANOVA – Output (3) Post-hoc test (Bonferroni) → rozdíly mezi skupinami Test porovnává každou kategorii s každou, hvězdička * nám ukazuje, kde jsou rozdíly v průměru statisticky signifikantní na Alfa min. 5 %. Výsledek si můžeme přehledně znázornit: ZŠVY SŠVŠ (spojnice značí shodu průměru, na Alfa 0,05) Mnohem praktičtější je ale grafické zobrazení průměrů a intervalů spolehlivosti (viz dále).

13 Intervaly spolehlivosti mezi skupinami (ERROR-BAR) GRAPH ERRORBAR (CI) prijem BY vzd4. Zde máme mnohem více informací, interval spolehlivosti v sobě zahrnuje informaci o rozptylu (standardní chybě) i počtu případů ve skupině. A nezapomeňte, že záleží, jaké je na ose Y rozpětí (SPSS v grafu „optimalizuje“ zobrazení).

14 Neparametrické testy NPar Tests → „pořadové (Rank) testy“ K porovnání souborů statistických dat, u nichž není normální rozdělení pravděpodobností sledovaného znaku → náhodná veličina má neznámé rozdělení, které neumíme charakterizovat pomocí průměru a rozptylu (µ, s). nulová hypotéza, se proto vztahuje jen k obecným vlastnostem rozdělení: (shodu tvaru křivky rozdělení v porovnávaných souborech dat). Výpočty jsou založeny na pořadových číslech jednotlivých hodnot variační řady (→ pořadové testy), Můžeme je proto použít i pro ordinální proměnné (hodnoty, které nemají přesný číselný význam, odráží jen pořadí)

15 Neparametrický test: Two-Independent-Samples Tests Mann-Whitneyův pořadový test Mann-Whitney Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme. Ekvivalent dvouvýběrového t-testu NPAR TESTS /M-W=prijem BY s30(1 2) /STATISTICS DESCRIPTIVES.

16 Neparametrický test: Kruskal-Wallis one-way analysis of variance Kruskal-Wallis Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme. NPAR TESTS /K-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES. Ekvivalent jednoduché analýzy rozptylu One-Way ANOVA


Stáhnout ppt "Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014."

Podobné prezentace


Reklamy Google