Map of bivariate analyses configuration (bivariate and trivariate) UK FHS Historical sociology (2014) Jiří Šafr jiri.safr(AT)seznam.cz updated 2/6/2014.

Slides:



Advertisements
Podobné prezentace
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Advertisements

Testování neparametrických hypotéz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Analýza kvantitativních dat I.
Analýza dat.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická.
Analýza kvantitativních dat II. / Praktikum Vícenásobné výběrové otázky (Multiple response) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Korelace a elaborace aneb úvod do vztahů proměnných
Korelace a elaborace aneb úvod do vztahů proměnných
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regrese.
Kontingenční tabulky.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
ODDS RATIO Relationships between categorical variables in contingency table Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis.
Pohled z ptačí perspektivy
Jiří Šafr jiri.safr(zavináč)seznam.cz
Teorie psychodiagnostiky a psychometrie
Korelace a elaborace aneb úvod do vztahů proměnných
Závislost výskytu zámotků a housenek na stanovišti a výškových třídách Urtica dioica.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
RNDr. Monika Pávková Goldbergová
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Quantitative Data Analysis II.
Tutorial: Obchodní akademie Topic: Logical Functions Prepared by: Mgr. Zdeněk Hrdina Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je.
Tutorial: Mechanik - elektrotechnik Topic: Basics of electrical engineering the 2nd. year Measuring inductance Prepared by: Ing. Jiří Smílek Projekt Anglicky.
Statistická analýza dat
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Popisná analýza v programu Statistica
1. cvičení
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
Míry asociace obecná definice – síla a směr vztahu
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Jiří Šafr jiri.safr(zavináč)seznam.cz
Course Outline1. Instructor: Martin Hála, PhD. Mathematics DPT, B105,  Further information and downloads on my personal website:
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Test dobré shody Fisherův přesný test McNemar test
Dvoufaktorová analýza rozptylu
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 25/6/2014
Historická sociologie, Řízení a supervize
Popisná analýza v programu Statistica
Jiří Šafr FHS UK, SOÚ AV ČR, v.v.i. jiri.safr(zavináč)seznam.cz
Spojitá a kategoriální data Základní popisné statistiky
Digitální učební materiál
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
PSY117 Statistická analýza dat v psychologii Přednáška
Metodologie pro ISK 2 Úvod do práce s daty
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Analýza kardinálních proměnných
Lineární regrese.
Jiří Šafr jiri.safr(zavináč)seznam.cz
Jiří Šafr jiri.safr(zavináč)seznam.cz
Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz
Summary.
Účetní schémata MS Dynamics NAV RTC-základy
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

Map of bivariate analyses configuration (bivariate and trivariate) UK FHS Historical sociology (2014) Jiří Šafr jiri.safr(AT)seznam.cz updated 2/6/2014 Quantitative Data Analysis I.

2 Content „ orientation map“ analysis of 2 variables relationship: –ratio × ratio (both numeric) –ratio-numeric (dependent–outcome) × categorial (independent–explanatory) –Categorical × Categorical Contingency table 3rd level of data sorting (identically) What to take care of (sample data vs. census) How to organise and format a table

3 „orientational map“ of bivariate analysis Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. (Jak) souvisí spolu hodnoty jedné a druhé proměnné? –Například: Klesá počet přečtených knih za rok s dobou, kterou člověk věnuje sledování televize? –Je počet přečtených knih za rok stejný ve všech skupinách studentů (obory studia&ročník)? Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

4 Tools for analysis of 2 variables relationship Ratio × Ratio, e.g. Number of books read and age → (linear) correlation coefficient (Pearson), X-Y graph Ratio-numeric (dependent–outcome) × Categorical (independent–explanatory) e.g. Number of books read and field of study → means in sub-groups, coefficient EtaSq, graph of means in subgroups (Barchart for mean, Line-multiple or Boxplot, Errorbar) Categorical × Categorical e.g. Literary genres and field of study → contingency table, Barchart (for %) coefficients of association – contingency (CC), Cramer‘s V or Phi (for 2x2), … in case that both are ordinal – ordinal correlation (Gamma, Sperman‘s Rho, Kendaull‘s Tau B)

5 Ratio × Ratio Numeric variable → ideal situation: the best approach to measurement, the most sophisticated analyses, and we can collapse it into categorical variable Correlation (and or) X-Y graph CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. BUT! Correlation measures only linear relationship (přímou úměru) and it expects „normlity“ of values distribution. Dependencies can have other form than linear, you better make X-Y (Scatter plot) → relationships are visible visually. Look at Outliers – extreme values (and their combination) R – correlation coefficient R 2 – coefficient of determination R = √R 2 a R2 = R × R here √0,066 = 0,257

6 Ratio (depend.) × Categorical (independent) In principle we compare means of dependent variable in categories of independent variable + variance (standard deviation StD in groupings) missing values studium (5 6). MEANS knihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

7 Categorical × Categorical Contingency table: hledáme souvislosti pomocí spoluvýskytu using relative frequencies (%) or probabilities Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t. CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA. Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie. Vztah znaků v tabulce lze vyjádřit i jedním číslem: pro nominální (a ordinální) znaky: koef. kontingence apod. (CC, Cramérovo V, Lambda) → vyjadřují i nelineární souvislosti pro ordinální znaky (navíc): pořadové korelace (Gama, Spearmanův koef. pořadové korelace (ró), Kendallovo tau-b/ tau-c, Somersovo d) → vyjadřují (víceméně) pouze lineární souvislost

8 CROSSTABS basic entry Categorical X Categorical variables: CROSSTABS var1-DEPENDENT BY var2-INDEPENDENT. → counts (absolute frequency), but we need PERCENT which we can have COLUMN % or ROWS %. CROSSTABS var1-dependent BY var2-independent /CELL COL. or reversed CROSSTABS var2-independent BY var1-dependent /CELL ROW. Notice in CROSSTABS it is similar principle as in MEANS: MEANS var1-dependent-numeric BY var2- independent-categorical.

9 Numerical X Categorical Numerical dependent X Categorical independent variables MEANS var1-dependent-numeric BY var2-independent-categorical. There is also a coefficient measuring strength of the relationship → Eta / EtaSq (EtaSq = variance in dependent variable explained by categories of the independent variable; it ranges from 0 =no relationship to 1 =maximum )

10 Numerical X Numerical Numerical X Numerical variables: -Correlation coefficient (Pearson‘s R) for linear relationship of simple linear/nonlinear regression -Scatter-plot of Y-X -(alternatively we can categorise one – usually independent var. and then → means (dependent) in subgroups (of independent) or possibly categorise both and use contingency table (%))

(Simple) Multivariate analysis 3rd level of data sorting introduction Pro spojitou závislou proměnnou a kategoriální nezávislé proměnné → průměry v podskupinách

12 Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá) v podskupinách třetí proměnné Průměrný počet přečtených knížek podle studijních skupin v podskupinách dle pohlaví GRAPH /BAR(GROUPED)=MEAN(knihy_celk) BY Studium BY pohlavi.

13 To samé v tabulce Pozor na absolutní četnosti! Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá) v podskupinách třetí proměnné MEANS knihy_celk BY Studium BY pohlavi.

Multivariate approach in contingency table (% point differences) see presentation 3. Contingency tables and analysis of categorical data 3. Contingency tables and analysis of categorical data

Na co s dát pozor

16 Výběrová data vs. census Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek), pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. ) A naopak máme-li kompletní populaci (census) statistické testy nedávají smysl.

17 Pozor na … Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

Ukázky jak prezentovat tabulky a interpretovat vztahy.

19 Prezentace tabulky v textu Nezapomeňte uvádět datový zdroj a počet validních - platných případů v konkrétní analýze (tabulce). Zejména tehdy pokud počet missingů překročí cca 5%. 4. K jaké populaci se výsledek vztahuje (teritorium, časové období, sociální skupina,…) 1.Závislá proměnná, 2.Vysvětlující proměnná/é, 3.Použité míry/ statistiky.

20 Prezentace grafu v textu

21 Prezentace a interpretace kontingenční tabulky (výzkumná otázka a hypotéza) Výzkumná otázka (RQ): Souvisí počet přečtených knih s dobou sledování TV? Hypotéza sociologická: Počet přečtených knih roste s dobou strávenou s TV. = pozitivní souvislost Nulová hypotéza (H0): Počet přečtených knih se neliší v závislosti na době strávené u TV. = žádný vztah Tabulka 2 ukazuje podíl přečtených knih za rok (rozděleno na tři skupiny čtenářů dle tercilů) ve skupinách podle míry sledování televize v běžný den (rovněž kategorizováno na tercily). V tabulce ověřujeme Hypotézu, podle níž počet přečtených knih roste s dobou strávenou s TV. Zatímco v kategorii podprůměrného množství přečtených knih (I. tercil) je pouze 16 %, těch co televizi sledují málo (I. tercil), tak těch, kdo sledují TV nadprůměrně (III. tercil) je v této kategorii zhruba 2,5 x více (39%). Obdobně v kategorii nejvíce přečtených knih (III. tercil) je 42 % těch, kdo se na televizi v podstatě nedívají a zároveň jen 17% těch, kteří se na ní dívají velmi často (III. tercil). Vidíme tak, že mezi čtením knih a sledováním televize existuje negativní souvislost (vyjádřeno pomocí kontingenčního koeficientu souvislost je tato souvislost středně silná, CC = 0,25). Naší hypotézu o pozitivní souvislosti mezi počtem přečtených knih a sledováním TV nám tedy nezbývá než zamítnout, vztah je přesně obrácený: čím více studenti čtou, tím méně se dívají na televizi.