Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014 Jiří Šafr jiri.safr(zavináč)seznam.cz.

Podobné prezentace


Prezentace na téma: "Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014 Jiří Šafr jiri.safr(zavináč)seznam.cz."— Transkript prezentace:

1 Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014 Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace Analýza kvantitativních dat I.

2 Struktura „Orientační mapa“ analýzy vztahu 2 proměnných: –Spojitá × spojitá –Spojitá (závislá) × kategoriální (nezávislá) –Kategoriální × kategoriální Kontingenční tabulky Třídění 3. stupně (dtto) Na co s dát pozor (výběrová data vs. census) Jak to má vypadat – úprava tabulek a dalších výstupů

3 „Orientační mapa“ analýzy 2 proměnných Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. (Jak) souvisí spolu hodnoty jedné a druhé proměnné? –Například: Klesá počet přečtených knih za rok s dobou, kterou člověk věnuje sledování televize? –Je počet přečtených knih za rok stejný ve všech skupinách studentů (obory studia&ročník)? Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

4 „Orientační mapa“ analýzy dvou proměnných – přehled analytických nástrojů Spojitá × spojitá, např. počet přečtených knih a věk → korelační koeficient (Pearsonův), bodový X-Y graf Spojitá (závislá) × kategoriální (nezávislá) např. např. počet přečtených knih a obor studia → průměry v podskupinách, koeficient Eta, graf průměrů v podskupinách (Barchart pro mean, Line-multiple nebo Boxplot, Errorbar) Kategoriální × kategoriální např. oblíbené literární žánry a obor studia → kontingenční tabulka, sloupcový graf (Barchart) pro % koeficient kontingence (CC), Phi, Gama …

5 Spojitá × spojitá Číselná proměnná → ideální situace: nejlepší způsob měření, nejsofistikovanější analýzy, možnost převodu na kategoriální Korelace (a nebo) X-Y graf CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. ALE! Korelace měří lineární vztah (přímou úměru) a předpokládá „normální“ rozložení proměnných. Závislosti mohou mít i jinou než lineární povahu, proto si raději udělejte i X-Y (Scatter plot) → souvislosti jsou vizuálně vidět Pozor na Outliery – extrémní hodnoty znaků (a jejich kombinace) R - korelační koeficient R 2 - koeficient determinace R = √R 2 a R2 = R × R zde √0,066 = 0,257

6 Spojitá (závislá) × kategoriální (nezávislá) V principu porovnáváme průměry závislé - spojité v kategoriích nezávislé proměnné + kontrola rozptylu (směrodatné odchylky StD ve skupinách) missing values studium (5 6). MEANS knihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

7 Kategoriální × kategoriální Kontingenční tabulka: hledáme souvislosti pomocí spoluvýskytu v relativních četnostech (%) Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t. CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA. Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie. Vztah znaků v tabulce lze vyjádřit i jedním číslem: pro nominální (a ordinální) znaky: koef. kontingence apod. (CC, Cramérovo V, Lambda) → vyjadřují i nelineární souvislosti pro ordinální znaky (navíc): pořadové korelace (Gama, Spearmanův koef. pořadové korelace (ró), Kendallovo tau-b/ tau-c, Somersovo d) → vyjadřují (víceméně) pouze lineární souvislost

8 Třídění 3. stupně Úvod Pro spojitou závislou proměnnou a kategoriální nezávislé proměnné → průměry v podskupinách

9 Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá) v podskupinách třetí proměnné Průměrný počet přečtených knížek podle studijních skupin v podskupinách dle pohlaví GRAPH /BAR(GROUPED)=MEAN(knihy_celk) BY Studium BY pohlavi.

10 To samé v tabulce Pozor na absolutní četnosti! Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá) v podskupinách třetí proměnné MEANS knihy_celk BY Studium BY pohlavi.

11 K třídění 3. stupně v kontingenční tabulce (pro %) viz prezentaci Vztahy mezi 3 znaky v kontingenční tabulce - úvod

12 Na co s dát pozor

13 Výběrová data vs. census Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek), pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. ) A naopak máme-li kompletní populaci (census) statistické testy nedávají smysl.

14 Pozor na … Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

15 Ukázky jak prezentovat tabulky a interpretovat vztahy.

16 Prezentace tabulky v textu Nezapomeňte uvádět datový zdroj a počet validních - platných případů v konkrétní analýze (tabulce). Zejména tehdy pokud počet missingů překročí cca 5%. 4. K jaké populaci se výsledek vztahuje (teritorium, časové období, sociální skupina,…) 1.Závislá proměnná, 2.Vysvětlující proměnná/é, 3.Použité míry/ statistiky.

17 Prezentace grafu v textu

18 Prezentace a interpretace kontingenční tabulky (výzkumná otázka a hypotéza) Výzkumná otázka (RQ): Souvisí počet přečtených knih s dobou sledování TV? Hypotéza sociologická: Počet přečtených knih roste s dobou strávenou s TV. = pozitivní souvislost Nulová hypotéza (H0): Počet přečtených knih se neliší v závislosti na době strávené u TV. = žádný vztah Tabulka 2 ukazuje podíl přečtených knih za rok (rozděleno na tři skupiny čtenářů dle tercilů) ve skupinách podle míry sledování televize v běžný den (rovněž kategorizováno na tercily). V tabulce ověřujeme Hypotézu, podle níž počet přečtených knih roste s dobou strávenou s TV. Zatímco v kategorii podprůměrného množství přečtených knih (I. tercil) je pouze 16 %, těch co televizi sledují málo (I. tercil), tak těch, kdo sledují TV nadprůměrně (III. tercil) je v této kategorii zhruba 2,5 x více (39%). Obdobně v kategorii nejvíce přečtených knih (III. tercil) je 42 % těch, kdo se na televizi v podstatě nedívají a zároveň jen 17% těch, kteří se na ní dívají velmi často (III. tercil). Vidíme tak, že mezi čtením knih a sledováním televize existuje negativní souvislost (vyjádřeno pomocí kontingenčního koeficientu souvislost je tato souvislost středně silná, CC = 0,25). Naší hypotézu o pozitivní souvislosti mezi počtem přečtených knih a sledováním TV nám tedy nezbývá než zamítnout, vztah je přesně obrácený: čím více studenti čtou, tím méně se dívají na televizi.


Stáhnout ppt "Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014 Jiří Šafr jiri.safr(zavináč)seznam.cz."

Podobné prezentace


Reklamy Google