Jiří Šafr jiri.safr(zavináč)seznam.cz UK FHS Historická sociologie, Řízení a supervize (ZS 2012 – 2015) Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 31.5. 2015 (13. 4. 2014)
Nejprve připomenutí: Grafy třídění 1. a 2.stupně
Sloupcový graf (Barchart) pro třídění 1. stupně v rámci příkazu Frequencies (pouze pro 1. stupeň) FREQUENCIES q14b /BARCHART = PERCENT. nebo přes zadání grafu (zde lze i třídění 2 a vyššího stupně) GRAPH /BAR(SIMPLE)=PCT BY q14b .
2.st.: Vstupní data grafu → kontingenční tabulka Stále platí pravidlo o orientaci procent: Sloupcová %, pokud závislá proměnná je v řádcích a nezávislá ve sloupcích. (nebo obráceně: řádková % a závislá se sloupcích a v řádcích nezávislá) Pozor, SPSS umí sloupcový graf rovnou v rámci příkazu CROSSTABS, ale pouze pro absolutní četnosti (my chceme %). CROSSTABS q14b BY s30/cel col /BARCHART.
Barchart pro třídění 2.stupně Příklad: Zájem o politiku podle pohlaví Nezávislá proměnná Součet v kategoriích = 100 % Raději si vždy zkontrolujte, zda součet %, tj. typ/orientace % je správně, buď vložením hodnot nebo pomocí CROSSTABS. Závislá proměnná Zdroj: ISSP 2007
Syntax: sloupcový graf třídění 2. stupně Příkaz GRAPH (jde o původní zadávání v SPSS, které je přehledné a lze jednoduše zadávat ze syntaxu. Novější verze SPSS mají Chart Builder a Interactive, které je v podstatě možné zadávat pouze klikáním přes okna) Vycházíme ze základního zadání třídění 1. stupně: GRAPH /BAR(SIMPLE)=PCT BY vekkat. Přidat lze rozdělení do klastrů-rozdělených sloupců např. podle pohlaví (s30) GRAPH /BAR(SIMPLE)=PCT BY q14b BY s30. Pozor ale na orientaci procent (sloupcová vs. řádková) ! Frequency of cases in each category expressed as a percentage of the whole. Parametr: COUNT → absolutní četnosti, PCT → procenta
Grafy třídění 3. stupně
Grafy třídění 3.stupně: Závislá proměnná kardinální Problém není pokud je závislá proměnná kardinální (číselná), pak ukazujeme průměry v pod / pod skupinách (2. a 3. kategoriální proměnné). GRAPH /BAR(GROUPED)=MEAN(prijem) BY vzd4 BY s30. GRAPH /ERRORBAR(CI 95)=prijem BY vzd4 BY s30.
Grafy třídění 3.stupně: Závislá proměnná kardinální Pokud je jedna vysvětlující proměnná ordinální (na ose X), pak lze i liniový graf, který vyjadřuje trendy v podskupinách. GRAPH /LINE(MULTIPLE)=MEAN(prijem) BY vzd4 BY s30. GRAPH /LINE(MULTIPLE)=MEAN(prijem) BY vzd4 BY s30 /INTERVAL CI(95.0).
Grafy třídění 3.stupně: Závislá proměnná kardinální GRAPH /BAR(GROUPED)=MEAN(prijem) BY vzd4 BY s30.
Jak v SPSS do grafu dostat třídění 3. stupně (pro %)?
Grafy třídění 3.stupně: Závislá proměnná je kategoriální Situace je komplikovanější, pokud všechny tři proměnné jsou kategoriální (tj. včetně závislé) S výhodou můžeme využít podobný princip jako pokud bychom měli kardinální proměnnou a ukazovali průměry v podskupinách. → závislou proměnnou nejprve rekódujeme na dichotomii a pak ukazujeme % pro jednu – „pozitivní“ kategorii resp. pravděpodobnost (což je vlastně průměr z dichotomie 0/1). Alternativně lze v BARCHARTu (u ordinálních znaků) nechat zobrazit % nad/pod určitou hodnotou Jenže to jde pouze tam, kde lze závislou proměnnou vyjádřit dichotomií (tedy tam kde lze kategorie slučovat, většinou, pokud je ordinální) nebo vyjádřit jako určitou (krajní) hodnotu.
Grafické znázornění interakcí, zadání v syntaxu SPSS Účast ve volbách (q34), data ISSP 2007. *PIN (1 1) → procento „inside“, zde pro kategoriie 1 až 1, tj. 1=volil nebo lze PGT = % větší než (hodnota), PLT = % menší než (hodnota). GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3. GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3. GRAPH /BAR(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3. *Pokud máme kontrolní proměnnou dichotomickou, lze ukázat rozdíl mezi jejími kategoriemi (zde vzdělání jen s/bez VŠ). GRAPH /HILO(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd_VS. *Vždy si sestavte také kontingenční tabulku a a kontrolujte absolutní počty případů v buňkách. CROSSTABS q34 BY vek3 BY vzd3. CROSSTABS q34 BY vek3 BY vzd3 /CEL COL /STAT Phi.
Účast ve volbách (q34), data ISSP 2007 Bivariátní vztah: volil podle věku. GRAPH /LINE(SIMPLE) =PIN(1 1)(volil) BY vek3. q34 (1=volil, 2=nevolil) → PIN(1 1) = procento pro kategoriie 1 až 1, tj. 1=volil. Volil podle věku s kontrolou vzdělání % rozdíl pro VŠ /ostatní. GRAPH /HILO(SIMPLE) =PIN(1 1)(volil) BY vek3 BY vzd_VS. GRAPH /LINE(SIMPLE) =PIN(1 1)(volil) BY vek3 BY vzd3. GRAPH /BAR(SIMPLE) =PIN(1 1)(volil) BY vek3 BY vzd3. Zdroj: [ISSP 2007]
Vstupní data = konting. tabulka třídění 3.stupně. Závislá p. dichotomická: ne/zájem o politiku Jaký rozdíl v zájmu o politiku mezi muži a ženami uvnitř vzdělanostních kategoriích? → zájem o politiku (rekód na zájem/nezájem) podle pohlaví při kontrole vlivu vzdělání Nejprve je třeba závislou proměnnou rekódovat na dichotomii (zde zájem/nezájem o politiku) GRAPH /BAR(GROUPED)=PGT(0)(ZajPolit) BY s30 BY vzd3. a odpovídající konting. tabulka: CROSSTABS ZajPolit BY s30 BY vzd3/cel col.
Graf pro závislou proměnnou (v %) a 2 vysvětlující GRAPH /BAR(GROUPED)=PGT(0)(readEnj1) BY Egp3RO BY EU_3kat. Funguje ale pouze pro dichotomickou závislou proměnnou, zde Čte pro radost kódovanou (0=nečte/ 1=čte)→ ukazujeme podíl s hodnotou vyšší než 0 → PGT(0). → zobrazí procento případů s hodnotou vyšší než 0. Nebo obráceně pro „ne-čtenáře“ PLT(1) → zobrazí procento případů s hodnotou nižší než 1.
Graf se závislou a 2 vysvětlujícími proměnnými Čtení pro radost (denně) u patnáctiletých žáků podle sociální třídy rodičů v evropských zemích. PISA 2009.
Sloupcový graf (%) pro závislou a 2 nezávislé proměnné. Názory rodičů na důležitost dalšího studia po maturitě podle vzdělání rodičů a typu studia, ČR 2003, procenta souhlasu Zdroj: PISA 2003; N = min 3468
To samé pomocí Chart Builder GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=skoly COUNT()[name="COUNT"] PA1_Vzd3[LEVEL=ORDINAL] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: skoly=col(source(s), name("skoly"), unit.category()) DATA: COUNT=col(source(s), name("COUNT")) DATA: PA1_Vzd3=col(source(s), name("PA1_Vzd3"), unit.category()) COORD: rect(dim(1,2), cluster(3,0)) GUIDE: axis(dim(3), label("Školy")) GUIDE: axis(dim(2), label("Percent")) GUIDE: legend(aesthetic(aesthetic.color.interior), label("Vzdělanostní aspirace žáků (dle ", "profese 1, přímý kód)")) SCALE: cat(dim(3), include("1", "2", "3", "4")) SCALE: linear(dim(2), include(0)) SCALE: cat(aesthetic(aesthetic.color.interior), include("1", "2", "3")) SCALE: cat(dim(1), include("1", "2", "3")) ELEMENT: interval(position(summary.percent(PA1_Vzd3*COUNT*skoly, base.coordinate(dim(3)))), color.interior(PA1_Vzd3), shape.interior(shape.square)) END GPL.
3D graf & panely: závislá proměnná a 3 nezávislé Aspirace patnáctiletých na studium na VŠ podle aspirací rodičů a jejich vzdělání, studenti ZŠ a VG, ČR 2003, procenta Zdroj: PISA 2003
Heat map - graf tř. 3 st.: závislá kardinální (průměr) podle dvou kategoriálních proměnných. Zdroj: PISA 2007
Heat map - graf tř. 3 st.: závislá kardinální (průměr) podle dvou kategoriálních proměnných. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=vekkat[LEVEL=nominal] vzd4[LEVEL=ordinal] prijem[LEVEL=ratio] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=VIZTEMPLATE(NAME="Heat Map"[LOCATION=LOCAL] MAPPING( "color"="prijem"[DATASET="graphdataset"] "rows"="vekkat"[DATASET="graphdataset"] "columns"="vzd4"[DATASET="graphdataset"])) VIZSTYLESHEET="Traditional"[LOCATION=LOCAL] LABEL="Heat Map: vzd4-vekkat-prijem" DEFAULTTEMPLATE=NO.
3 D-density: vztah dvou číselných proměnných GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=isei[LEVEL=ratio] prijem[LEVEL=ratio] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=VIZTEMPLATE(NAME="3-D Density"[LOCATION=LOCAL] MAPPING( "z"="prijem"[DATASET="graphdataset"] "x"="isei"[DATASET="graphdataset"])) VIZSTYLESHEET="Traditional"[LOCATION=LOCAL] LABEL="3-D Density: prijem-isei" DEFAULTTEMPLATE=NO.