Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 27/5/2014 UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jak psát empirickou část odborného textu (seminární, diplomová práce) Popisné statistiky a bivariátní vztahy Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 27/5/2014
Jak psát empirickou část textu (nejen) v diplomce
Jak začít – co napsat na úvod Co je téma? Do jakého kontextu ho zasazujete? Proč má smysl zabývat se právě tímto tématem? Na co navazujete? Co je vaše inovace? Pokud se tím někdo zabýval před vámi, k čemu došel? (konkrétní výsledky a jejich zobecnění, ne biografie-medailony autorů)
Postup jak (začít) psát … 1. závislá proměnná(é) s ní si vyhrajte, nepůjde již v hotovém textu měnit Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…), zakotvení (porovnání s výsledky jiných výzkumů)
Postup jak (začít) psát … Rozpracovat si projekt (diplomovou práci) na otázky Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace) otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)
Struktura textu empirické části popis závislé proměnné – ne tupě ale zakotveně interpretovat (např. vývoj v čase) bivariátní vztahy – ty nejdůležitější z hlediska teorie multivariační analýza (např. regrese, modely=hypotézy) a v ní lze dále: interakce (nejlépe dle teorie) grafické znázornění čistých efektů (estimated effect size)
Jak psát text z (kontingenčních) tabulek → interpretace a prezentace čísel v textu upraveno podle [Treiman 2009: 31-62], původně [Miller 2004] Následující část je kopie presentace AKD 1.
K úpravě, formátování tabulek a psaní interpretací čtěte dokument Ukázky jak prezentovat tabulky a interpretovat vztahy proměnných http://metodykv.wz.cz/tabulky_intepretace_prezentace.pdf K samotné konstrukci a interpretaci tabulek viz např. presentace: Kontingenční tabulky: Úvod. Třídění 2. stupně - analýza kategoriálních dat http://metodykv.wz.cz/spss2_tabulky.ppt Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz + ukázka interpretace výsledků http://metodykv.wz.cz/AKD1_mapa_bivaranalyz.ppt
Jak psát text z tabulek → interpretace čísel (1) Tabulky popisujte především z hlediska věcného významu: čísla opisujte do textu jen pokud je třeba, aby bylo jasno, co/kde tabulka ukazuje. Pouhé opakování čísel z tabulky nestačí. Soustřeďte se na závěry „co čísla znamenají“. Smyslem je prezentovat a ověřovat myšlenky (hypotézy). Ale i tak musíte uvádět tolik čísel, aby se i nepoučený čtenář v tabulce zorientoval. Zdroj: upraveno podle [Treiman 2009: 31-62], původně [Miller 2004].
Jak psát text z tabulek → interpretace čísel (2) Snažte se o jednoduchost. Popisujte data a formulujte závěry tak, aby tomu rozuměla i vaše babička. Nesrozumitelnost a zevrubnost není to samé. Opravdu elegantní vysvětlení jsou většinou jednoduchá. Vyvarujte se frází, které nic neznamenají. Místo: „Nyní budeme zkoumat, jaký závěr lze učinit, zda A by mohlo mít nějaký efekt na B?“ → „Ovlivňuje A B?“ Potlačte pasivní větné konstrukce. Místo: „Zjistilo se, že X souvisí s Y“ → „X souvisí s Y“ Místo: „Byla zkonstruována škála historického vědomí občanů ČR“ → „Zkonstruoval/a jsem škálu …“ nebo „Použil jsem škálu …“ Vyvarujte se odborné hantýrky, pokud to nepomáhá porozumění textu. Pojmy-koncepty jsou tady od toho, aby precizovaly, standardizovaly a hlavně šetřily místo v textu (místo odstavce stačí slovo). Ale preferujte běžný jazyk, vždy tam, kde to funguje. Nadbytečné používání odborných termínů váš text neudělá vědečtější, jen odradíte čtenáře. Zdroj: upraveno podle [Treiman 2009: 31-62], původně [Miller 2004].
Jak psát text z tabulek → interpretace čísel (3) Šetřete se zkratkami. Zkratky jsou výhodné v tabulkách (kde není moc místa), ale ušetření místa v textu za cenu zmateného čtenáře za to nestojí (ve zkratkách se vyžívají hlavně psychologové, ale pak se to špatně čte). Rozhodněte se pro to, v jaké osobě budete psát. Nepoužívejte „My“, tam kde jde o „Já“. Píšete-li sami, pak v první osobě jednotného čísla. Lze ale psát „My“, pokud tím máte namysli sebe (autora) a čtenáře (např. „Jak vidíme v tabulce 1 …“). Psaní v prvním osobě není u nás vždy jediná možná varianta, ale postupně se stále více prosazuje. Pojmy asociace a korelace popisují vztah mezi proměnnými (jako celky) nikoliv mezi konkrétními hodnotami. Tyto pojmy nepopisují jedno konkrétní políčko v tabulce (pro A x B). Odpovídající fráze je např.: „mezi A a B je pozitivní korelace“ nebo „pokud je vysoké A pak i B je vysoké“, „hodnoty A rostou s hodnotami B“, ale neplatí, tj. nepište: „mezi A a vysokými hodnotami B je korelace“. Také nikdy nepište: „A koreluje s B na 80 %“, protože toto je špatná interpretace korelačního koeficientu (když už tak, převeďte korelaci r (umocněním) na koeficient determinace r2 a poté jej můžete interpretovat jako podíl vysvětlené variance v hodnotách A na základě hodnot B). Najděte si kolegu (zhruba na stejné odborné úrovni jako jste vy), se kterým si budete texty navzájem číst. Snažte se o zachování spravedlivé symetrie objemu/času čtení. Profitujete z toho jak jako autor tak i jako editor. Zdroj: upraveno podle [Treiman 2009: 31-62], původně [Miller 2004].
Sedm principů psaní „o číslech“ Ustavte kontext pro čísla, která budete prezentovat tím, že specifikujete „Ws“ (Co/Kdo/Kde/Kdy?). Zvolte adekvátní příklady a analogie. Zvolte slovník (pojmy), které zavedete. Definujte synonyma pro koncepty, které budete užívat (a jen ty používejte v textu). Nahraďte matematicko-statistický slovník a symboly výrazy běžného jazyka srozumitelného pro netechnické čtenáře. Rozhodněte se, zda čísla budete presentovat v tabulkách nebo grafech. Zamyslete se kolik času bude čtenář potřebovat na zpracování čísel → omezte ukazování čísel (opisování z tabulek do textu). Používejte krom čísel také slovní vyjádření (místo čísla s % lze slovně vyjádřené zlomky). Uveďte čísla a interpretujte je v textu. Uveďte je a uveďte jejich význam a smysl. Interpretujte je a to ve vztahu k hlavnímu tématu. Specifikujte směr a velikost asociace mezi proměnnými. Pokud je trend: roste/ klesá? Pokud rozdíly mezi skupinami/ místy: kdo má nejvyšší/ nejnižší hodnotu? K popisu vztahu mezi mnoha čísly: sumarizujte celkový vzorec spíš než všechna jednotlivá čísla. Najděte nejlepší generalizaci pro data. Uveďte jí na příkladech čísel z tabulky grafu. A také, je-li, popište trend, který tomuto obecnému trendu neodpovídá (tj. výjimky z trendu/ vzorce asociace). Zdroj: [Miller 2005: 33]
Presentace tabulek s s popisnými statistikami (třídění prvního stupně) nejen pro závislou (vysvětlovanou) proměnnou
Popisné statistiky: jejich smysl a přiměřenost V každém textu je třeba nejprve nějak popsat hodnoty (rozložení hodnot) proměnných, které budeme dále analyzovat bivariátně či vícerozměrně. Děláme to vždy s maximální stručností a věcnou zacíleností: věnujeme se především závislé proměnné/ným, z nezávislých těm, které jsme sami konstruovali, či jsou jinak zajímavé/nesamozřejmé (např. nebudete u nezávislých proměnných popisovat, jaký je podíl věkových kategorií, ale můžete v textu zmínit jaký je podíl rodin s žádným, jedním a více dětmi) Žádný text není možné zahltit nezáživným popisem populace a pak jen krátce řešit samotnou analýzu – výzkumné otázky/hypotézy. (To nemusí úplně platit pro výzkumnou zprávu, kde je detailní deskripce někdy podstatou.) Deskriptivní popis (třídění prvního stupně, míry centrální tendence/variability atd.) lze spojit až s bivariátní analýzou. Tabulky s popisnými statistikami dáváme do přílohy. Myslete vždy na čtenáře, aby váš text neodložil znuděn hned po přečtení prvních dvou-tří stránek. Populaci/ výběrový soubor popisujte detailně pouze, pokud jde o váš vlastní výzkum, nebo nějakou specifickou populaci (nikdy nepopisujte na datech z celonárodního výzkumu např. kolik je mužů a žen, věkových skupin atd.)
Sdružená tabulka pro třídění 1. stupně Pokud máme více proměnných se stejnými kategoriemi (např. baterie otázek), můžeme jejich četnosti presentovat v jedné sdružené tabulce. V SPSS např. pomocí TABLES (starší jednodušší verze, stále funguje ale pouze přes syntax) nebo v novějších verzích CTABLES. Oboje vyžaduje specielní licenci. Alternativní řešení je několik FREQUENCIES a spojit pak dílčí tabulky v Excelu. TABLES /FTOTAL $t 'Celkem %‚ /FORMAT BLANK MISSING('.') /TABLES ( q3_a + q3_b + q3_c + q3_d ) BY (LABELS) + $t /STATISTICS CPCT ((F7.1) '%' ) /TITLE ="Jak moc baví dotázaného …". Zdroj: ISSP 2007, ČR
To samé pomocí CTABLES * Custom Tables. CTABLES Zdroj: ISSP 2007, ČR * Custom Tables. CTABLES /VLABELS VARIABLES=q3_a q3_b q3_c q3_d DISPLAY=DEFAULT /TABLE q3_a [C][ROWPCT.COUNT PCT40.1, TOTALS[COUNT F40.0, ROWPCT.COUNT PCT40.1]] + q3_b [C][ROWPCT.COUNT PCT40.1, TOTALS[COUNT F40.0, ROWPCT.COUNT PCT40.1]] + q3_c [C][ROWPCT.COUNT PCT40.1, TOTALS[COUNT F40.0, ROWPCT.COUNT PCT40.1]] + q3_d [C][ROWPCT.COUNT PCT40.1, TOTALS[COUNT F40.0, ROWPCT.COUNT PCT40.1]] /SLABELS VISIBLE=NO /CLABELS ROWLABELS=OPPOSITE /CATEGORIES VARIABLES=q3_a q3_b q3_c q3_d ORDER=A KEY=VALUE EMPTY=INCLUDE TOTAL=YES POSITION=AFTER MISSING=EXCLUDE.
Popisné statistiky pro závislou i nezávislé proměnné Úsporný formát: základní tabulka třídění 1. stupně pro několik znaků dohromady. Máme zde počet platných případů, střední hodnotu (průměr), což nemusí být vždy adekvátní typu proměnné, směrodatnou odchylku a popis hodnot u kategoriálních znaků. Někdy se tato tabulka dává pouze do přílohy. Zdroj: [Katrňák 2006: 181]
Efektivní presentace vícero kontingenčních tabulek (třídění 2. stupně) Jednou z možností je „sdružená“ kontingenční tabulka: Kombinované tabulky třídění 2. stupně pro několik nezávislých proměnných → bivariátní profil naší hlavní závislé proměnné(ých) To se hodí zejména pro texty, kde musíme šetřit místem, jde o úspornou formu presentace.
Komplexní „profilová“ tabulka třídění 2 Komplexní „profilová“ tabulka třídění 2. stupně (několik nezávislých znaků), pro dvě závislé proměnné Závislé proměnné jsou sice spojité-kardinální (dále analyzovány v OLS), zde ale pro přehlednost pouze % souhlasu a nesouhlasu. Nezávislé proměnné mají co nejmenší počet kategorií → přehlednost rozdílů. Alternativně by šlo ukazovat průměry závislé proměnné, ale takto máme z věcného hlediska mnohem lepší materiál k interpretaci. Vytvořeno v Excelu ze série kontingenčních tabulek z SPSS. V SPSS by bylo možno udělat celou tabulku pomocí modulu Tables. Zdroj: [Šafr, nepublikovaný rukopis]
[Evans, Kelley, Kolosi 1992: 473]
Jak to udělat v SPSS? Jsou tři možnosti: odděleně jednotlivé kontingenční tabulky v CROSSTABS a ty pak pospojovat v Excelu → pracné, ale jednoduché na zadání v syntaxu) Custom Tables CTABLES – sdružené tabulky (dostupné v nových verzích SPSS a specielním modulu) → elegantní, složité na syntax, a musíte mít specielní = dražší licenci SPSS Table of Frequencies TABLES – předchůdce CT ve starších verzích → taktéž vyžaduje specielní licenci, ale dá se relativně efektivně zadávat i přes syntax (zdá se že funguje i na nejnovějších verzích, v menu to ale nenajdete).
Sdružená kontingenční tabulka v Custom Tables Zdroj: ISSP 2007, ČR * Custom Tables. CTABLES /VLABELS VARIABLES = S30 vzd4 vekkat prijem4 Cte3 DISPLAY=DEFAULT /TABLE S30 [C] + vekkat [C] + vzd4 [C] + prijem4 [C] BY Cte3 [C][ROWPCT.COUNT PCT40.1, TOTALS[ROWPCT.COUNT PCT40.0, COUNT F40.0]] /CATEGORIES VARIABLES=S30 vekkat vzd4 prijem4 ORDER=A KEY=VALUE EMPTY=INCLUDE /CATEGORIES VARIABLES=Cte3 ORDER=A KEY=VALUE EMPTY=INCLUDE TOTAL=YES POSITION=AFTER.
Sdružená kontingenční tabulka v TABLES Zatím bohužel jen pro absolutní četnosti TABLES /TABLE = (S30 + vzd4 + vekkat + prijem4) BY (Cte3) /STATISTICS COUNT ( (F7.0) 'N' ) .
Prezentace základních bivariátních vztahů Většinou máme jednu (či více) závislou-vysvětlovanou proměnnou a naše hlavní hypotézy (a v nich nezávislé znaky). Nejprve vztahy dané hypotézami můžeme sledovat jednoduše bivariátně.
Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální) Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální). závislá proměnná: vzdělanostní aspirace dítěte, nezávislá: aspirace rodičů Zdroj: [Katrňák 2006: 180]
Základní bivariátní vztah Příklad (oba znaky kategoriální: nominální a ordinální). závislá proměnná: způsob získání 1. pracovního místa, nezávislá: vzdělání Zdroj: [Hauberer, Šafr 2012: 58]
Základní bivariátní vztah Příklad: závislá proměnná (kardinální): Pro-čtenářské klima rodiny ve 2 dimenzích, nezávislá (kategoriální-ordinální): vzdělání Závislé proměnné jsou spojité-kardinální a standardizované na z-skóry, tj. mají stejnou metriku-rozsah (dále byly analyzovány v OLS). Pokud i nezávislá proměnná je kardinální, lze X-Y (scatterplot) graf, ale někdy je interpretačně zajímavější jednu z proměnných kategorizovat a pak ukazovat průměry v podskupinách. Zdroj: [Gorčíková, Šafr 2012: 75]
Pochopitelně jsou i jiné varianty znaků a možnosti prezentace Doplníme …
Průnik pro platné případy (effective sample) Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů (průnik)
Průnik pro platné případy (effective sample) Zvolte průnik pro platné případy (princip LISTWISE vyřazení missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text. Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů. Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále) Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných. Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru. Pak lze zvážit pro nezávislé proměnné: a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost. b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.
Chybějící hodnoty v datech mohou být: Missing completely at random (MCAR) → ideální situace, výsledky nejsou zkreslené (biased) Missing at random (MAR) → chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků
Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (LOW THRU HIGHEST =1). Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné. RECODE Fi_Lsw6v (0 =1) (1 thru highest =0). A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col. A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů. FILTER BY Fi_Lsw6v.