Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014 UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jak psát empirickou část odborného textu: Popisné statistiky a bivariátní vztahy Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014
Jak psát empirickou část textu (nejen) v diplomce (bude doplněno)
Postup jak (začít) psát … 1. závislá proměnná(é) s ní si vyhrajte, nepůjde již v hotovém textu měnit Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů)
Postup jak (začít) psát … Rozpracovat si projekt (diplomovou práci) na otázky Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace) otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)
Struktura textu empirické části popis závislé proměnné – ne tupě ale zakotveně interpretovat (např. vývoj v čase) bivariátní vztahy – ty nejdůležitější z hlediska teorie multivariační analýza (např. regrese, modely=hypotézy) interakce (nejlépe dle teorie) grafické znázornění čistých efektů (estimated effect size)
Presentace tabulek s s popisnými statistikami nejen pro závislou (vysvětlovanou) proměnnou
Popisné statistiky pro závislou i nezávislé proměnné Základní tabulka třídění 1. stupně pro několik znaků dohromady. Máme zde počet platných případů, střední hodnotu (průměr) což nemusí být vždy ideální, směrodatnou odchylku a popis hodnot u kategoriálních znaků. Někdy se tato tabulka dává pouze do přílohy. Zdroj: [Katrňák 2006: 181]
Efektivní presentace tabulek Jednou z možností je „Linkova“ tabulka: Kombinované tabulky třídění 2.stupně pro několik nezávislých proměnných → bivariátní profil naší hlavní závislé proměnné(ých)
Komplexní „profilová“ tabulka třídění 2 Komplexní „profilová“ tabulka třídění 2. stupně (několik nezávislých znaků), pro dvě závislé proměnné Závislé proměnné jsou sice spojité-kardinální (dále analyzovány v OLS), zde ale pro přehlednost pouze % souhlasu a nesouhlasu. Nezávislé proměnné mají co nejmenší počet kategorií → přehlednost rozdílů. Alternativně by šlo ukazovat průměry závislé proměnné, ale takto máme z věcného hlediska mnohem lepší materiál k interpretaci. Vytvořeno v Excelu ze série kontingenčních tabulek z SPSS. V SPSS by bylo možno udělat celou tabulku pomocí modulu Tables. Zdroj: [Šafr, nepublikovaný rukopis]
Prezentace základních bivariátních vztahů Většinou máme jednu (či více) závislou-vysvětlovanou proměnnou a naše hlavní hypotézy (a v nich nezávislé znaky). Nejprve vztahy dané hypotézami můžeme sledovat jednoduše bivariátně.
Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální) Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální). závislá proměnná: vzdělanostní aspirace dítěte, nezávislá: aspirace rodičů Zdroj: [Katrňák 2006: 180]
Základní bivariátní vztah Příklad (oba znaky kategoriální: nominální a ordinální). závislá proměnná: způsob získání 1. pracovního místa, nezávislá: vzdělání Zdroj: [Hauberer, Šafr 2012: 58]
Základní bivariátní vztah Příklad: závislá proměnná (kardinální): Pro-čtenářské klima rodiny ve 3 dimenzích, nezávislá (kategoriální-ordinální): vzdělání Závislé proměnné jsou spojité-kardinální a standardizované na z-skóry, tj. mají stejnou metriku-rozsah (dále byly analyzovány v OLS). Pokud i nezávislá proměnná je kardinální, lze X-Y (scatterplot) graf, ale někdy je interpretačně zajímavější jednu z proměnných kategorizovat a pak ukazovat průměry v podskupinách. Zdroj: [Gorčíková, Šafr 2012: 75]
Pochopitelně jsou i jiné varianty znaků a možnosti prezentace Doplníme …
Průnik pro platné případy (effective sample) Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů (průnik)
Průnik pro platné případy (effective sample) Zvolte průnik pro platné případy (princip LISTWISE vyřazení missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text. Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů. Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále) Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných. Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru. Pak lze zvážit pro nezávislé proměnné: a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost. b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.
Chybějící hodnoty v datech mohou být: Missing completely at random (MCAR) → ideální situace, výsledky nejsou zkreslené (biased) Missing at random (MAR) → chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků
Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (low thru highest =1). Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné. RECODE Fi_Lsw6v (0 =1) (1 thru highest =0). A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col. A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů. FILTER BY Fi_Lsw6v.
Sedm principů psaní „o číslech“ Ustavte kontext pro čísla, která budete prezentovat tím, že specifikujete „Ws“ (Co/Kdo/Kde/Kdy?). Zvolte adekvátní příklady a analogie. Zvolte slovník (pojmy), které zavedete. Definujte synonyma pro koncepty, které budete užívat (a jen ty používejte v textu). Nahraďte matematicko-statistický slovník a symboly výrazy běžného jazyka srozumitelného pro netechnické čtenáře. Rozhodněte se, zda čísla budete presentovat v tabulkách nebo grafech. Zamyslete se kolik času bude čtenář potřebovat na zpracování čísel → omezte ukazování čísel (opisování z tabulek do textu). Používejte krom čísel také slovní vyjádření (místo čísla s % lze slovně vyjádřené zlomky). Uveďte čísla a interpretujte je v textu. Uveďte je a uveďte jejich význam a smysl. Interpretujte je a to ve vztahu k hlavnímu tématu. Specifikujte směr a velikost asociace mezi proměnnými. Pokud je trend: roste/ klesá? Pokud rozdíly mezi skupinami/místy: kdo má nejvyšší/ nejnižší hodnotu? K popisu vztahu mezi mnoha čísly: sumarizujte celkový vzorec spíš než všechna jednotlivá čísla. Najděte nejlepší generalizaci pro data. Uveďte jí na příkladech čísel z tabulky grafu. A také, je-li, popište trend, který tomuto obecnému trendu neodpovídá (tj. výjimky z trendu/ vzorce asociace). Zdroj: [Miller 2005: 33]