Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 27/2/2019 UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Představení kurzu a plán práce (v LS 2019) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 27/2/2019
Studijní materiály a podklady http://metodykv.wz.cz Zde najdete úplně vše! vč. organizačních aktualit (některé texty jsou zaheslované, o heslo si napište) Ale nejprve čtěte Studijní oporu ke kurzu KMVP - totální základy designu sociologického kvantitativního výzkumu… kdyby snad někdo nevěděl, tak úplný základ analýzy (AKD1): Ukázky jak prezentovat tabulky a interpretovat vztahy proměnných Studijní opora ke kurzu Praktikum EADKV (úvod do analýzy kvantitativních dat v prostředí statistického software PSPP/ SPSS) http://kmvp.wz.cz/praktikum_analyzy_kvn_dat_opora01.pdf a pak Praktické rady k presentaci dat (nejen) z regresních modelů v textu např. diplomové práce.
Varování! Kurz AKD3 není pro začátečníky! Podmínka je AKD1 a AKD2 nebo ekvivalent. Tzn. nebudeme se učit zapínat/Vypínat statistický program. Protože budeme modelovat vztahy v datech a o datech a modelech budeme (kriticky) přemýšlet! A ukážeme si také jak výsledky z modelů presentovat.
AKD III. – základní teze (a odlišnosti od AKD I. A AKD II.) Kurz je pro vás – pro řešení vašich problémů → „analyticko-sociologická dílna“ Vždy krátká přednáška k tématu (obecně o metodě), následuje společně zadávaný příklad v SPSS/Stata a (ideálně) aplikace na vlastních datech. Krom „velkých metod“ také drobné užitečnosti a nezbytnosti jako složitější manipulace při transformacích či užitečné míry co SPSS neumí (např. kvalitativní variance, index nepodobnosti) (a případně něco důležitého, na co se nedostalo v AKD2 ?)
Uděláme „vše pro diplomky“ Najde-li se konsensus a vytrvalost, pak všichni budeme průběžně z hodiny na hodinu pravidelně psát text diplomky (= analytické části). A následně ostatním vysvětlovat jak a proč jste jakou metodu použili s jakým výsledkem a interpretací. a texty si vzájemně číst. Problém ovšem je, že první část analýz většinou zahrnují popisné analýzy a na ty prostor v AKD3 nebude…(na to viz samostatnou presentaci)
Postup výkladu v AKD III. Proto ideální postup: Obecný výklad („je tady taková možnost analýzy“) Sociologický problém (otázka v diplomce) → metoda → její praktická aplikace A na závěr (i v průběhu): Problém → metoda/(y) Pokusíme se výklad a aplikace upravit tak, aby bylo jasno, na co se dají použít v konkrétních diplomových pracích (platí pouze pro DP u JŠ)
Dvě hlavní části kurzu (oblasti aplikace vícerozměrných metod) Kurz má mít v zásadě dvě hlavní části: Analýza latentních struktur → „asociace mezi „nezávislými“ proměnnými a redukce jejich počtu do obecnějších dimenzí či typů (klastrů)“(někdy jen defacto příprava závislé proměnné pro 2). Regresní analýza a její verze pro kategoriální data → kauzální usuzování ohledně vztahů mezi závislou a několika nezávislými proměnnými. Jádro kurzu je druhá část vícerozměrná regrese. Vypadá to, že začneme právě s ní. Konkrétní náplň kurzu závisí na složení a potřebách studentů + aktuálně řešené problematiky v SOÚ AV ČR, v.v.i.
Obsah kurzu (plán do 2015) Co jsme nestihli v AKD2 Testování hypotéz pro průměry (rozptyly), variační koeficient(y), základní transformace (agregace dat), reliabilita, konstrukce indexů…. Regresní analýza (úvod, principy) Vícerozměrná lineárně regresní analýza (OLS) Regresní analýza pro kategoriální data – binomická logistická regrese (0/1) Polynomická logistická regrese (1/2/3) Multinominální logistická regrese (B/M/A) Logitové modely Analýza latentních struktur (metoda hl. komponent) Speciální transformace dat (vektor, „případo-roky“,…) Analýza časových řad (?) Dvojné třídění - působení faktorů v kontingenční tabulce (fitting two-way table), korespondenční analýza
K tomu navíc v 2017-2019 (plán) Omezíme se pouze na aktuální řešené projekty: Socio-prostorové znevýhodnění obyvatel periferních venkovských oblastí (GA ČR, SOÚ AV ČR, v.v.i.) → data z výzkumu Periferie ČR 2016 v 2019 asi už ne CSDA-R RESEARCH (OP VVV, SOÚ AV ČR, v.v.i.) → data z CSDA-R 2017 a předvýzkum (VWT test), ISSP 2017- Sociální sítě, Panel ZŠ (4 a 5 vlna) Workshop: úvod práce v statistickém programu Stata Důraz na modelování dat a úskalí s tím spjatá (limity, testy, klastrovaná data, atd.)
V LS 2019s důraz na: Intuitivní porozumění → co děláte v kontextu Interpretaci Predikovane hodnoty a marginální efekty Grafické zobrazení výsledků (SPSS?) Velikost efektu (effect size) Klastrovou strukturu v datech a z ní vyplývající bias SE Hierarchická struktura jako součást modelu (ale uvidíme jestli na to dojde) Na co si dát v datech pozor: reliabilita, power-size, heteroskedasticita, …
A na úvod …: Test MSV-KVNT-SKE Rychle repete: Statistika v SPSS JKBM: 3-way crosstabs, elaborace, základní strategie testovaní hypotéz
Co máte znát z AKD1 a AKD2 (1.) základní úpravy dat: čištění, missingy, rekodování, vytváření nových proměnných, atd. Agregace dat Kontingenční tabulky: JKBM! Třídění 3. stupně (efektivně) Elaborace vztahů míry asociace pro kategoriální data (CV, CC, Gamma) kovariance a korelace Přímá standardizace intenzitních ukazatelů
Co máte znát z AKD1 a AKD2 (2) z inferenční statistiky: výpočet standardní chyby a intervalů spolehlivosti pro procenta/podíly a rozdíly (pro průměry nestačí) testování hypotéz pro číselní znaky (t-test, F-test oneway Anova) i v třídění 3. stupně (efektivně) testování hypotéz pro kategoriální znaky (chikvadrát test dobré shody: 1-way pro komparaci výsledků a 1-w pro kontingenční tabulku). Nutnost znát princip Chikvádrát testu (ruční výpočet!)
1. co jsme nestihli v AKD2 (v 2014) Testování hypotéz pro průměry (rozptyly), variační koeficient(y), základní transformace (agregace dat), reliabilita, konstrukce indexů…. Variační koeficient(y), Index nepodobnosti Testování hypotéz o rozdílu dvou průměrů a rozptylů (+ jednoduchá analýza rozptylu) Základní transformace: Agregace dat + tabelární data Co jste „nestihli“ v AKD2 v 2016?
Umíte? Agregovat data Spojovat data (merge) Vytvářet proměnné s pomocí podmínek (do if ..) X-Y scatter-plot s regresními přímkami pro podskupiny (→ interakce vlivu X a Z) Graf pro průměry v podskupinách s intervalem spolehlivosti (Error Bar) Spočítat interval spolehlivosti pro podíl (%) … ?
Jak psát empirickou část textu (nejen) v diplomce Podrobně viz samostatnou presentaci, kde jsou ukázky tabulek a další kroky
Postup jak (začít) psát … 1. závislá proměnná(é) s ní si vyhrajte, nepůjde již v hotovém textu měnit Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů)
Postup jak (začít) psát … Rozpracovat si projekt (diplomovou práci) na otázky Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace) otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)
Co bude psát JŠ? A co budete psát vy? Vliv rodinného prostředí – kulturní a sociální kapitál – na dosažené vzdělání a socioekonomický status v kontextu perifernosti lokality (multilevel?) Analýza panelových dat z panelu ZŠ: rozvoj čtenářské gramotnosti a determinant školního úspěchu A co budete psát vy?
Základní doporučená literatura Mareš, P., L. Rabušic, P. Soukup. 2017. Analýza sociálněvědních dat (nejen) v SPSS. Brno: Muni Press. https://www.press.muni.cz/knihy/projekty-nakladatelstvi/spss Treiman, D. J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass. https://www.wiley.com/en-cz/Quantitative+Data+Analysis%3A+Doing+Social+Research+to+Test+Ideas-p-9781118512609