Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 2/3/2016 UK FHS Historická sociologie Představení kurzu a plán práce (v LS 2016)
AKD III. – základní teze (a odlišnosti od AKD I. A II.) Kurz je pro vás – pro řešení vašich problémů → „analyticko-sociologická dílna“ Vždy krátká přednáška k tématu (obecně o metodě), následuje společně zadávaný příklad v SPSS a (ideálně) aplikace na vlastních datech. Krom „velkých metod“ také drobné užitečnosti a nezbytnosti jako složitější manipulace při transformacích či užitečné míry co SPSS neumí (např. kvalitativní variance, index nepodobnosti) (a něco důležitého, na co se nedostalo v AKD2.) 2
Uděláme „vše pro diplomky“ Najde-li se konsensus a vytrvalost, pak všichni budeme průběžně z hodiny na hodinu pravidelně psát text diplomky (= analytické části). To asi až ke konci semestru… A následně ostatním vysvětlovat, jak a proč jste jakou metodu použili s jakým výsledkem a interpretací. a texty si vzájemně číst. (ideální stav) Problém ovšem je, že první část analýz většinou zahrnují popisné analýzy a na ty prostor v AKD3 nebude… (na to viz samostatnou presentaci + AKD1-2) 3
Postup výkladu v AKD III. Proto ideální postup: Obecný výklad („je tady taková možnost analýzy“) Sociologický problém (otázka v diplomce) → metoda → její praktická aplikace A na závěr (i v průběhu): Problém → metoda/(y) Pokusíme se výklad a aplikace upravit tak, aby bylo jasno, na co se dají použít v konkrétních diplomových pracích (platí pouze pro DP u JŠ) 4
Dvě hlavní části kurzu (oblasti aplikace vícerozměrných metod) Kurz má v zásadě dvě hlavní části: 1.Analýza latentních struktur → „asociace mezi „nezávislými“ proměnnými a redukce jejich počtu do obecnějších dimenzí či typů (klastrů)“ (někdy jen defacto příprava závislé proměnné pro 2.). 2.Regresní analýza a její verze pro kategoriální data, zobecněný lineární model → (kauzální) usuzování ohledně vztahů mezi závislou a několika nezávislými proměnnými. Jádro kurzu je druhá část vícerozměrná regrese. V LS 2016 výhradně. 5
Obsah kurzu (plán, vše nejde stihnout) Co jsme dostatečně neprobrali v AKD2 –Prezentace základních bivariat. vztahů, multiple response tab. –Testování hypotéz pro průměry (rozptyly), variační koeficient(y), –základní transformace (agregace dat), reliabilita, konstrukce indexů Regresní analýza (úvod, principy) Vícerozměrná lineárně regresní analýza (OLS) Zobecněný lineární model (analýza rozptylu, kovariance a jejich kombinace) Regresní analýza pro kategoriální data – binomická logistická regrese (0/1) –Polynomická logistická regrese (1/2/3) –Multinominální logistická regrese (B/M/A) Základy analýzy mediace a moderace Základy analýzy latentních struktur (metoda hl. komponent, explorační faktorová analýza) 6
Možná bychom mohli i něco málo z Speciální transformace dat na „long“ format (vektor, „případo-roky“,…) ? analýza časových řad (úvod), ? úvod k víceúrovňové modely, ? úvod k strukturnímu modelování (path- analysis) Dvojné třídění - působení faktorů v kontingenční tabulce (fitting two-way table), korespondenční analýza 7
1. Co jsme neprobrali v AKD2 ? (a přitom mohli): Multiple response – tabulky s vícenásobnými odpověďmi a komplexní Table of Frequencies Základní transformace: Agregace dat + tabelární data, konstrukce syntetických proměnných Položková reliabilita, konstrukce indexů…. Variační koeficient(y), Index nepodobnosti pro kategoriální data A vrátíme se ještě k testování rozdílu průměrů a jednoduché analýze rozptylu (one-way ANOVA), a to v rámci lineární regrese a zobecněného lineárního modelu 8
Některé teze a témata Důraz na pochopení analytických metod, cílem je abyste nebyli závislí pouze na SPSS. Pokud to již půjde seznámíme se i s jiným statistickým software (STATA) Dva důrazy: „na vstupu“ správný přístup k datům (kontrola předpokladů, transformace, konstrukce) „na výstupu“ správný přístup k interpretaci a psaní textu 9
Co praktického se (snad) naučíte … Jak spojit různé soubory dat do jednoho, jak do dat přihrát např. kontextuální data. Jak vytvořit agregovaný datový soubor Parciální pořadové korelace (Gamma) Souhrnné tabulky třídění 1.stupně pro opakované znaky (např. v bateriích otázek); jak jednoduše analyzovat vícenásobné odpovědi a jak provést transformaci na jednotlivé proměnné. Netriviální transformace dat (podmínky, smyčky atp.) Jak v analýze vzít v potaz „čas“: kohorty a opakovaná průřezová měření (jednoduché přístupy) Jakou metodu analýzy zvolit s ohledem na typ znaků a výzkumné otázky Jak postupovat od jednoduché jednorozměrné analýzy přes bivariátní k vícerozměrné Jak testovat hypotézy pomocí postupného budování regresních modelů Jak při tom využít interakcí nezávislých proměnných Jak graficky zobrazit výsledky vícerozměrných analýz Jak poznat odchylky od normálního rozložení u závislých kardinálních znaků Co případně dělat, pokud závislá proměnná nemá normální rozložení Jak používat nominální proměnné, aby s nim bylo možno vstupovat jako s nezávislými znaky do regresních modelů (transformace na indikátorové znaky) Jak poznat, že v datech jsou neopominutelné klastry (model náhodné konstanty) a tudíž bychom je měli analyzovat pomocí víceúrovňových modelů 10
Jak psát empirickou část textu (nejen) v diplomce Podrobně viz samostatnou presentaci, kde jsou ukázky tabulek a další kroky 1. Jak psát empirickou část odborného textu: Popisné statistiky a bivariátní vztahy
Postup jak (začít) psát … 1. závislá proměnná(é) s ní si vyhrajte, nepůjde již v hotovém textu měnit Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů) 12
Postup jak (začít) psát … Rozpracovat si projekt (diplomovou práci) na otázky Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace) otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?) 13
Co bude psát JŠ? Vliv sociálního kapitálu na dosahování statusu (konf. SNA Sunbelt 2013 v Hamburku) závislá proměnná: Socioekonomický status (ISEI) potomka (jednodimenzionální koncept, číselný znak) Vývoj životního stylu od pol. 80. let do současnosti závislá proměnná: Volnočasové aktivity ve 3 dimenzích (vícedimenzionální koncept rozkrytý pomocí PCA, indexy - číselné znaky nebo ordinální pro jednotlivé aktivity) Vzdělanostní nerovnosti v regionálně- prostorovém kontextu A co budete psát vy? 14