ANALÝZA LATENTNÍCH TŘÍD 1
Literatura McCutcheon 1987. Latent Class analysis.Sage (viz sken) Hauberer, J. 2008. Latent class analysis in Jeřábek, Soukup (2008). Advanced Lazarsfeldian Methodology. Karolinum
HISTORICKÝ EXKURZ 3
Vznik LCA základní idea: P.F. Lazarsfeld v 50. letech 20. století reakce na skutečnost, že většina měření v sociálních vědách (zejména sociologii) nemá charakter intervalové či poměrové škály chování lidí je ovlivněno strukturami stojícími v pozadí, které nelze přímo měřit (latentními) a tyto struktury Lazarsfeld nazývá latentní struktury Vzniká Analýza latentních struktur (LSA) LSA je omezena jen na dichotomické proměnné
Vznik LCA Rozvinutí pro případ položek, které mají více než 2 kategorie Hlavní autoři: Leo Goodman, Haberman a Clogg Základní cíl LCA: umožňuje nalézt k latentních tříd ze dvou či více pozorovaných proměnných kategoriální povahy Základní rovnice: , pravděpodobnost odpovědi I na položku A, kde i = 1, 2, ..., I a odpovědi j na položku B, kde j = 1, 2, ., J; a náležení do jedné z latentních tříd, kde t = 1,2, ...,T. Další složky jsou pravděpodobnost přináležení do lat. třídy a odpovědi na A či B při přináležení do lat. třídy
Statistické pojetí LCA Nutno odhadnout pravděpodobnosti na pravé straně rovnice Výsledky (odhadnuté parametry) nutno interpretovat: tj. určit velikosti tříd ( z nepodmíněných pravděpodobností) a „význam“ tříd ( z podmíněných pravděpodobností)
Srovnání LCA a FA I FA LCA Manif. a lat. proměnné ANO Char. man. proměnné spojitá nom. či ord. Char. lat.proměnné Spojitá (faktor) Nominální (třída) Zdrojová data Korelační matice Kontingenční tabulka
Srovnání LCA a FA II Pojem FA LCA Způsob měření souv. Pearsonova korelace Pravděpodobnost spoluvýskytu Označení lat. Prom. Faktor Latentní proměnná Vazba mezi lat. prom. a man. Faktorová zátěž Podmíněná pravděpodobnost určité odpovědi na položku při přináležení do třídy t Hodnota lat. proměnné Faktorové skóre Latentní třída
Dvě varianty LCA Explorační LCA – cílem je zjistit kolik tříd je v datech a udělat zákaldní popis tříd Konfirmační LCA – cílem je otestovat model (například existenci 3 tříd), případně lze specifikovat různá omezení modelu (konkrétní velikost jedné či více tříd, shodu podmíněných pravděpodobností v různých třídách, jejich určitou velikost apod.) Poznámka: LCA lze využívat i pro škálování (mimo naší lekci)
DETAILY VÝPOČTU 10
Vstupní data Několik nominálních či ordinálních proměnných Předpoklad, že získaná data reprezentují v pozadí stojící latentní třídy Nutno mít dostatečný počet kombinací, aby bylo mžné odhadnout všechny pravděpodobnosti přináležení do tříd a podmíněných pravděpodobností jednotlivých odpovědí
Odhad parametrů Nejužívanější ML Nutno mít prvotní odhady parametrů (SW umí tyto stanovit) Iterační postup pro výpočet odhadu (EM algoritmus) Problém lokálního minima (díky tomu se odhad provádí s různými počátečními hodnotami a zjišťuje se shoda jednotlivých výsledků – při neshodě nutno navýšit počet těchto počátečních hodnot)
Odhad parametrů – iterace EM
Odhad parametrů – iterace EM
Výstupy LCA Pravděpodobnost přináležení do tříd Podmíněná pravděpodobnost odpovědi na položku při přináležení do latentní třídy Možno vyžádat též zařazení jedince do latentní třídy (uloží se do dat) Základní charakteristiky vhodnosti modelu: Chi-kvadrát test či LR test AIC či BIC – problém různosti doporučení Entropie Průměrné pravděpodobnosti (úspěšnost klasifikace)
Praktický příklad 16
Příklad Hledání latentních tříd vztahu ke čtení Data: PIRLS 2011 pro ČR (žáci 4. třídy ZŠ) 6 výroků o čtení Předpoklad: existence minimálně dvou skupin dětí dle vztahu ke čtení (mají vs. nemají rádi) Explorační průzkum dat a stanovení počtu tříd
Zadání v Mplus – ukázka 3 tříd DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; !pomocna id promenna potrebvna pro ulozenoi trid MISSING ARE ALL (9); weight is w; !pouziti vahy v datech usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); !nazev promenne pro lat. tridy a jejich pocet analysis: type=mixture; !pro LCA nutno zadat mixture plot: type=plot3; !pozadavek na grafy podm. pravdepodobnosti series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat; !ulozueni dat vc. tridni prislusnosti Save=cprobabilities;
Software 19
LCA v software Starší programy: MLLSA (Maximum Likelihood Latent Structure Analysis) vyvinutý Cloggem, dále LAT napsaný Habermanem (1979, Appendix 2) a dále LCAG (Hagenaars, Luijkx 1990 V současnosti se užívají zejména: lEM, Mplus a LatentGold. Kromě speciálních produktů je možné používat analýzu latentních tříd i v některých statistických paketech, zejména v SAS. lEM je freeware, ostatní je placené Autorem lEM i LatentGold je Vermunt, asi největší žijící odborník LCA
Zadání v MPlus DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; MISSING ARE ALL (9); weight is w; usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); analysis: type=mixture; plot: type=plot3; series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat;
Zadání v MPlus Další finty: 1) Do dekce analysis Starts = 500 50; !navysi počet nahodnych staru rpo iterace (1. krok 500, 2. krok 50) Siterations =50; !navysi počet iterac9 na max. 50 Nastavení vhdoné cca od 4 latentních tříd 2) Do sekce output: Tech10; !vygeneruje hodnoty rezidui – rozdil mezi skutecnou a odhadnutou cetnosti 22
PŘÍBUZNÍ LCA 23
Podobné techniky k LCA Loglineární analýza Logitová analýza Podobnosti a odlišnosti