ANALÝZA LATENTNÍCH TŘÍD

Slides:



Advertisements
Podobné prezentace
Cíle a postupy empirického výzkumu
Advertisements

Testování neparametrických hypotéz
Testování statistických hypotéz
Odhady parametrů základního souboru
Lineární regresní analýza Úvod od problému
SEM 12. Přednáška Petr Soukup.
Zpracování seminárních a kvalifikačních prací
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Morfologická křivka kmene
Analytické metody výzkumu
Funkce.
Získávání informací Získání informací o reálném systému
Statistika Vypracoval: Mgr. Lukáš Bičík
Tloušťková struktura porostu
Hypotézy ve výzkumu.
Histogram OA a VOŠ Příbram
Fakulty informatiky a statistiky
Analýza kvantitativních dat I.
Základy ekonometrie Cvičení září 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Analýza kvantitativních dat II. Analýza chybějících hodnot (missing values) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 23/5/2012 UK FHS Historická.
Korelace a elaborace aneb úvod do vztahů proměnných
Jiří Šafr jiri.safr(zavináč)seznam.cz
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Lineární regresní analýza
Test dobré shody Fisherův přesný test McNemar test
Jedno-indexový model a určení podílů cenných papírů v portfoliu
1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?
Pohled z ptačí perspektivy
Základy zpracování geologických dat
Metrologie   Přednáška č. 5 Nejistoty měření.
Základy ekonometrie 4EK211
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Marketingový průzkum Milan Mrázek Matematika & Business
LOGLINEÁRNÍ ANALÝZA 1.
Nové statistické techniky v kvantitativním výzkumu
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
MPlus – jak na to? P. Soukup.
1. cvičení
Statistika v SAS (SAS STUDIO)
Jiří Šafr jiri.safr(zavináč)seznam.cz
Aplikovaná statistika 2.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Bc. Jaromír Šetek VNÍMÁNÍ ZEMĚ PŮVODU ZNAČKY A ZEMĚ PŮVODU PRODUKTU VEDOUCÍ PRÁCE: Ing. Pavel Štrach, Ph.D. et Ph.D.
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
ANALÝZA LATENTNÍCH TŘÍD
- váhy jednotlivých studií
Co se dá změřit v psychologii a pedagogice?
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
SEM J.Hendl a P. Soukup.
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Sociologický výzkum II.
5. cvičení
Metodologie pro ISK 2 Úvod do práce s daty
PSY252 Statistická analýza dat v psychologii II
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Statistika a výpočetní technika
ANALÝZA A KLASIFIKACE DAT
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

ANALÝZA LATENTNÍCH TŘÍD 1

Literatura McCutcheon 1987. Latent Class analysis.Sage (viz sken) Hauberer, J. 2008. Latent class analysis in Jeřábek, Soukup (2008). Advanced Lazarsfeldian Methodology. Karolinum

HISTORICKÝ EXKURZ 3

Vznik LCA základní idea: P.F. Lazarsfeld v 50. letech 20. století reakce na skutečnost, že většina měření v sociálních vědách (zejména sociologii) nemá charakter intervalové či poměrové škály chování lidí je ovlivněno strukturami stojícími v pozadí, které nelze přímo měřit (latentními) a tyto struktury Lazarsfeld nazývá latentní struktury Vzniká Analýza latentních struktur (LSA) LSA je omezena jen na dichotomické proměnné

Vznik LCA Rozvinutí pro případ položek, které mají více než 2 kategorie Hlavní autoři: Leo Goodman, Haberman a Clogg Základní cíl LCA: umožňuje nalézt k latentních tříd ze dvou či více pozorovaných proměnných kategoriální povahy Základní rovnice: , pravděpodobnost odpovědi I na položku A, kde i = 1, 2, ..., I a odpovědi j na položku B, kde j = 1, 2, ., J; a náležení do jedné z latentních tříd, kde t = 1,2, ...,T. Další složky jsou pravděpodobnost přináležení do lat. třídy a odpovědi na A či B při přináležení do lat. třídy

Statistické pojetí LCA Nutno odhadnout pravděpodobnosti na pravé straně rovnice Výsledky (odhadnuté parametry) nutno interpretovat: tj. určit velikosti tříd ( z nepodmíněných pravděpodobností) a „význam“ tříd ( z podmíněných pravděpodobností)

Srovnání LCA a FA I FA LCA Manif. a lat. proměnné ANO Char. man. proměnné spojitá nom. či ord. Char. lat.proměnné Spojitá (faktor) Nominální (třída) Zdrojová data Korelační matice Kontingenční tabulka

Srovnání LCA a FA II Pojem FA LCA Způsob měření souv. Pearsonova korelace Pravděpodobnost spoluvýskytu Označení lat. Prom. Faktor Latentní proměnná Vazba mezi lat. prom. a man. Faktorová zátěž Podmíněná pravděpodobnost určité odpovědi na položku při přináležení do třídy t Hodnota lat. proměnné Faktorové skóre Latentní třída

Dvě varianty LCA Explorační LCA – cílem je zjistit kolik tříd je v datech a udělat zákaldní popis tříd Konfirmační LCA – cílem je otestovat model (například existenci 3 tříd), případně lze specifikovat různá omezení modelu (konkrétní velikost jedné či více tříd, shodu podmíněných pravděpodobností v různých třídách, jejich určitou velikost apod.) Poznámka: LCA lze využívat i pro škálování (mimo naší lekci)

DETAILY VÝPOČTU 10

Vstupní data Několik nominálních či ordinálních proměnných Předpoklad, že získaná data reprezentují v pozadí stojící latentní třídy Nutno mít dostatečný počet kombinací, aby bylo mžné odhadnout všechny pravděpodobnosti přináležení do tříd a podmíněných pravděpodobností jednotlivých odpovědí

Odhad parametrů Nejužívanější ML Nutno mít prvotní odhady parametrů (SW umí tyto stanovit) Iterační postup pro výpočet odhadu (EM algoritmus) Problém lokálního minima (díky tomu se odhad provádí s různými počátečními hodnotami a zjišťuje se shoda jednotlivých výsledků – při neshodě nutno navýšit počet těchto počátečních hodnot)

Odhad parametrů – iterace EM

Odhad parametrů – iterace EM

Výstupy LCA Pravděpodobnost přináležení do tříd Podmíněná pravděpodobnost odpovědi na položku při přináležení do latentní třídy Možno vyžádat též zařazení jedince do latentní třídy (uloží se do dat) Základní charakteristiky vhodnosti modelu: Chi-kvadrát test či LR test AIC či BIC – problém různosti doporučení Entropie Průměrné pravděpodobnosti (úspěšnost klasifikace)

Praktický příklad 16

Příklad Hledání latentních tříd vztahu ke čtení Data: PIRLS 2011 pro ČR (žáci 4. třídy ZŠ) 6 výroků o čtení Předpoklad: existence minimálně dvou skupin dětí dle vztahu ke čtení (mají vs. nemají rádi) Explorační průzkum dat a stanovení počtu tříd

Zadání v Mplus – ukázka 3 tříd DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; !pomocna id promenna potrebvna pro ulozenoi trid MISSING ARE ALL (9); weight is w; !pouziti vahy v datech usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); !nazev promenne pro lat. tridy a jejich pocet analysis: type=mixture; !pro LCA nutno zadat mixture plot: type=plot3; !pozadavek na grafy podm. pravdepodobnosti series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat; !ulozueni dat vc. tridni prislusnosti Save=cprobabilities;

Software 19

LCA v software Starší programy: MLLSA (Maximum Likelihood Latent Structure Analysis) vyvinutý Cloggem, dále LAT napsaný Habermanem (1979, Appendix 2) a dále LCAG (Hagenaars, Luijkx 1990 V současnosti se užívají zejména: lEM, Mplus a LatentGold. Kromě speciálních produktů je možné používat analýzu latentních tříd i v některých statistických paketech, zejména v SAS. lEM je freeware, ostatní je placené Autorem lEM i LatentGold je Vermunt, asi největší žijící odborník LCA

Zadání v MPlus DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; MISSING ARE ALL (9); weight is w; usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); analysis: type=mixture; plot: type=plot3; series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat;

Zadání v MPlus Další finty: 1) Do dekce analysis Starts = 500 50; !navysi počet nahodnych staru rpo iterace (1. krok 500, 2. krok 50) Siterations =50; !navysi počet iterac9 na max. 50 Nastavení vhdoné cca od 4 latentních tříd 2) Do sekce output: Tech10; !vygeneruje hodnoty rezidui – rozdil mezi skutecnou a odhadnutou cetnosti 22

PŘÍBUZNÍ LCA 23

Podobné techniky k LCA Loglineární analýza Logitová analýza Podobnosti a odlišnosti