ANALÝZA LATENTNÍCH TŘÍD

Slides:



Advertisements
Podobné prezentace
ANALÝZA LATENTNÍCH TŘÍD
Advertisements

Sedm základních nástrojů řízení jakosti. Kontrolní tabulky Vývojové diagramy Histogramy Diagramy příčin a následků Paretovy diagramy Bodové diagramy Regulační.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Využití informačních technologií při řízení obchodního řetězce Interspar © Ing. Jan Weiser.
EMM101 Ekonomicko-matematické metody č. 10 Prof. RNDr. Jaroslav Ramík, CSc.
Doprava ROZMĚRY Který obrázek je největší? Který obrázek je nejmenší?
Inf Tabulkový procesor - funkce. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT.
Význam diferenciálních rovnic převzato od Doc. Rapanta.
Mgr. Bedřich Myšička vrchní ředitel sekce ekonomické Sekce ekonomická 10. dubna 2014.
IP adresace (IPv4) Velikost a určení IP adresy I. Epocha (dělení na třídy) II. Epocha (zavedení masky) Speciální adresy Příklady a řešení IP adres Souhrn.
Přijímací řízení pro školní rok 2012/2013 Krajský úřad Pardubického kraje odbor školství, kultury a tělovýchovy oddělení organizační a vzdělávání.
Software Licence a distribuce Karel Nymsa Dotkněte se inovací CZ.1.07/1.3.00/
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Definice: Funkce f na množině D(f)  R je předpis, který každému číslu z množiny D(f) přiřazuje právě jedno reálné číslo. Jinak: Nechť A, B jsou neprázdné.
Induktivní statistika
Základy automatického řízení 1
Organizace výroby Organizace a řízení výroby
Testování hypotéz Testování hypotéz o rozdílu průměrů
Interpolace funkčních závislostí
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Evaluace předmětů studenty (Anketky)
Rozhodování 1.
Kvalitativní výzkum Vybrané otázky: Proč kvalitativní výzkum?
Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.
Faktorová analýza cíl faktorové analýzy základní pojmy, postup
ČEHO JE VÍC? ZRAKovÉ VNÍMánÍ.
AUTOR: Kateřina Křížová NÁZEV: VY_32_INOVACE_05_09 sociální role
Popisný (popis reality, jevu) Vztahový (vztah jevů, faktorů, činitelů)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Kompetenční modely Mgr. Andrea Drdáková.
Databáze MS ACCESS 2010.
SIMULAČNÍ MODELY.
Párový neparametrický test
Základy statistické indukce
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Pseudosekce: P-T fázový diagram v jednoduchém systému Al2SiO5 s demonstrací postupu při tvorbě pseudosekce.
BIBS Informatika pro ekonomy přednáška 2
Test z Metodologie – náměty k přípravě
Spojité VELIČINY Vyšetřování normality dat
Korelace a elaborace aneb úvod do vztahů proměnných
XII. Binomické rozložení
Remote login.
Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
SEM – speciální přístupy
Co si vezmu na….
Lineární regrese.
Běžná pravděpodobnostní rozdělení
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Jak na články? Regionální konference 2009 Jan Šperl
Modely obnovy stárnoucího zařízení
Přijetí nebo odmítání žáků s poruchou autistického spektra vrstevníky?
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Život bez střeva , Praha.
Více náhodných veličin
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Teorie chyb a vyrovnávací počet 2
Diagnostika dítěte předškolního věku
Transkript prezentace:

ANALÝZA LATENTNÍCH TŘÍD 1

Literatura McCutcheon 1987. Latent Class analysis.Sage (viz sken) Hauberer, J. 2008. Latent class analysis in Jeřábek, Soukup (2008). Advanced Lazarsfeldian Methodology. Karolinum

HISTORICKÝ EXKURZ 3

Vznik LCA základní idea: P.F. Lazarsfeld v 50. letech 20. století reakce na skutečnost, že většina měření v sociálních vědách (zejména sociologii) nemá charakter intervalové či poměrové škály chování lidí je ovlivněno strukturami stojícími v pozadí, které nelze přímo měřit (latentními) a tyto struktury Lazarsfeld nazývá latentní struktury Vzniká Analýza latentních struktur (LSA) LSA je omezena jen na dichotomické proměnné

Vznik LCA Rozvinutí pro případ položek, které mají více než 2 kategorie Hlavní autoři: Leo Goodman, Haberman a Clogg Základní cíl LCA: umožňuje nalézt k latentních tříd ze dvou či více pozorovaných proměnných kategoriální povahy Základní rovnice: , pravděpodobnost odpovědi I na položku A, kde i = 1, 2, ..., I a odpovědi j na položku B, kde j = 1, 2, ., J; a náležení do jedné z latentních tříd, kde t = 1,2, ...,T. Další složky jsou pravděpodobnost přináležení do lat. třídy a odpovědi na A či B při přináležení do lat. třídy

Statistické pojetí LCA Nutno odhadnout pravděpodobnosti na pravé straně rovnice Výsledky (odhadnuté parametry) nutno interpretovat: tj. určit velikosti tříd ( z nepodmíněných pravděpodobností) a „význam“ tříd ( z podmíněných pravděpodobností)

Srovnání LCA a FA I FA LCA Manif. a lat. proměnné ANO Char. man. proměnné spojitá nom. či ord. Char. lat.proměnné Spojitá (faktor) Nominální (třída) Zdrojová data Korelační matice Kontingenční tabulka

Srovnání LCA a FA II Pojem FA LCA Způsob měření souv. Pearsonova korelace Pravděpodobnost spoluvýskytu Označení lat. Prom. Faktor Latentní proměnná Vazba mezi lat. prom. a man. Faktorová zátěž Podmíněná pravděpodobnost určité odpovědi na položku při přináležení do třídy t Hodnota lat. proměnné Faktorové skóre Latentní třída

Dvě varianty LCA Explorační LCA – cílem je zjistit kolik tříd je v datech a udělat základní popis tříd Konfirmační LCA – cílem je otestovat model (například existenci 3 tříd), případně lze specifikovat různá omezení modelu (konkrétní velikost jedné či více tříd, shodu podmíněných pravděpodobností v různých třídách, jejich určitou velikost apod.) Poznámka: LCA lze využívat i pro škálování (mimo naší lekci)

DETAILY VÝPOČTU 10

Vstupní data Několik nominálních či ordinálních proměnných Předpoklad, že získaná data reprezentují v pozadí stojící latentní třídy Nutno mít dostatečný počet kombinací, aby bylo mžné odhadnout všechny pravděpodobnosti přináležení do tříd a podmíněných pravděpodobností jednotlivých odpovědí

Odhad parametrů Nejužívanější ML Nutno mít prvotní odhady parametrů (SW umí tyto stanovit) Iterační postup pro výpočet odhadu (EM algoritmus) Problém lokálního minima (díky tomu se odhad provádí s různými počátečními hodnotami a zjišťuje se shoda jednotlivých výsledků – při neshodě nutno navýšit počet těchto počátečních hodnot)

Odhad parametrů – iterace EM

Odhad parametrů – iterace EM

Výstupy LCA Pravděpodobnost přináležení do tříd Podmíněná pravděpodobnost odpovědi na položku při přináležení do latentní třídy Možno vyžádat též zařazení jedince do latentní třídy (uloží se do dat) Základní charakteristiky vhodnosti modelu: Chi-kvadrát test či LR test AIC či BIC – problém různosti doporučení Entropie Průměrné pravděpodobnosti (úspěšnost klasifikace)

Praktický příklad 16

Příklad Hledání latentních tříd vztahu ke čtení Data: PIRLS 2011 pro ČR (žáci 4. třídy ZŠ) 6 výroků o čtení Předpoklad: existence minimálně dvou skupin dětí dle vztahu ke čtení (mají vs. nemají rádi) Explorační průzkum dat a stanovení počtu tříd

Zadání v Mplus – ukázka 3 tříd DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; !pomocna id promenna potrebvna pro ulozenoi trid MISSING ARE ALL (9); weight is w; !pouziti vahy v datech usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); !nazev promenne pro lat. tridy a jejich pocet analysis: type=mixture; !pro LCA nutno zadat mixture plot: type=plot3; !pozadavek na grafy podm. pravdepodobnosti series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat; !ulozueni dat vc. tridni prislusnosti Save=cprobabilities;

Software 19

LCA v software Starší programy: MLLSA (Maximum Likelihood Latent Structure Analysis) vyvinutý Cloggem, dále LAT napsaný Habermanem (1979, Appendix 2) a dále LCAG (Hagenaars, Luijkx 1990 V současnosti se užívají zejména: lEM, Mplus a LatentGold. Kromě speciálních produktů je možné používat analýzu latentních tříd i v některých statistických paketech, zejména v SAS. lEM je freeware, ostatní je placené Autorem lEM i LatentGold je Vermunt, asi největší žijící odborník LCA

Zadání v MPlus DATA: FILE IS postojecte.dat; variable: names are id must talk present boring more enjoy must1 talk1 present1 boring1 more1 enjoy1 pohl w; auxiliary=id; MISSING ARE ALL (9); weight is w; usev are must1 talk1 present1 boring1 more1 enjoy1; categorical are must1 talk1 present1 boring1 more1 enjoy1; classes=c(3); analysis: type=mixture; plot: type=plot3; series=must1(1) talk1(2) present1(3) boring1(4) more1(5) enjoy1 (6); save: file=pirls3classes.dat;

Zadání v MPlus Další finty: 1) Do sekce analysis Starts = 500 50; !navysi počet nahodnych staru rpo iterace (1. krok 500, 2. krok 50) Siterations =50; !navysi počet iterac9 na max. 50 Nastavení vhdoné cca od 4 latentních tříd 2) Do sekce output: Tech10; !vygeneruje hodnoty rezidui – rozdil mezi skutecnou a odhadnutou cetnosti 22

PŘÍBUZNÍ LCA 23

Podobné techniky k LCA Loglineární analýza Logitová analýza Podobnosti a odlišnosti