LOGLINEÁRNÍ ANALÝZA 1.

LOGLINEÁRNÍ ANALÝZA 1

ŠANCE A PRAVDĚPODOBNOST
2

Šance a pravděpodobnosti
Citujme klasika: šance (O*) je poměr pravděpodobnosti jedné varianty (události) ke druhé variantě (událost nenastala) (Tomáš Katrňák, osobní web) Jak na výpočet šancí (4 polní tabulky) Interpretace (důležitost hodnoty 1, asymetričnost škály a hodnoty menší než 1), plus exkurz o závislosti * O je zkratkou anglického výrazu ODD=ŠANCE

Poměr šancí Podělíme-li dvě šance (uděláme jejich poměr) získáme poměr šancí – OR* Jak na výpočet poměru šancí (4 polní tabulky) Interpretace (důležitost hodnoty 1, asymetričnost škály a hodnoty menší než 1) * OR je zkratkou anglického výrazu ODD RATIO

Důvody pro užívání šancí resp. poměrů šancí
Podobně jako jiné popisné statistiky zjednodušují popis dat Statisticky umožňují zmenšit počet odhadovaných parametrů či vůbec řešit úlohu Existují poměry šancí vyšších řádů (vhodné zejména pro loglineární modelování)

LOGIT 6

pravděpodobnost ≠ šance ≠logit
Zlogaritmovanou šanci či poměr šancí nazýváme logit Jakých hodnot může teoreticky nabýt? Shrnutí: pravděpodobnost ≠ šance ≠logit

LOGLINEÁRNÍ ANALÝZA 8

Loglineární analýza (Logliner Analysis)
-metoda sloužící k analýze vícerozměrných kontingenčních tabulek Jiné přístupy k analýze dvourozměrných kontingenčních tabulek 1) chí-kvadrát test nezávislosti a adjustovaná rezidua (počátek hodiny) 2)korespondenční analýza (viz 5. hodina)-ta umí pracovat i s vícerozměrnou kontingenční tabulkou při vhodném zadání Loglineární analýza slouží k nalezení závislostí proměnných ve vícerozměrných kontingenčních tabulkách -jedná se o soubor přístupů (metod), není jen jediná možnost analýzy (např. v SPSS jsou tři spolu související procedury v rámci loglineární analýzy)

1)Loglinear (dnešní lekce)
2)Model selection (příští lekce) Loglineární modely (Loglinear Models) česky popsáno včetně příkladů viz Hebák a kol: (2005)Vícerozměrné stat. metody s aplikacemi, 3. díl, kapitola 1 V angličtině mnoho monografií: Agresti (2002), Wiley; Simonof (2003), Springer; Xie (2000) Knoke,Burke (1980), Sage; Ishii-Kuntz (1994), Sage

Loglineární modely (Loglinear Models)
-snaží se modelovat vzájemnou závislost dvou a více nominálních (tedy i dichotomických) proměnných -pracuje převážně s nominálními (popř. jen dichotomickými) proměnnými, známe ale i modely s ordinálními proměnnými (viz příští lekce) -nerozlišují závislou a nezávislou proměnnou (toto naopak viz logitové modely-lekce 4)

Kontingenční tabulky –opakování/připomenutí
Závislost dvou nominálních/ordinálních proměnných chi-kvadrát test a adjustovaná rezidua Nulová hypotéza: nezávislost mezi proměnnými Alternativa: závislost Připomenutí logiky testu: Rozdíl mezi modelem nezávislosti (hypotetický) a tím co vyplývá z dat Vazba chi-kvadrát testu k loglineárnímu modelování Ukázka v Excelu a SPSS Adjustovaná rezidua a znaménkové schéma aneb detailní průzkum závislosti SM 152

Exkurz- práce s daty v SPSS Dvojí možnost práce:
Mám původní data, zadávám do procedur proměnné Nemáme původní data ale máme kontingenční tabulku(y), pak používáme načtení dat a váhové proměnné Příkaz: data list free/sex edu count. begin data 1 1 8 1 2 11 1 3 5 1 4 7 2 1 12 2 2 5 ……atd end data. weight by count. val lab sex 1 "muzi" 2"zeny" . val lab edu 1 „ZS" 2„SS bez mat" 3„SS s mat" 4"VS".

Loglineární analýza Základní myšlenka: modelování četností kontingenční tabulky Připomenutí logiky analýzy rozptylu Loglineární analýza obdoba analýzy rozptylu, ale efekty se nesčítají ale vůči průměru jsou ostatní efekty násobkem Možnost zařadit vliv proměnných v řádku, sloupci ale i případné interakční efekty (tedy vliv příslušné kombinace proměnných) Pokud do modelu dáváme více než dvě proměnné, pak provádíme elaboraci (zohledňujme vliv dalších proměnných), v tom je loglineární model lepší než analýza dvourozměrného vztahu

Terminologie saturovaný model-model obsahující všechny proměnné a všechny jejich možné interakce, takový model vysvětlí úplně pozorované četnosti v kontingenční tabulce reálný model-neobsahuje všechny interakce, jen ty, které mají věcné opodstatnění (nevystihuje zcela napozorované četnosti, ale shoda s nimi musí být poměrně vysoká), na základě našeho reálného modelu získáme očekávané četnosti (tedy modelový odhad situace v základní populaci, tu napozorované četnosti 100% nevystihují, protože pochází z výběru!!!) rezidua-rozdíly mezi napozorovanými a z modelu odhadnutými (očekávanými) četnostmi, lze je i statisticky testovat (slouží k rozpoznání problémů modelu)

Loglineární model se 2 proměnnými
saturovaný model-model obsahující obě proměnné a jejich interakci, takový model vysvětlí úplně pozorované četnosti v kontingenční tabulce Model nezávislosti (viz již chi-kvadrát test)-obsahuje pouze vliv řádkové a sloupcové proměnné rezidua-rozdíly mezi odhady četností z modelu nezávislosti a skutečně napozorovanými četnostmi Hierarchické modely -modely, kde vždy při zahrnutí interakce příslušného řádu jsou v modelu všechny interakce nižších řádů i proměnné z nichž se interakce tvoří Značení hier. modelů (ABC) (AB)C apod. pro jednodušší popis

Poznámka závěrem: Loglineární analýzy jsou přístupy konfirmatorní, umožňují nám testovat existenci závislosti, významnost zařazení nezávislých proměnných do modelu, celkovou kvalitu modelu atd.

1)Loglinear (dnešní lekce modely s ordinálními proměnnými)
2)Model selection (dnešní lekce začátek) Ordinální loglineární modely (Ordinal Loglinear Models) V angličtině: Agresti (2002), Wiley; Simonof (2003), Springer;Ishii-Kuntz (1994), Sage

Výběr nejlepšího hierarchického modelu (Model selection)
-snaží se najít nejvhodnější hierarchický model -založeno na chi-kvadrát testech, které srovnávají LR kritérium pro 2 modely -nejlépe začít od modelu saturovaného a backward metodou jít k nejvhodnějšímu modelu (lze jít i opačně od modelu nezávislosti metodou forward, ale tato metoda není v literatuře doporučována) -všechny proměnné jsou vnímány jako nominální

-2 testy Test že interakce určitého řádu (k-way) jsou všechny nulové Test, že interakce určitého řádu a všechny vyšších řádů (k-way and higher) jsou nulové Postup procedury Odhad saturovaného modelu Testy (viz výše) Návrh na vyřazení nevýznamné interakce a výpočet pro takto navržený model Opět body 2 a 3 až se dosáhne nejlepšího modelu Charakteristiky výsledného modelu

Nedostatky procedury Pouze hierarchické modely Založeno pouze na testech LR, nezohledňuje princip parsimonie (viz později AIC a BIC aj.) Pouze pro modely, které pracují s nominálními proměnnými ALE: Pro většinu úloh nám toto stačí a protože je to nesmírně rychlé, lze pro prvotní orientaci v datech tuto proceduru doporučit.

Ordinální loglineární modely (Ordinal Loglinear Models)
- Jedna nebo více proměnných jsou ordinální a tuto ordinalitu chceme využít v modelování Šetříme parametry (místo parametrů pro každý řádek stačí pro proměnnou pouze jeden, obdobně šetříme i u interakcí) Existuje mnoho modelů, v naší lekci jen nejjednodušší modely pro dvou a tří rozměrné kontingenční tabulky

Row and column effect model – jedna proměná ordinální, jedna nominální Row effect model – řádková proměnná nominální a sloupcová ordinální, do interakce místo sloupců vstupuje hodnota proměnné (např. v tabulce 3x3 bychom odhadovali s nominálními proměnnými 4 interakční parametry, v row effect jen 2) Uniform association- obě proměnné ordinální, do interakce vstupuje součin hodnot proměnných (např. v tabulce 3x3 bychom odhadovali v případě nom. proměnných 4 interakční parametry, v linear by linear modelu jen 1)

Formální zápis modelů Row and column effect model Uniform association) Interpretace parametrů a šance v modelech - Row and column effect model Uniform association Modely pro tři proměnné Model nezávislosti (Independence) Model konstantní fluidity, částečné asociace (partial asscociation) Saturovaný model

Výběr nejvhodnějšího modelu I Testy pro LR kritérium Goodman, AIC BIC kritéria Goodmanův index G = G2/df, kde G2 = 2fij ln(fij/Fij) kde G2 je hodnota LR kritéria z testů celkové vhodnosti modelu Df-počet zbývajících stupňů volnosti Akaikovo informační kritérium AIC = G2+2p, kde p je počet parametrů modelu

Goodman, AIC, BIC Baysovské Schwartzovo informační kritérium BIC = G2-df (ln n), kde n je počet jednotek ve výběru U všech uvedených kritérií platí „Čím menší, tím lepší“ Problém – různá kritéria považují za nejvhodnější různé modely

Výběr nejvhodnějšího modelu – další metody Rezidua – testy Rezidua – grafické posouzení Princip parsimonie

Doporučení pro výběr modelu (Ishii-Kuntz 94:53-4) Preferujte model s méně parametry (parsimonie). Preferujte model s jednodušší interpretací. Preferujte model s významnými testy všech parametrů Vyšší Sig. u celkového testu je žádoucí, ale příliš velké Sig. může být známkou toho, že v modelu je příliš parametrů a model by na jiný výběr nebyl použitelný. U ordinálních proměnných je doporučeno začít s modely pro nominální proměnné a poté co najdeme relativně vyhovující model začneme s proměnnými pracovat jako s ordinálními. Zřejmě nejdůležitější je držet se teorie a dle ní testovat model. Tedy nikoliv zkoušet všechny model (data driven analysis) ale mít dopředu hypotézu jak by měl model vypadat a tuto testovat (theory driven analysis) – (Petr S. slide 28)

Domácí úkol Na datech, které jste si zvolil zkuste najít vhodný loglineární model. Interpretujte parametry pomocí šancí, zkuste učiňte závěry o vzájemné závislosti/nezávislosti použitých proměnných. Porovnejte ordinální model s nejvhodnějším hierarchickým modelem (kolik parametrů jste ušetřili, jak se liší LR kritérium apod.) Požadavky: min 3 proměnné, každá 2-3 kategorie, alespoň jedna proměnná ordinální

LOGLINEÁRNÍ ANALÝZA 1.

Podobné prezentace

Prezentace na téma: "LOGLINEÁRNÍ ANALÝZA 1."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

LOGLINEÁRNÍ ANALÝZA 1.

Podobné prezentace

Prezentace na téma: "LOGLINEÁRNÍ ANALÝZA 1."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář