LOGLINEÁRNÍ ANALÝZA 1.

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Testování parametrických hypotéz
Testování neparametrických hypotéz
Testování hypotéz.
Testování statistických hypotéz
Odhady parametrů základního souboru
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
SEM 12. Přednáška Petr Soukup.
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Tloušťková struktura porostu
Testování hypotéz vymezení důležitých pojmů
Analýza dat.
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Ringier ČR - Výzkumné oddělení
Lineární regrese.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Korelace a elaborace aneb úvod do vztahů proměnných
Lineární regresní analýza
Biostatistika 6. přednáška
Test dobré shody Fisherův přesný test McNemar test
Kontingenční tabulky.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
ADDS cviceni Pavlina Kuranova. Fischerův exaktní test.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Statistická významnost a její problémy
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Marketingový průzkum Milan Mrázek Matematika & Business
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
Jiří Šafr jiri.safr(zavináč)seznam.cz
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Neparametrické testy  neparametrické pořadové testy  Chí-kvadrát kontingenční tabulky test dobré shody.
Statistické testování – základní pojmy
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Test dobré shody Fisherův přesný test McNemar test
Základy statistické indukce
Neparametrické testy parametrické a neparametrické testy
- váhy jednotlivých studií
Co se dá změřit v psychologii a pedagogice?
Neparametrické testy parametrické a neparametrické testy
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
Metodologie pro ISK 2 Úvod do práce s daty
příklad: hody hrací kostkou
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
ANALÝZA A KLASIFIKACE DAT
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

LOGLINEÁRNÍ ANALÝZA 1

ŠANCE A PRAVDĚPODOBNOST 2

Šance a pravděpodobnosti Citujme klasika: šance (O*) je poměr pravděpodobnosti jedné varianty (události) ke druhé variantě (událost nenastala) (Tomáš Katrňák, osobní web) Jak na výpočet šancí (4 polní tabulky) Interpretace (důležitost hodnoty 1, asymetričnost škály a hodnoty menší než 1), plus exkurz o závislosti * O je zkratkou anglického výrazu ODD=ŠANCE

Poměr šancí Podělíme-li dvě šance (uděláme jejich poměr) získáme poměr šancí – OR* Jak na výpočet poměru šancí (4 polní tabulky) Interpretace (důležitost hodnoty 1, asymetričnost škály a hodnoty menší než 1) * OR je zkratkou anglického výrazu ODD RATIO

Důvody pro užívání šancí resp. poměrů šancí Podobně jako jiné popisné statistiky zjednodušují popis dat Statisticky umožňují zmenšit počet odhadovaných parametrů či vůbec řešit úlohu Existují poměry šancí vyšších řádů (vhodné zejména pro loglineární modelování)

LOGIT 6

pravděpodobnost ≠ šance ≠logit Zlogaritmovanou šanci či poměr šancí nazýváme logit Jakých hodnot může teoreticky nabýt? Shrnutí: pravděpodobnost ≠ šance ≠logit

LOGLINEÁRNÍ ANALÝZA 8

Loglineární analýza (Logliner Analysis) -metoda sloužící k analýze vícerozměrných kontingenčních tabulek Jiné přístupy k analýze dvourozměrných kontingenčních tabulek 1) chí-kvadrát test nezávislosti a adjustovaná rezidua (počátek hodiny) 2)korespondenční analýza (viz 5. hodina)-ta umí pracovat i s vícerozměrnou kontingenční tabulkou při vhodném zadání Loglineární analýza slouží k nalezení závislostí proměnných ve vícerozměrných kontingenčních tabulkách -jedná se o soubor přístupů (metod), není jen jediná možnost analýzy (např. v SPSS jsou tři spolu související procedury v rámci loglineární analýzy)

1)Loglinear (dnešní lekce) 2)Model selection (příští lekce) Loglineární modely (Loglinear Models) česky popsáno včetně příkladů viz Hebák a kol: (2005)Vícerozměrné stat. metody s aplikacemi, 3. díl, kapitola 1 V angličtině mnoho monografií: Agresti (2002), Wiley; Simonof (2003), Springer; Xie (2000) Knoke,Burke (1980), Sage; Ishii-Kuntz (1994), Sage

Loglineární modely (Loglinear Models) -snaží se modelovat vzájemnou závislost dvou a více nominálních (tedy i dichotomických) proměnných -pracuje převážně s nominálními (popř. jen dichotomickými) proměnnými, známe ale i modely s ordinálními proměnnými (viz příští lekce) -nerozlišují závislou a nezávislou proměnnou (toto naopak viz logitové modely-lekce 4)

Kontingenční tabulky –opakování/připomenutí Závislost dvou nominálních/ordinálních proměnných chi-kvadrát test a adjustovaná rezidua Nulová hypotéza: nezávislost mezi proměnnými Alternativa: závislost Připomenutí logiky testu: Rozdíl mezi modelem nezávislosti (hypotetický) a tím co vyplývá z dat Vazba chi-kvadrát testu k loglineárnímu modelování Ukázka v Excelu a SPSS Adjustovaná rezidua a znaménkové schéma aneb detailní průzkum závislosti SM 152

Exkurz- práce s daty v SPSS Dvojí možnost práce: Mám původní data, zadávám do procedur proměnné Nemáme původní data ale máme kontingenční tabulku(y), pak používáme načtení dat a váhové proměnné Příkaz: data list free/sex edu count. begin data 1 1 8 1 2 11 1 3 5 1 4 7 2 1 12 2 2 5 ……atd end data. weight by count. val lab sex 1 "muzi" 2"zeny" . val lab edu 1 „ZS" 2„SS bez mat" 3„SS s mat" 4"VS".

Loglineární analýza Základní myšlenka: modelování četností kontingenční tabulky Připomenutí logiky analýzy rozptylu Loglineární analýza obdoba analýzy rozptylu, ale efekty se nesčítají ale vůči průměru jsou ostatní efekty násobkem Možnost zařadit vliv proměnných v řádku, sloupci ale i případné interakční efekty (tedy vliv příslušné kombinace proměnných) Pokud do modelu dáváme více než dvě proměnné, pak provádíme elaboraci (zohledňujme vliv dalších proměnných), v tom je loglineární model lepší než analýza dvourozměrného vztahu

Terminologie saturovaný model-model obsahující všechny proměnné a všechny jejich možné interakce, takový model vysvětlí úplně pozorované četnosti v kontingenční tabulce reálný model-neobsahuje všechny interakce, jen ty, které mají věcné opodstatnění (nevystihuje zcela napozorované četnosti, ale shoda s nimi musí být poměrně vysoká), na základě našeho reálného modelu získáme očekávané četnosti (tedy modelový odhad situace v základní populaci, tu napozorované četnosti 100% nevystihují, protože pochází z výběru!!!) rezidua-rozdíly mezi napozorovanými a z modelu odhadnutými (očekávanými) četnostmi, lze je i statisticky testovat (slouží k rozpoznání problémů modelu)

Loglineární model se 2 proměnnými saturovaný model-model obsahující obě proměnné a jejich interakci, takový model vysvětlí úplně pozorované četnosti v kontingenční tabulce Model nezávislosti (viz již chi-kvadrát test)-obsahuje pouze vliv řádkové a sloupcové proměnné rezidua-rozdíly mezi odhady četností z modelu nezávislosti a skutečně napozorovanými četnostmi Hierarchické modely -modely, kde vždy při zahrnutí interakce příslušného řádu jsou v modelu všechny interakce nižších řádů i proměnné z nichž se interakce tvoří Značení hier. modelů (ABC) (AB)C apod. pro jednodušší popis

Poznámka závěrem: Loglineární analýzy jsou přístupy konfirmatorní, umožňují nám testovat existenci závislosti, významnost zařazení nezávislých proměnných do modelu, celkovou kvalitu modelu atd.

1)Loglinear (dnešní lekce modely s ordinálními proměnnými) 2)Model selection (dnešní lekce začátek) Ordinální loglineární modely (Ordinal Loglinear Models) V angličtině: Agresti (2002), Wiley; Simonof (2003), Springer;Ishii-Kuntz (1994), Sage

Výběr nejlepšího hierarchického modelu (Model selection) -snaží se najít nejvhodnější hierarchický model -založeno na chi-kvadrát testech, které srovnávají LR kritérium pro 2 modely -nejlépe začít od modelu saturovaného a backward metodou jít k nejvhodnějšímu modelu (lze jít i opačně od modelu nezávislosti metodou forward, ale tato metoda není v literatuře doporučována) -všechny proměnné jsou vnímány jako nominální

Výběr nejlepšího hierarchického modelu (Model selection) -2 testy Test že interakce určitého řádu (k-way) jsou všechny nulové Test, že interakce určitého řádu a všechny vyšších řádů (k-way and higher) jsou nulové Postup procedury Odhad saturovaného modelu Testy (viz výše) Návrh na vyřazení nevýznamné interakce a výpočet pro takto navržený model Opět body 2 a 3 až se dosáhne nejlepšího modelu Charakteristiky výsledného modelu

Výběr nejlepšího hierarchického modelu (Model selection) Nedostatky procedury Pouze hierarchické modely Založeno pouze na testech LR, nezohledňuje princip parsimonie (viz později AIC a BIC aj.) Pouze pro modely, které pracují s nominálními proměnnými ALE: Pro většinu úloh nám toto stačí a protože je to nesmírně rychlé, lze pro prvotní orientaci v datech tuto proceduru doporučit.

Ordinální loglineární modely (Ordinal Loglinear Models) - Jedna nebo více proměnných jsou ordinální a tuto ordinalitu chceme využít v modelování Šetříme parametry (místo parametrů pro každý řádek stačí pro proměnnou pouze jeden, obdobně šetříme i u interakcí) Existuje mnoho modelů, v naší lekci jen nejjednodušší modely pro dvou a tří rozměrné kontingenční tabulky

Ordinální loglineární modely (Ordinal Loglinear Models) Row and column effect model – jedna proměná ordinální, jedna nominální Row effect model – řádková proměnná nominální a sloupcová ordinální, do interakce místo sloupců vstupuje hodnota proměnné (např. v tabulce 3x3 bychom odhadovali s nominálními proměnnými 4 interakční parametry, v row effect jen 2) Uniform association- obě proměnné ordinální, do interakce vstupuje součin hodnot proměnných (např. v tabulce 3x3 bychom odhadovali v případě nom. proměnných 4 interakční parametry, v linear by linear modelu jen 1)

Ordinální loglineární modely (Ordinal Loglinear Models) Formální zápis modelů Row and column effect model Uniform association) Interpretace parametrů a šance v modelech - Row and column effect model Uniform association Modely pro tři proměnné Model nezávislosti (Independence) Model konstantní fluidity, částečné asociace (partial asscociation) Saturovaný model

Ordinální loglineární modely (Ordinal Loglinear Models) Výběr nejvhodnějšího modelu I Testy pro LR kritérium Goodman, AIC BIC kritéria Goodmanův index G = G2/df, kde G2 = 2fij ln(fij/Fij) kde G2 je hodnota LR kritéria z testů celkové vhodnosti modelu Df-počet zbývajících stupňů volnosti Akaikovo informační kritérium AIC = G2+2p, kde p je počet parametrů modelu

Ordinální loglineární modely (Ordinal Loglinear Models) Goodman, AIC, BIC Baysovské Schwartzovo informační kritérium BIC = G2-df (ln n), kde n je počet jednotek ve výběru U všech uvedených kritérií platí „Čím menší, tím lepší“ Problém – různá kritéria považují za nejvhodnější různé modely

Ordinální loglineární modely (Ordinal Loglinear Models) Výběr nejvhodnějšího modelu – další metody Rezidua – testy Rezidua – grafické posouzení Princip parsimonie

Ordinální loglineární modely (Ordinal Loglinear Models) Doporučení pro výběr modelu (Ishii-Kuntz 94:53-4) Preferujte model s méně parametry (parsimonie). Preferujte model s jednodušší interpretací. Preferujte model s významnými testy všech parametrů Vyšší Sig. u celkového testu je žádoucí, ale příliš velké Sig. může být známkou toho, že v modelu je příliš parametrů a model by na jiný výběr nebyl použitelný. U ordinálních proměnných je doporučeno začít s modely pro nominální proměnné a poté co najdeme relativně vyhovující model začneme s proměnnými pracovat jako s ordinálními. Zřejmě nejdůležitější je držet se teorie a dle ní testovat model. Tedy nikoliv zkoušet všechny model (data driven analysis) ale mít dopředu hypotézu jak by měl model vypadat a tuto testovat (theory driven analysis) – (Petr S. slide 28)

Domácí úkol Na datech, které jste si zvolil zkuste najít vhodný loglineární model. Interpretujte parametry pomocí šancí, zkuste učiňte závěry o vzájemné závislosti/nezávislosti použitých proměnných. Porovnejte ordinální model s nejvhodnějším hierarchickým modelem (kolik parametrů jste ušetřili, jak se liší LR kritérium apod.) Požadavky: min 3 proměnné, každá 2-3 kategorie, alespoň jedna proměnná ordinální