9. Analýza kategorických dat

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Testování hypotéz Jana Zvárová
Testování neparametrických hypotéz
Kvantitativní metody výzkumu v praxi
Testování hypotéz Distribuce náhodných proměnných
Testování hypotéz.
Testování statistických hypotéz
Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.
Test dobré shody 2 test.
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Testování závislosti kvalitativních znaků
t-rozdělení, jeho použití
Regresní analýza a korelační analýza
Testování hypotéz (ordinální data)
Náhodná proměnná Rozdělení.
Náhoda, generátory náhodných čísel
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Odhady odhady bodové a intervalové odhady
Ringier ČR - Výzkumné oddělení
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní analýza
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
Kontingenční tabulky.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
Základy zpracování geologických dat
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Inferenční statistika - úvod
TEST DOBRÉ SHODY A TEST NEZÁVISLOSTI Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Test dobré shody Fisherův přesný test McNemar test
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
VII. Kontingenční tabulky
Neparametrické testy parametrické a neparametrické testy
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
PSY117 Statistická analýza dat v psychologii Přednáška
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

9. Analýza kategorických dat APS100041 Základy statistiky Přednášející: RNDr. Petr Boschek, CSc Mgr. Marek Vranka 9. Analýza kategorických dat

chí-kvadrát test dobré shody ověřuje shodu empirické distribuce s teoretickou (očekávanou/předpokládanou) zjistit potřebujeme pouze, co je (kolik je) „očekávaná četnost“ (expected count – EC) obecně jde o „model“, jenž srovnáme s realitou zajímá nás „jak moc“ se pozorované četnosti liší od očekávaných

Distribuce u různých df https://www.khanacademy.org/math/probability/statistics-inferential/chi-square/v/chi-square-distribution-introduction

Příklad v populaci následující zastoupení: můj vzorek: zdraví: 70%, neurotici: 20%, psychotici: 10% můj vzorek: zdraví 50, neurotici 30, psychotici 10 liší se můj vzorek signifikantně ve složení dle daného kritéria? jak budeme postupovat?

Postup nejdřív zjistíme očekávané četnosti jednotlivých kategorií kdyby platila nulová hypotéza – jak v tomto případě zní? EC = rel. četnost v populaci * N mého vzorku tj. 0,7*90 = 63; 0,2*90 = 18; 0,1*90 = 9 zbytek je pouhá mechanika – dosazujeme do vzorce... chi2 = 10,79 p < 0,01

Analýza vztahů kategorických dat chí-kvadrát test nezávislosti analyzujeme počty (frekvence) v určitých kombinacích kategorií pohlaví / odpověď: počet mužů odpovídajících „ano“, počet žen odpovídajících „ano“, počet mužů odpovídajících „ne“, počet žen odpovídajících „ne“ podobně jako test dobré shody, pouze výpočet očekávaných četností je mírně specifický

Chí-kvadrát test nezávislosti základní technika pro zkoumání vztahů mezi dvěma kategorickými (=nominální/ordinální) proměnnými více proměnných –> mnohorozměrné KT (loglineární analýza) převod škálových na kategorické – bining (bin = přihrádka) a) hypotéza o existenci vztahu b) určení síly vztahu

každý jednotlivec může být klasifikován dle proměnné A a B výchozí předpoklad stochastické nezávislosti (pokud např. A kontrolujeme (=cíleně vybíráme osoby s danou hodnotou A), nazývá se A faktor pak místo nezávislosti předpoklad homogenity – početně ale stejné) jako obvykle – požadavek náhodného výběru/randomizace

Obecná r x c kont. tab. výpočet EC výpočet chí-kvadrát (E = Expected Count, očekávaná četnost, n = Observed Count, zjištěná četnost)

Výpočet očekávaných četností Teorie: předpokladem je, že X a Y jsou na sobě nezávislé, tj: H0: P(X=i,Y=j) = P(X=i) . P(Y=j) (hypotéza nezávislosti X, Y) (i a j jsou možné hodnoty první a druhé proměnné) HA: nonH0  P(X=i,Y=j) ≠ P(X=i).P(Y=j) alespoň pro jednu kombinaci i, j

Příklad reportu Mezi typem tréninku a chováním byl zjištěn signifikantní vztah, 2 (1) = 25,36; p < 0,001.

Předpoklady dostatečné očekávané četnosti tj. max. 20% buněk s očekávanou četností menší než 5 25% buněk s OČ menší než 4,5 - X 15% buněk s OČ menší než 3 - OK žádná OČ nesmí být menší než 1 pokud je splněno, pak má vypočtená statistika přibližně 2 distribuci a můžeme test použít nezávislost buněk (tj. každá osoba může být jen v jedné buňce)

Adjustované standardizované reziduály OČ – EČ = reziduál (OČ – EČ)/sqrt(OČ) = standardizovaný reziduál to je stejný výraz jako ze vzorce na výpočet chí-kvadrátu! (jen neumocňujeme) adjustované std. reziduály ještě berou v potaz marginální proporce (vzorec není důležitý) interpretace – jako z-skór hledáme reziduály s absolutní hodnotou větší než 2 (zaokrouhleno z 1,96)

Analýza závislosti rozdělení výsledku atestace (1 – výborně, P – prospěl, N – neprospěl) na oboru studia (O_S) (A, B, C)

Tvrzení (P/N/nelze) Hypotézu nezávislosti můžeme zamítnout na 1% hladině významnosti Jednička se u studentů oboru A vyskytuje s vyšší pravděpodobností než u zbývajících oborů  Extrémně nízký počtu osob (3) v kategorii (A * N) nedovoluje použít chí-kvadrát test nezávislosti  Očekávané četnosti jsou dostatečně veliké pro možnost užití chí-kvadrát testu  Pravděpodobnost klasifikace „NEPROSPĚL“ je u studentů oboru B vyšší než u studentů oboru A  Hypotézu stejné distribuce výsledku atestace u oborů A a B nelze zamítnout  U této atestace (bez ohledu na obor) se výsledek „N“ vyskytuje s nižší pravděpodobností než výsledek „1“

Různé testy chí-kvadrát test Fisherův exaktní test McNemar dostatečné N Fisherův exaktní test malé N, 2x2 tabulka „Lady tasting tea“ - The lady in question claimed to be able to tell whether the tea or the milk was added first to a cup. Fisher proposed to give her eight cups, four of each variety, in random order. One could then ask what the probability was for her getting the number she got correct, but just by chance. McNemar závislá data, 2x2 tabulka

Fisherův přesný (exact) test u malých N – ale pouze 2x2 alternativně chí-kvadrát s Yatesovou korekcí přehnaně konzervativní

McNemar H0: pc = pb předpoklad: (b + c) > 25, pak statistika má 2 distribuci s 1 df

Cramerovo V chí-kvadrát -> existuje vztah? Cramerovo V -> jak silný je to vztah? hodnoty (0;1), 1 = silný vztah, 0 = žáden

Odds ratio nebo-li „poměr šancí“ co je šance? běžně se zaměňuje s pravděpodobností, ale zatímco p(A) = počet A / počet všech jevů, pro šancí platí odd(A) = počet A / počet ne-A

Příklad šance (R|Kouří) = 688/650 = 1,06 Rakovina Kontrolní skupina Kuřáci 688 650 Nekuřáci 21 59 (Doll and Hill, British Med. J, 1950, 739-748) šance (R|Kouří) = 688/650 = 1,06 šance (R|Nekouří) = 21/59 = 0,356 poměr šancí = 1,06/ 0,356 = 2,97 kuřák má 3x větší šanci mít rakovinu pacient s rakovinou má 3x větší šanci být kuřák