Analýza kategoriálních dat

Analýza kategoriálních dat

Kategoriální data – jedná se především o znaky kvalitativní, např
Kategoriální data – jedná se především o znaky kvalitativní, např. zaměstnání, pohlaví, typ automobilu, vkus zákazníka. Získaná data zachycujeme pomocí jedno-, dvou- nebo vícerozměrných tabulek četností nebo relativních četností. Každý rozměr (dimenze) tabulky odpovídá klasifikaci do kategorií podle určité proměnné. Některé proměnné mají podle úlohy charakter závisle proměnné (cílové proměnné), jiné považujeme za nezávislé. Proměnné jsou často nominálního, resp. kvalitativního typu. Také však mohou mít nějaké přirozené řazení (např. vedlejší reakce na lék mohou být žádné, mírné nebo silné) – jsou ordinálního typu.

Četnostní tabulky vznikají i zařazením jinak spojitých metrických údajů do kategorií, který byly navrženy jako intervaly pokrývající rozsah hodnot sledované proměnné. Při zkoumání četností dat stojíme před podobnými úkoly jako v případě dat metrických. Porovnáváme náhodné chování proměnné s pravděpodobnostním rozdělením, jež je předem přesně specifikované, nebo srovnáváme rozdělení sledované proměnné ve dvou nebo více populacích, aniž bychom předem specifikovali tvar jejich rozdělení. Také nás zajímá síla asociace jednotlivých proměnných mezi sebou.

Porovnání relativní četnosti s teoretickou hodnotou
Posuzujeme relativní četnost přítomnosti určité vlastnosti v ZS pomocí náhodného výběru o rozsahu n. Předpokládejme hodnotu relativní četnosti výskytu sledované vlastnosti p0. Testujem nulovou hypotézu H0: p = p0 proti alternativní hypotéze H1: p  p0. Testové kritérium má tvar:

Kritický obor pro zamítnutí H0 je vymezen následovně:
Alternativa Kritický obor H1: p  p0 K = u> u H1: p  p0 K = u > u2 H1: p  p0 K = u < -u2 Je možné v rámci hodnocení stanovit také intervalový odhad relativní četnosti, kdy dvoustranný interval spolehlivosti pro spolehlivost 1 -  má tvar: Uvedené vztahy lze ale použít za předpokladu normální aproximace rozdělení relativní četnosti a jsou vhodné pouze pro větší rozsahy výběru.

Porovnání dvou relativních četností
Zajímá nás porovnání dvou pravděpodobností p1 a p2 výskytu nějaké vlastnosti ve dvou ZS. Na základě náhodných výběrů o velkých rozsazích n1 a n2 (n1 > 100; n2 > 100) je třeba ověřit hypotézu H0: p1 = p2. Test je založen na statistice Pokud |u > u  H0 zamítáme.

Cílem analýzy může také být testovat a odhadovat velikost jejich rozdílu  = p1 – p2.
Testová statistika se opírá o standardizovanou odchylku rozdílu empirických četností p1 a p2 od předpokládané hodnoty . Počet prvků se sledovanou vlastností ve výběrových souborech o rozsahu n1 a n2 je m1 a m2. Teoretické hodnoty pi potom odhadujeme pomocí relativních četností fi = m/n. Nulovou a alternativní hypotézu lze zapsat jako: H0: (p1 – p2) = , příp. = 0 H1: (p1 – p2)  , příp.  0

Testové kritérium má tvar:
Výpočet odhadu směrodatné odchylky s(p1 – p2) závisí na hodnotě . Jestliže   0, pak Nulová hypotéza se zamítá, pokud |u > u  H0.

V případě, že  = 0, má s(p1 – p2) hodnotu
kde je spojený odhad teoretické relativní četnosti a q = 1- p. Rozsahy obou výběrů musí být dostatečně veliké, abychom mohli pro výběrové rozdělení rozdílu hodnot p1 – p2 uplatnit centrální limitní teorém.

Dvoustranný interval spolehlivosti má tvar:
Jestliže podmínka o rozsazích výběru není splněna, ale počty jsou větší než 20, uplatňuje se arcussinová transformace na druhou mocninu odhadů pravděpodobností: Hypotézu o rovnosti pravděpodobností pak testujeme pomocí statistiky

Příklad U 500 náhodně vybraných domácností bylo prováděno v roce 1997 zjišťování, zda mají ve svém jídelníčku zařazenu cereální výživu. Kladně odpovědělo 67 domácností. U stejného počtu domácností bylo provedeno zjišťování v roce V tomto roce kladně odpovědělo 202 domácností. Vypočtěte 95 % interval spolehlivosti pro změnu podílu domácností. n1 = 500 m1 = 67 f1 = 67/500 = 0,134 n2 = 500 m2 = 202 f2 = 202/500 = 0,404

Protože daný interval nepokrývá 0, můžeme na hladině významnosti 0,05 zamítnout nulovou hypotézu, že v obou skupinách domácností mají zařazeny v jídelníčku cereální potraviny. Chceme testovat hypotézu, že podíl domácností v roce 1998 není větší o více než 30 % ve srovnání s podílem domácností v roce Použijeme jednostranný test na 5% hladině významnosti (kritická hodnota je 1,6448) Výsledek svědčí ve prospěch alternativní hypotézy.

2 - test dobré shody Přezkušujeme, zda tvar pravděpodobnostního rozdělení kategoriální proměnné X má specifickou podobu. Při pozorování proměnné X se zjistily četnosti nj jednotlivých kategorií. Předpokládáme, že pravděpodobnostní rozdělení proměnné je určené pravděpodobností pj. Testem dobré shody testujeme hypotézu: H0: F(x) = F0(x) proti alternativě H1: F(x)  F0(x). Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry. Nulová hypotéza udává pouze typ rozdělení, nikoli jeho parametry.

Rozdíl mezi pozorovanými a očekávanými četnostmi zachycuje testovací statistika, která má tvar:
kde k = počet možných hodnot kategoriální proměnné, nj = empirické (skutečné) četnosti v intervalu j, npj = teoretické (očekávané) četnosti v intervalu j vypočítané za předpokladu platnosti H0, přičemž n označuje rozsah výběru a pj teoretickou pravděpodobnost kategorie j.

Za platnosti H0 má statistika asymptoticky 2 - rozdělení o k-1 stupních volnosti.
Jestliže hodnota statistiky 2 překročí kritickou mez, signalizuje to špatnou shodu dat s teoretickým rozdělením. Příklad V n nezávislých náhodných pokusech očekáváme, že četnosti náhodných jevů A1, A2, A3, které v pokusu vůbec mohou nastat, jsou v poměru 1 : 2 : 1. V 80 pokusech jsme získali jejich četnosti 14, 50 a 16. Máme naši hypotézu zamítnout? Pro vypočtení testovací statistiky vytvoříme následující tabulku.

2 pro 2 stupně volnosti má kritickou hodnotu 5,991
2 pro 2 stupně volnosti má kritickou hodnotu 5,991. Protože 5,1 < 5,991, nemůžeme nulovou hypotézu zamítnout.

Závislost kategoriálních proměnných
Zabývá se statistickou analýzou četnostních tabulek, které vznikají, když popisujeme a analyzujeme vztah kategoriálních proměnných. Jedná se o analogii korelační analýzy spojitých proměnných nebo o podobnost s analýzou rozptylu. Rozdíl mezi oběma metodami spočívá v tom, že v případě analýzy četnostních tabulek obě kategoriální proměnné považujeme za náhodné, zatímco v analýze rozptylu posuzujeme vliv faktoru (kategoriální proměnné) s určitým počtem hladin jako nezávisle proměnné na chování náhodné závisle proměnné, jež má kvantitativní charakter.

Příklad V roce 1912 se na své první plavbě srazil luxusní zámořský parník Titanic s plovoucí ledovou krou a potopil se. Někteří cestující se dostali na záchranné čluny, ostatní zemřeli. Představme si, že zkáza Titaniku je experimentem, jak se lidé chovají tváří v tvář smrti, když jenom někteří mohou uniknout. Předpokládáme, že pasažéři jsou nestranným vzorkem z populace stratifikované podle majetkových poměrů. V následující tabulce uvádíme data zvlášť pro muže a ženy (Lord, 1998 – nejsou zachyceni cestující, u nichž není znám jejich sociální status). Při popisné analýze takovýchto dat se doporučuje uvést údaje v tabulkách jako procenta z řádkových nebo sloupcových součtů. Tím se lépe prezentují rozdílnosti rozdělení v jednotlivých kategoriích. Procenta nebo absolutní četnosti také zobrazujeme pomocí sloupcových grafů.

Pro jednoduchou inferenční analýzu lze použít metody pro srovnání procent. Snadno lze spočítat, že celkově zemřelo 680 mužů a 168 se jich zachránilo. Žen zemřelo 126, uniknout smrti se podařilo 317. Existuje evidence, že muži v této situaci více umírají? Jaké jsou pro to důvody? Můžeme se však také zeptat, zda existují statisticky významné rozdíly v procentuálních podílech zemřelých žen mezi jednotlivými třídami. Nechceme však srovnávat páry tříd, ale vyhodnotit globální hypotézu, zda vůbec existuje nějaký rozdíl. Stejné hodnocení můžeme provést pro muže. Zajímáme se, zda existuje stochastický vztah mezi proměnnou třída cestujícího a proměnnou, která popisuje status přežití cestujícího (ANO, NE). Jinak řečeno, ptáme se, zda ovlivňuje proměnná třída cestujícího pravděpodobnost přežití cestujícího. Pozn.: tento příklad pracuje dohromady se třemi proměnnými (pohlaví, třída cestujícího a status přežití).

Data o cestujících při ztroskotání Titaniku

Kontingence Kontingence se zabývá zkoumáním vztahu mezi množnými znaky, které mají větší počet obměn. V tomto případě hodnotíme tabulky dvoudimenzionální, což jsou tabulky vzniklé tříděním podle dvou proměnných – jde o tzv. kontingenční tabulky. Předpokládáme přitom, že každá jednotka může být klasifikována podle dvou proměnných (kritérií) A a B. proměnná A má r kategorií (úrovní) a proměnná B má s kategorií (úrovní). Označme nij počet prvků z výběru o rozsahu n, které podle proměnné A patří do kategorie Ai a podle proměnné B do kategorie Bj. Dále označme ni. počet prvků z výběru, které patří do kategorie Ai (bez ohledu na hodnotu proměnné B), a podobně n.j počet prvků patřících do kategorie Bj.

Platí tedy vztahy: Kontingenční tabulka typu r x s pak vypadá následovně:

Po vytvoření tabulky začínáme zkoumat vzájemný vztah obou proměnných A a B – nejdříve pomocí vhodného zobrazení, později lze testovat různé hypotézy. Hypotézy pro kontingenční tabulky se obvykle definují v pojmech stochastické nezávislosti, a to pomocí určitých podmínek. V kontextu stochastické nezávislosti proměnných A a B tyto podmínky indukují, že čísla nij/ni., resp. nij/n.j (řádkové, resp. sloupcové relativní četnosti) jsou pro všechna čísla i, resp. j až na náhodné odchylky konstantní. Jestliže jednu z proměnných kontrolujeme během výběru – třeba proměnnou A, nazýváme ji faktor. Tato proměnná vlastně určuje r disjunktních subpopulací W1, W2, …, Wr z populace W. V tomto případě se může hypotéza nezávislosti popsat jako hypotéza homogenity chování proměnné B vzhledem k faktoru A.

Hypotéza homogenity Tato hypotéza předpokládá, že pravděpodobnostní rozdělení kategoriální proměnné B je stejné v různých populacích, které jsou identifikovány faktorem A. Příslušné statistické testy nazýváme někdy testy dobré shody, kdy nám jde o shodu rozdělení kategoriální proměnné. Úrovně faktoru A stratifikují v tomto případě celou populaci W do r disjunktních subpopulací W1, W2, …, Wr a každý prvek z Wi je klasifikován do jedné z kategorií proměnné B. Nechť Pij je relativní četnost prvků subpopulace Wi, jež jsou v j-té kategorii proměnné B.

Potom se hypotéza homogenity může vyjádřit jako P1j = P2j = … = Prj pro všechna j = 1, 2, …, s, což znamená, že pro každou kategorii má být relativní četnost prvků v dané subpopulaci stejná pro všechny subpopulace. Hypotézu homogenity můžeme provádět tehdy, jestliže máme k dispozici prostý náhodný výběr z každé subpopulace určené faktorem A nebo jsme provedli přiřazení objektů do jednotlivých skupin namátkově. Příklad Populace W studentů je stratifikována podle pohlaví a proměnná B je určena tím, zda má student zájem o účast ve školním sportovním oddíle. Je zřejmé, že proměnná B je kategoriální. Dotazování se provádí tak, že zvlášť se provede náhodný výběr 66 chlapců a 74 dívek.

Z chlapců, resp. dívek mělo zájem 30, resp. 11 jedinců
Z chlapců, resp. dívek mělo zájem 30, resp. 11 jedinců. Zařazením osob podle zájmu dostaneme tabulku typu 2 x 2. Jestliže P11 je relativní část chlapců se zájmem o sport a P21 je relativní část dívek se zájmem o sport, pak hypotéza homogenity má tvar P11 = P21 (z toho plyne také P12 = P22). V pojmech nezávislosti H0 vyjadřuje, že relativní četnost jedinců zajímajících se o účast ve sportovním oddíle je nezávislá na pohlaví.

Hypotéza nezávislosti
V hypotéze nezávislosti se považují obě proměnné A a B za náhodné proměnné, přičemž předpokládáme jejich úplnou nezávislost. To znamená, že hodnota proměnné A neovlivňuje podmíněné rozdělení proměnné B a naopak. Uvažujeme populaci W, přičemž každý prvek této populace je klasifikován podle dvou kategoriálních proměnných A a B. Zkoumáme, zda hodnoty proměnné A neovlivňují rozdělení proměnné B a naopak. Nulová hypotéza zní, že obě proměnné jsou na sobě stochasticky nezávislé. Tuto hypotézu lze vyjádřit podmínkami pro pravděpodobnosti pij, což jsou pravděpodobnosti, že na osobě zjistíme hodnotu proměnné A v kategorii i a hodnotu proměnné B v kategorii j.

Nechť pi., resp. p.j je pravděpodobnost v populaci W, že proměnná A nabude hodnoty i, resp. proměnná B nabude hodnoty j. Pak hypotézu nezávislosti obou proměnných můžeme vyjádřit rovnicemi které platí pro všechna i = 1, 2, …, r a j = 1, 2, …, s. Uvedené vyjádření vyplývá ze vzorce pro výpočet pravděpodobnosti současného výskytu dvou nezávislých jevů. Pozn. Má-li platit nezávislost, pak pro všechna i a j musí být splněna podmínka

Posuzování závislosti v kontingenčních tabulkách
Budeme se zabývat tabulkou typu r x s, která popisuje rozdělení dvou kvalitativních znaků množných. Analýza této tabulky spočívá v provedení testu nezávislosti a ve stanovení síly (těsnosti) závislosti. Pro testování hypotéz homogenity i nezávislosti používáme stejný postup. Nejdříve vypočítáme tzv. očekávané četnosti noj v políčku (i, j) za předpokladu platnosti H0, která říká, že znaky A a B jsou nezávislé.

Empirické četnosti nij se mohou od očekávaných četností noj lišit buď náhodně (platí-li H0) nebo významně (neplatí-li H0). Pro posouzení velikosti rozdílů těchto četností použijeme 2 – testu dobré shody. Dosadíme-li do vzorce symboliku z kontingenční tabulky, dostaneme po úpravě:

Hodnotu 2 srovnáme s kritickou hodnotou 2 – rozdělení o stupních volnosti (r-1)(s-1). Jestliže hodnota 2 je větší než tabulková hodnota, hypotézu o nezávislosti mezi sledovanými kvalitativními znaky zamítáme. 2 test pro kontingenční tabulku r x s nelze použít, je-li více než 20 % teoretických četností menších než 5, příp. je-li alespoň v jednom políčku kontingenční tabulky očekávaná četnost menší než 1. V takových případech je nutno některé sousedící skupiny spojit. Jestliže zamítneme hypotézu nezávislosti nebo homogenity, lze tabulku dále analyzovat a hledat důvody, proč je H0 porušena. K tomu nám slouží tzv. normalizované reziduální hodnoty které vyneseme do tabulky opět typu r x s.

Koeficienty závislosti (míry těsnosti) pro kontingenci
Příčinu nehomogenity můžeme zjistit tak, že zopakujeme 2 – test pro tabulku, jež je zredukována o sloupce nebo řádky, které představují kandidáty nehomogenity. Jestliže tento 2 – test již nesignalizuje závislost (2 – statistika nepřekročí kritickou mez), je podezření potvrzeno. Nebo vybereme čtyři symetricky od sebe položená políčka, jež vždy po dvou leží v jedné řádce nebo sloupci, a vzniklou tabulku 2 x 2 opět testujeme. Významnost výsledku testu indikuje zdroj poruchy modelu nezávislosti. Koeficienty závislosti (míry těsnosti) pro kontingenci Ověříme-li uvedeným testovacím postupem, že mezi sledovanými znaky existuje závislost, zajímá nás, jak těsná je tato závislost.

K měření těsnosti závislosti mezi kvalitativními množnými znaky byly konstruovány speciální charakteristiky, které jsou obdobou korelačního koeficientu. Interpretovat jejich číselné hodnoty je však dosti obtížné vzhledem ke všem možným kombinacím vztahů mezi kvalitativními údaji. Pro kontingenční tabulku r x s často používáme ke změření těsnosti závislosti koeficient průměrné čtvercové kontingence C (Pearsonův koeficient kontingence), který vypočteme takto: Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula. Maximální hodnota, dosažená při úplné závislosti, je však menší než 1 a mění se podle toho, do kolika tříd byly zkoumané znaky rozděleny.

Při různých počtech obměn (variant) znaků dosahuje tento koeficient různých maximálních hodnot, což je jeho značnou nevýhodou. Proto tyto koeficienty, počítané pro různé typy kontingenčních tabulek, nejsou vzájemně srovnatelné. Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru se používá normalizovaný koeficient kontingence Cn: kde Cmax lze vypočítat ze vztahu r je počet podskupin (obměn) toho znaku, který má méně obměn. Hodnoty Cmax jsou také tabelovány.

Sílu závislosti lze též změřit pomocí Cramerova koeficientu V (tzv
Sílu závislosti lze též změřit pomocí Cramerova koeficientu V (tzv. Cramerovo V) pro h = min (r, s). Sílu závislosti popisuje také Čuprovův koeficient kontingence, který lze vyjádřit jako V případě, že oba znaky mají stejný počet obměn (r = s), pohybuje se hodnota K od 0 do 1. Není-li stejný počet obměn (r  s), hodnoty 1 nedosahuje ani při úplné kontingenci.

Příklad Dotazníkovým šetřením bylo zjišťováno, zda lidé znají svoji hladinu cholesterolu v krvi. Výsledky průzkumu jsou uvedeny v následující tabulce: Nejprve zjistíme, zda existuje závislost mezi věkem a znalostí cholesterolu v krvi. Pro ověření podmínky použití testu je potřeba stanovit jednotlivé teoretické četnosti, které uspořádáme do tabulky.

Z tabulky je zřejmé, že žádná teoretická četnost není menší než 5 (tzn
Z tabulky je zřejmé, že žádná teoretická četnost není menší než 5 (tzn. není to více než 20 % ze všech vypočtených teoretických četností) a 2 – test lze bez dalších úprav původních údajů použít.

Závěr: mezi oběma kvalitativními znaky existuje závislost (vysoce významná). S pravděpodobností 99 % je znalost hladiny cholesterolu vysoce významně ovlivněna věkem člověka. Po provedení tohoto testu je možné stanovit sílu závislosti mezi sledovanými znaky. Jedná se o středně silnou závislost.

Na základě charakteristiky K lze klasifikovat závislost jako slabou až střední
Pro úplnost je možné uvést normalizovaný koeficient kontingence a Cramerovo V.

Tabulka 2 x 2 – asociační tabulka
Uvažujeme dvě náhodné proměnné X a Y, které nabývají jenom dvě hodnoty: 0 a 1. Asociace tedy zkoumá vztah mezi alternativními znaky, jež mají pouze dvě obměny. Symbolika kvalitativních znaků Jednotlivé kvalitativní znaky jsou značeny velkými písmeny latinské abecedy A, B, C, D, …. Výskyt (přítomnost) dané vlastnosti u příslušné statistické jednotky je značena malými písmeny latinské abecedy a, b, c, d, … V případě, že statistická jednotka danou vlastnost nemá, je použito odpovídajících písmen řecké abecedy , , , , …

Přítomnost či nepřítomnost více kvalitativních znaků u statistické jednotky lze označit kombinací příslušných symbolů. Např. bc – značí nepřítomnost znaku A a přítomnost znaků B a C nabc – počet (četnost) jednotek s danou kombinací přítomnosti či nepřítomnosti znaku.

Při zkoumání závislosti mezi alternativními znaky A a B ověřujeme stejnou nulovou hypotézu jako u množných znaků, tzn. že znaky A a B jsou nezávislé. Jako testovací kritérium použijeme opět veličinu 2. Empirické četnosti jsou v tomto případě označeny a, b, c, d. Očekávané četnosti pak značíme a0, b0, c0, d0 a vypočteme je takto:

Vzhledem k odlišné symbolice dostává veličina 2 tento tvar:
Za předpokladu, že nepotřebujeme znát teoretické četnosti, použijeme pro výpočet testovacího kritéria vztah: Při platnosti H0 má toto testovací kritérium rozdělení 2 o [(2-1)·(2-1)] = 1 stupni volnosti. Pokud 2 > 2  H0 se zamítá a závislost mezi znaky je prokázána i pro základní soubor.

Při používání 2 – testu pro asociační tabulku je potřeba mít na zřeteli předpoklady jeho použití. 2 – test v tomto případě dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru n, prakticky pro n > 40. Pro 20 < n  40 lze ověřovat nezávislost dvou alternativních znaků jen tehdy, není-li žádná očekávaná četnost menší než 5. Pro n  20 se nemá používat 2 – testu nikdy. Zvláštností tabulky typu 2 x 2 je, že v ní lze uvažovat směr poruchy H0, a proto musíme rozhodnout, zda použijeme jednostranný nebo dvoustranný test. V případě, že nejsou splněny podmínky pro použití 2 – testu, používáme pro testování závislosti v asociační tabulce Fisherův test.

Fisherův test nezávislosti v asociační tabulce patří k přesným testům nezávislosti náhodných proměnných a používá se při malých rozsazích výběrů (pokud n  20 nebo pokud 20  n  40 a některá z teoretických četností je menší než 5). Nulová hypotéza opět předpokládá nezávislost mezi sledovanými alternativními znaky. Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru o rozsahu n vyskytnou seskupení četností (a), (b), (c), (d) v dané tabulce, nebo jakékoliv jiné uspořádání četností, jež je H0 méně příznivé. Pro ověření platnosti H0 je nutno vypočítat součet všech dílčích pravděpodobností

Přitom dílčími pravděpodobnostmi jsou právě pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c), (d) ve výběru o n prvních, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při zachování velikosti všech okrajových četností Jestliže tento součet pravděpodobností bude menší než zvolená hladina významnosti (p  ), nulovou hypotézu zamítáme a soudíme, že byla prokázána významnost vztahu mezi sledovanými znaky A a B. Pravděpodobnosti pi (seskupení empirických četností) lze při zachování okrajových četností vyjádřit takto:

Celý postup testu je následující:
Zvolíme hladinu významnosti . V dané asociační tabulce vyhledáme nejnižší četnost a sestavíme další pomocné tabulky s tím, že nejmenší četnost zmenšujeme po jedné tak dlouho, až dosáhneme tabulkového uspořádání asociační tabulky, ve kterém tato minimální četnost bude nulová. Přitom okrajové četnosti zůstávají konstantní. Vypočítáme pravděpodobnosti pi pro původní tabulku a pro každou pomocnou tabulku. Stanovíme celkovou pravděpodobnost Srovnáme vypočtenou pravděpodobnost p se zvolenou hladinou významnosti . Je-li p  , H0 můžeme zamítnout. V případě, že p  , nelze považovat vztah mezi oběma znaky za prokázaný.

V případě prokázané závislosti je možné dále asociační tabulku analyzovat, kdy lze
určit průběh závislosti, tedy regresi, která umožní odhady relativního počtu jednotek s výskytem jednoho znaku na základě daného relativního počtu jednotek s výskytem druhého znaku, změřit sílu závislosti, tedy korelaci, mezi sledovanými kvalitativními znaky. Průběh závislosti dvou alternativních kvalitativních znaků může být vzhledem k počtu obměn (ano, ne) pouze lineární. Při určování rovnice asociační přímky se postupuje stejně jako u jednoduché kvantitativní závislosti. Asociační přímka vyjadřuje závislost podílu prvků s jedním znakem na podílu prvků s druhým znakem.

V případě, že závislou proměnnou bude znak B a nezávisle proměnnou znak A, má rovnice asociační přímky následující podobu: kde ABA je absolutní člen, BBA je regresní koeficient. Parametry asociační přímky lze určit po zjednodušení ze vztahů:

V případě, že závisle proměnnou bude znak A a nezávisle proměnnou znak B, je třeba určit sdruženou rovnici asociační přímky: kde

Vzhledem k tomu, že se jedná o lineární regresi, jsou BBA a BAB směrnice přímek a udávají změnu podílu , resp odpovídající jednotkovému zvýšení , resp Dalším úkolem v asociační tabulce je změřit těsnost závislosti mezi znaky A a B. Při měření stupně asociační závislosti lze použít řadu charakteristik.

Koeficient asociace (V, někdy rab) je svým výpočtem shodný s korelačním koeficientem v případě jednoduché lineární závislosti: a platí Hodnoty obou uvedených ukazatelů se pohybují v rozmezí od –1 do +1. Hodnocení je podobné jako u klasického koeficientu korelace kvantitativních znaků.

Koeficient asociace oproti „koeficientu korelace“ nadhodnocuje stupeň závislosti. V (rab) se rovná jedné (plus, resp. mínus), když jen jedna četnost je rovna nule. Jestliže by např. všechny ošetřené stromy měly zdravé ovoce, jednalo by se o úplnou asociaci, třebaže je i mnoho neošetřených stromů, které mají rovněž zdravé ovoce. Naproti tomu rab se rovná jedné, když se vyskytují případy pouze v kombinacích a a d, resp. b a c. V daném případě jde o absolutní asociaci. Existují ještě další, méně používané ukazatele, jako např. Yuleův koeficient asociace

nebo koeficient koligace Y

Příklad U 120 zaměstnanců byl zjišťován zájem o pokročilý kurz informatiky. Výsledky průzkumu byly sestaveny do asociační tabulky: Nejprve se provede testování, kdy chceme odpovědět na otázku, zda zájem o kurz je ovlivněn pohlavím ( = 0,05). Protože n > 40, použijeme rovnou 2 – test.

H0: zájem o kurz není ovlivněn pohlavím
H1: zájem o kurz je ovlivněn pohlavím V případě prokázané závislosti mezi znaky je možné stanovit tvar asociační přímky a zjistit sílu závislosti. Zájem o kurz je znakem B (závisle proměnná) a pohlaví znakem A (nezávisle proměnná).

Rovnice přímky pro odhad podílu zaměstnanců se zájmem o kurz informatiky na základě podílu mužů v souboru zaměstnanců: Asociační přímka má tedy tvar:

Regresní koeficient BBA lze interpretovat takto: zvýší-li se podíl mužů v souboru o 1 %, zvýší se podíl zaměstnanců o kurz informatiky o 0,548 %. Tuto rovnici lze použít k odhadům. Např. bude-li podíl mužů v souboru 70 %, lze odhadnout pomocí asociační přímky podíl zájemců o kurz informatiky: Podíl zájemců o kurz bude v souboru 62,96 %. Dále lze určit rovnici sdružené asociační přímky pro odhad podílu prvků se znakem A na základě znalosti podílu prvků se znakem B:

Parametr BAB – zvýší-li se podíl zájemců o kurz informatiky o 1 %, zvýší se podíl mužů v souboru o 0,5491 %. Sdružená asociační přímka, kterou lze použít k odhadu podílu mužů, má tvar:

Dále je potřeba změřit těsnost závislosti pro dané znaky.
Koeficient asociace Závislost mezi zájmem o kurz informatiky a pohlavím zaměstnanců je středně silná a přímá. Těsnost závislosti můžeme též určit například pomocí Yuleova koeficientu asociace Q:

Příklad nebo pomocí koeficientu koligace Y:
U 27 náhodně vybraných pracovníků s VŠ vzděláním bylo zjišťováno, zda mají zájem o další zvyšování vzdělání formou postgraduálního studia. V souboru byli muži i ženy. Výsledky byly sestaveny do tabulky:

Zajímá nás, zda zájem o studium je ovlivněn pohlavím pracovníků
Zajímá nás, zda zájem o studium je ovlivněn pohlavím pracovníků. Protože rozsah souboru je 27, tzn. v rozmezí 20 – 40, je třeba vypočítat teoretické četnosti, abychom zjistili použitelnost 2 – testu.

Vytváříme pomocné tabulky, kdy nejmenší četnost vždy zmenšujeme o jedna.
I. II. III. IV.

 = 0,05 0,2256 > 0,05  H0 se přijímá, tzn. nelze potvrdit, že by zájem pracovníka o studium byl ovlivněn pohlavím.

Analýza párových dichotomických proměnných
Často na zkoumaných osobách (prvcích souboru) sledujeme dichotomickou proměnnou (hodnoty + nebo -) dvakrát, před pokusem a po něm; máme zjistit, zda došlo ke statisticky významné změně v rozdělení této proměnné. NcNemar navrhl pro tento případ test, který je speciálním případem znaménkového testu pro dvě závislé skupiny. Poměr četností v obou kategoriích dichotomické proměnné se bude mezi oběma měřeními více nebo méně měnit. Velikost této změny posuzujeme NcNemarovým testem tak, že uvažujeme, kolik osob při prvním měření přejde při druhém měření do jiné kategorie uvažované proměnné. Vztah výsledků obou měření zobrazujeme četnostní tabulkou typu 2 x 2.

Např. číslo a je četnost osob, jež jak v prvním, tak ve druhém měření měly hodnotu sledované proměnné +. Zajímá nás, zda čísla b, c se od sebe liší pouze v rámci náhodného kolísání. Jenom tyto dvě četnosti rozhodují o tom, zda je charakteristika ve druhém měření jinak rozdělená než při prvním měření. Tuto hypotézu testujeme statistikou

Statistiku 2 srovnáváme s kritickou hodnotou 2 – rozdělení o jednom stupni volnosti (vhodné pro počty údajů b +c > 8). Jestliže nahradíme četnosti teoretickými pravděpodobnostmi pij, abychom popsali společné rozdělení výskytu jednotlivých výsledků, dostaneme následující tabulku: Tabulka je doplněna o marginální rozdělení dichotomické proměnné ve druhém a prvním měření. McNemarův test testuje hypotézu H0: p.1 = p1.

Příklad Přezkušuje se, zda výuka o pozitivním působení sportu na zdraví vede ke změně postojů žáků ke sportování. Hypotézy: H0: Počet žáků, kteří změní svůj postoj pozitivním směrem, je pouze náhodně odlišný od počtu žáků, kteří změní svůj postoj negativním směrem. H1: Po výuce je počet žáků s pozitivní změnou větší než počet žáků se změnou v negativním směru (jednostranná hypotéza).

Za platnosti nulové hypotézy se změní názory v obou směrech (pozitivním a negativním) u přibližně stejného počtu žáků (až na náhodné kolísání). Testovací statistika má hodnotu Protože 8,89 > 2,7056 (jednostranná kritická mez 2 o jednom stupni volnosti pro hladinu významnosti 0,05), lze uzavřít, že zvolená výuka má pozitivní vliv na postoj žáků vzhledem k provozování sportu s cílem podpory zdraví.

Cochranův test a test podle Bowkera
McNemarovým testem se prověřuje homogenita rozdělení alternativních dat dvou závislých výběrů. Hypotéza homogenity ve více závislých výběrech alternativních dat se prověřuje Q – testem podle Cochrana. Testuje se H0, že všechny výběry pocházejí ze stejné základní populace. Příklad Členové horolezeckého klubu diskutují o obtížnosti 3 výstupů. Data jsou popsána následující tabulkou. Jednička znamená úspěšný pokus o zdolání stěny. Hodnoty Ti, Bi a N, které potřebujeme pro výpočet Cochranovy testovací statistiky, jsou počty jedniček v řádcích, sloupcích a v celé tabulce.

H0: všechny stěny mají stejnou obtížnost
H1: alespoň jedna stěna má jinou obtížnost než ostatní Jednotlivé stěny považujeme za „ošetření“ a horolezci jsou bloky. Jestliže máme t ošetření provedených v b blocích a alternativní odpověď na ošetření (např. 0, 1), vhodnou statistikou pro test je

Ti označuje součet „jedniček“ pro ošetření i,
Bj je součet „jedniček“ v bloku j, N je počet všech jedniček. Statistika Q má za platnosti H0 asymptoticky 2 rozdělení o t – 1 stupních volnosti. Protože Q je menší než tabulková hodnota 2, je možné konstatovat, že všechny stěny mají stejnou obtížnost.

Jiným zobecněním McNemarova testu je test symetrie v tabulce typu N x N, který navrhl Bowker.
Jeho test se může použít např. při hodnocení vedlejších účinků nového léku. Jestliže mám pacienty, kteří jsou ošetřeni starým a poté novým lékem, můžeme zaznamenat jejich vedlejší účinky více než dvěma kategoriemi. Tabulka ukazuje možné výsledky takového experimentu.

Bowker navrhl test, jenž testuje, zda se alespoň jeden pár pravděpodobností symetricky položených políček v tabulce N x N nacházejících se mimo diagonálu od sebe liší. Testovací statistika má potom tvar kde se sčítá přes všechna i od 1 do n – 1 a j > 1. Za platnosti H0 symetrie má tato statistika asymptoticky 2 – rozdělení s 0,5(n-1)n stupni volnosti.

Pro daný příklad dosazením dostaneme
se 3 stupni volnosti (n = 3). Kritická hodnota 2 – rozdělení pro  = 0,05 je 7,815. Z toho plyne, že existuje evidence pro rozdílnou incidenci vedlejších účinků u obou léků.

Analýza kategoriálních dat

Podobné prezentace

Prezentace na téma: "Analýza kategoriálních dat"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Analýza kategoriálních dat

Podobné prezentace

Prezentace na téma: "Analýza kategoriálních dat"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář