Martina Litschmannová

Martina Litschmannová
Analýza závislosti Martina Litschmannová

Obsah lekce Analýza závislosti dvou kategoriálních proměnných
Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti dvou spojitých proměnných Pearsonův korelační koeficient, Spearmanův korelační koeficient

Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například porodní hmotnost, novorozenecká úmrtnost, výše mzdy, velikost IQ, hmotnost a výška mužů, školní prospěch a pocit deprese u dětí, apod. Možnosti vyhodnocení: Analýza jednotlivých znaků (každý zvlášť) Analýza závislosti, tj. může zajímat, zda existuje závislost mezi Porodní hmotností a novorozeneckou úmrtností, výši mzdy a velikostí IQ, pocitem deprese u dětí a školním prospěchem.

Metody analýzy jednostranné závislosti
Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X. Typ znaku Y (důsledek) kategoriální kvantitativní Typ znaku X (příčina) analýza závislosti v kontingenčních, resp. v asociačních tabulkách ANOVA logistická regrese regresní a korelační analýza

Analýza závislosti dvou kategoriálních proměnných

Analýza závislosti v kontingenčních tabulkách

místo/stupeň spokojenosti
Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte. místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40

V jakém formátu obvykle získáváme tento typ dat?
Místo Stupeň spokojenosti Praha velmi spokojen spíše spokojen Venkov spíše nespokojen ⋮ Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software. Standardní datový formát místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40 Kontingenční tabulka Vyzkoušejte si v MS Excel!

Základní terminologie
Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).

Co je to kontingenční tabulka?
𝑋\𝑌 𝑦 1 𝑦 2 ⋯ 𝑦 𝑠 Celkem 𝑥 1 𝑛 11 𝑛 12 𝑛 1𝑠 𝑛 1∙ 𝑥 2 𝑛 21 𝑛 22 𝑛 2𝑠 𝑛 2∙ ⋮ 𝑥 𝑟 𝑛 𝑟1 𝑛 𝑟2 𝑛 𝑟𝑠 𝑛 𝑟∙ 𝑛 ∙1 𝑛 ∙2 𝑛 ∙𝑠 𝒏 Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.

Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy?
Grafická analýza shlukový sloupcový graf, kumulativní sloupcový graf, prostorový sloupcový graf (angl. sky chart), mozaikový graf, 100% skládaný pruhový graf Míry kontingence koeficient kontingence (počet variant obou proměnných je stejný) korigovaný koeficient kontingence, Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.

Míry kontingence Označme:
𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Koeficient kontingence ( 𝑟=𝑠 ⇒𝐶𝐶∈ 0;1 ) 𝐶𝐶= 𝐾 𝐾+𝑛

𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Korigovaný koeficient kontingence 𝐶𝐶 𝑐𝑜𝑟 = 𝐶𝐶 𝐶𝐶 𝑚𝑎𝑥 , kde 𝐶𝐶 𝑚𝑎𝑥 = 𝑚𝑖𝑛 𝑟;𝑠 −1 𝑚𝑖𝑛 𝑟;𝑠

𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Cramerovo V 𝑉= 𝐾 𝑛 𝑚𝑖𝑛 𝑟;𝑠 −1

místo/stupeň spokojenosti
Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte. (viz analyza_zavislost.xlsx (list spokojenost_standard) místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40

Exploratorní analýza pomocí RkWardu
𝑟=4 , 𝑠=2⇒ min 𝑟,𝑠 =2; 𝑛=300 Cramerovo V: 𝑉= 𝐾 𝑛 𝑚𝑖𝑛 𝑟;𝑠 −1 = 26,27 300∙(2−1) ≅0,296 n Analysis/Crosstabs/N to N tabulation

Exploratorní analýza pomocí Excelu
Vložení/Grafy/Kontingenční graf a kontingenční tabulka Počet z Místo Popisky sloupců Popisky řádků Spíše nespokojen Spíše spokojen Velmi nespokojen Velmi spokojen Celkový součet Praha 25 50 10 15 100 Venkov 130 20 40 200 35 180 30 55 300 TAKHLE NE! Pozor na smysluplné seřazení variant proměnných!

Exploratorní analýza pomocí Excelu
Počet z Místo Popisky sloupců Popisky řádků Velmi nespokojen Spíše nespokojen Spíše spokojen Velmi spokojen Celkový součet Praha 10 25 50 15 100 Venkov 20 130 40 200 30 35 180 55 300

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin
Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) A to musím počítat intervalové odhady pro „všechny“ pravděpodobnosti, které jsou v té tabulce???

Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést…

𝜒 2 test nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé. HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: žádná z očekávaných četností 𝐸 𝑖𝑗 nesmí být menší než 2, alespoň 80% očekávaných četností 𝐸 𝑖𝑗 musí být větších než 5. Testové kritérium: 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 𝐸 𝑖𝑗 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=1− 𝐹 0 𝑥 𝑂𝐵𝑆 , kde 𝐹 0 𝑥 je distribuční funkce χ2 rozdělení s 𝑟−1 𝑠−1 stupni volnosti.

H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

A co když předpoklady splněny nebudou???
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. A co když předpoklady splněny nebudou???

H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné „smysluplně“ sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu ( 𝜒 2 test nezávislosti v kontingenční tabulce, 𝜒 2 =26,27, 𝐷𝐹=3, 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001). Lze předpokládat, že spokojenost v práci souvisí s umístěním závodu (𝐶𝑟𝑎𝑚𝑒𝑟𝑜𝑣𝑜 𝑉= 0,296).

Analýza závislosti v asociačních tabulkách

Schéma rozšířené asociační tabulky
speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) 𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑦 1 (úspěch) 𝑦 2 (neúspěch) Celkem 𝑥 1 (I.) 𝑎 𝑏 𝑎+𝑏 𝑥 2 (II.) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky

Schéma rozšířené asociační tabulky (biomedicínská aplikace)
speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Schéma rozšířené asociační tabulky
Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) za okolností I. je 𝑎 𝑏 , za okolností II. 𝑐 𝑑 . Odhad poměru šancí je pak 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑦 1 (úspěch) 𝑦 2 (neúspěch) Celkem 𝑥 1 (I.) 𝑎 𝑏 𝑎+𝑏 𝑥 2 (II.) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky

Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu nemocných k počtu „zdravých“ (tzv. pozorovaná šance) u exponované populace je 𝑎 𝑏 , u neexponované populace 𝑐 𝑑 . Odhad poměru šancí je pak 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 𝑏 = =0,134, což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. 𝑐 𝑑 = =0,006 Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností.

Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 𝑏 = =0,134. Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je 𝑐 𝑑 = =0,006 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 = 618∙ ∙422 = 0,134 0,006 ≅21,4 ⇒ šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.

Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 0𝑅<1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅=1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅>1 U exponované populace je vyšší šance výskytu nemoci. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . Je-li 𝑂𝑅≠1, potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: 100 1−𝛼 % intervalový odhad 𝑂𝑅 : 𝑂𝑅 ∙𝑒 − 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 1− 𝛼 2 ; 𝑂𝑅 ∙𝑒 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 1− 𝛼 2 . Jestliže 100 1−𝛼 % intervalový odhad 𝑂𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y. 0𝑅<1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅=1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅>1 U exponované populace je vyšší šance výskytu nemoci.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 = 618∙ ∙422 = 0,134 0,006 ≅21,4 ⇒ šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. 95% intervalový odhad 𝑂𝑅 je dán vztahem 𝑂𝑅∙ 𝑒 − 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 0,975 ; 𝑂𝑅 ∙𝑒 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 0, 𝑧 0,975 =1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑂𝑅 je 19,2;23,8 . Je zcela zřejmé, že šance novorozeneckého úmrtí závisí na porodní váze 1∉ 19,2;23,8 .

Míry asociace Absolutní riziko (angl. absolute risk“) výskytu události (onemocnění, úmrtí, …) v závislosti na okolnostech (přítomnosti sledovaného faktoru) odhad absolutního rizika onemocnění u exponovaných respondentů je 𝑎 𝑎+𝑏 , odhad absolutního rizika onemocnění u neexponovaných respondentů je 𝑐 𝑐+𝑑 . Absolutní rizika mohou nabývat hodnot z intervalu 0;1 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko (angl. relative risk“) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je 𝑎 𝑎+𝑏 = =0,119, tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), u dětí s normální porodní hmotností je absolutní riziko: 𝑐 𝑐+𝑑 = =0,006, tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.

Odhad relativního rizika novorozeneckého úmrtí
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je 𝑎 𝑎+𝑏 = =0,119, u dětí s normální porodní hmotností je absolutní riziko: 𝑐 𝑐+𝑑 = =0,006. Odhad relativního rizika novorozeneckého úmrtí 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 = 0,119 0,006 =19,0. Ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.

Míry asociace Relativní riziko (angl. relative risk“) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . 𝑅𝑅<1 Expozice snižuje riziko onemocnění. 𝑅𝑅=1 Mezi expozici a onemocněním neexistuje žádná asociace. 𝑅𝑅>1 Expozice zvyšuje riziko onemocnění. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko (angl. relative risk“)
poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . Je-li 𝑅𝑅≠1, musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: 100 1−𝛼 % intervalový odhad 𝑅𝑅: 𝑅𝑅 ∙ 𝑒 − 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 ; 𝑅𝑅 ∙ 𝑒 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 Jestliže 100 1−𝛼 % intervalový odhad 𝑅𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y. 𝑅𝑅<1 Expozice snižuje riziko onemocnění. 𝑅𝑅=1 Mezi expozici a onemocněním neexistuje žádná asociace. 𝑅𝑅>1 Expozice zvyšuje riziko onemocnění.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad relativního rizika novorozeneckého úmrtí 𝑅𝑅 =19,0 ⇒ ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. 95% intervalový odhad 𝑅𝑅 je dán vztahem 𝑅𝑅 ∙ 𝑒 − 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 ; 𝑅𝑅 ∙ 𝑒 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 𝑧 0,975 =1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑅𝑅 je 17,1;21,0 . Je zcela zřejmé, že riziko novorozeneckého úmrtí závisí na porodní váze 1∉ 17,1;21,0 .

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Analyzujte pomocí výpočetního appletu Asociační tabulka – analýza (xlsm).

Simpsonův paradox aneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin

stav pacienta při přijetí/úmrtnost
V Horních Sádrovicích bylo hospitalizováno 600 „lehkých“ pacientů, z nichž 10 (1,7%) zemřelo a 400 „těžkých“ pacientů, z nichž zemřelo 190 (47,5%). Ve Staré Dláze bylo hospitalizováno 900 „lehkých“ pacientů, z nichž 30 (3,2%) zemřelo a 100 „těžkých“ pacientů, z nichž zemřelo 100 (10,0%). Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000)

stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti

Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?

Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Ve kterém městě je nižší riziko úmrtí pacienta?
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

??? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem
lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) ???

Simpsonův paradox Horní Sádrovice stav pacienta při přijetí/úmrtnost
ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600) těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900) těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Simpsonův paradox

Simpsonův paradox Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího (skrytého). (Např. vztah mezi úmrtnosti pacientů a místem léčby (Horní Sádrovice vs. Stará Dláha), vezmeme-li v úvahu stav pacienta při přijetí do nemocnice.) Důvodem je silná závislost mezi jedním z dvou analyzovaných znaků a znakem skrytým.

Simpsonův paradox Zajímavé odkazy:
Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. Annals of Statistics, 17, Dong, J. (1998). Simpson's paradox. Pp in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons. Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49,

Analýza závislosti dvou numerických proměnných

Korelační koeficient Pearsonův koeficient korelace
vyjadřuje míru závislosti dvou znaků. lineární spojitých 𝑟 𝑋,𝑌 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2

Korelační koeficient Hodnota korelačního koeficientu se pohybuje od -1 do 1. Hodnoty ±1 nabývá tehdy, pokud všechny body [xi, yi] leží na přímce. Nule je roven v případě, že veličiny jsou lineárně nezávislé. Při měření lineární závislosti je znaménko korelačního koeficientu kladné, když obě veličiny X a Y zároveň rostou nebo obě zároveň klesají, a záporné, když jedna z veličin roste, zatímco druhá klesá. Při užití Pearsonova korelačního koeficientu je vždy třeba posoudit, zda je jeho aplikace vhodná.

Korelační koeficient

Korelační koeficient Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Typ lineární závislosti
Korelační koeficient V praxi se zpravidla hodnota koeficientu korelace interpretuje takto: Korelační koeficient Typ lineární závislosti 𝑟 =0,0 neexistující 𝑟 ∈ 0,0; 0,3 velmi slabá 𝑟 ∈ 0,3; 0,7 středně silná 𝑟 ∈ 0,7; 1,0 těsná 𝑟 =1,0 funkční Mezi proudem a napětím na odporu byl zjištěn korelační koeficient 0,6. Mezi školním prospěchem a pocitem deprese u dětí byl zjištěn korelační koeficient 0,6. Výsledky interpretujte!

Pearsonův korelační koeficient
Nechť 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 je výběr z dvourozměrného normálního rozdělení. Zjistíme-li, že výběrový korelační koeficient 𝑟≠0, zpravidla nás zajímá, zda je indikovaná korelace statisticky významná. Chceme testovat nulovou hypotézu H0: 𝜌=0 vůči alternativě HA: 𝜌≠0, resp. 𝜌<0, resp. 𝜌>0. Testová statistika: 𝑇= 𝑟 𝑛−2 1− 𝑟 2 má za předpokladu platnosti H0 Studentovo rozdělení s 𝑛−2 stupni volnosti. Poznámka: Jsou-li složky náhodného vektoru 𝑋;𝑌 s dvourozměrným normálním rozdělením nekorelované, jsou nezávislé. (POZOR! Obecně to neplatí.)

Spearmanův korelační koeficient
Mějme náhodný výběr 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 z dvourozměrného rozdělení. Nechť 𝑅 𝑋 1 , …, 𝑅 𝑋 𝑛 jsou pořadí veličin 𝑋 1 , …, 𝑋 𝑛 a nechť 𝑅 𝑌 1 , …, 𝑅 𝑌 𝑛 jsou pořadí veličin 𝑌 1 , …, 𝑌 𝑛 . 𝑟 𝑆 =1− 6 𝑛 𝑛 2 −1 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌 Pokud se v náhodných výběrech, z nichž je 𝑟 𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 . 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 =1− 6 𝑛 3 −𝑛− 𝑇 𝑋 − 𝑇 𝑌 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌

Mějme náhodný výběr 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 z dvourozměrného rozdělení. Nechť 𝑅 𝑋 1 , …, 𝑅 𝑋 𝑛 jsou pořadí veličin 𝑋 1 , …, 𝑋 𝑛 a nechť 𝑅 𝑌 1 , …, 𝑅 𝑌 𝑛 jsou pořadí veličin 𝑌 1 , …, 𝑌 𝑛 . Pokud se v náhodných výběrech, z nichž je 𝑟 𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 . 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 =1− 6 𝑛 3 −𝑛− 𝑇 𝑋 − 𝑇 𝑌 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌 , kde 𝑇 𝑋 = 𝑡 𝑋 3 − 𝑡 𝑋 , 𝑇 𝑌 = 𝑡 𝑌 3 − 𝑡 𝑌 , kde 𝑡 𝑋 jsou rozsahy skupin stejně velkých X-ových hodnot. Obdobně definujeme 𝑡 𝑌 .

Je-li hodnota Spearmanova korelačního koeficientu 𝑟 𝑆 blízká nule, chceme zpravidla testovat, zda je odchylka koeficientu 𝑟 𝑆 od nuly náhodná či statisticky významná. H0: X, Y jsou nezávislé náhodné veličiny. HA: X, Y jsou závislé náhodné veličiny. Testová statistika: 𝑟 𝑆 Nulovou hypotézu zamítáme pokud 𝑟 𝑆 ≥ 𝑟 𝑆 ∗ 𝛼 , kde 𝑟 𝑆 ∗ 𝛼 je kritická hodnota Spearmanova korelačního koeficientu. Pro rozsah výběru 𝑛≤30 a hladiny významnosti 0,05, resp. 0,01 jsou kritické hodnoty 𝑟 𝑆 ∗ 𝛼;𝑛 tabelovány (tabulka T16). Je-li rozsah výběru 𝑛>30, pak 𝑟 𝑆 ∗ 𝛼;𝑛 = 𝑧 1− 𝛼 𝑛−1 , kde 𝑧 1− 𝛼 2 je 1− 𝛼 2 kvantil normovaného normálního rozdělení.

Na základě datového souboru analyza_zavislosti
Na základě datového souboru analyza_zavislosti.xlsx (list biometrie) analyzujte míru závislosti mezi výškou a váhou respondentů. 1. Ověření normality proměnných Distributions/Distribution Analysis/Shapiro-Wilk Normality test 2. Volba typu korelačního koeficientu Spearmanův korelační koeficient (z důvodu zamítnutí předpokladu normality) 3. Výpočet korelačního koeficientu + Vykreslení bodového grafu (scatter plot) Analysis/Correlation/Correlation Matrix Plot

Na základě datového souboru analyza_zavislosti
Na základě datového souboru analyza_zavislosti.xlsx (list biometrie) analyzujte míru závislosti mezi výškou a váhou respondentů. 1. Ověření normality proměnných Distributions/Distribution Analysis/Shapiro-Wilk Normality test 2. Volba typu korelačního koeficientu Spearmanův korelační koeficient (z důvodu zamítnutí předpokladu normality) 3. Výpočet korelačního koeficientu + Vykreslení bodového grafu (scatter plot) Analysis/Correlation/Correlation Matrix Plot Pro posouzení korelace mezi váhou a výškou byl z důvodů porušení normality u proměnné váha (𝑆ℎ𝑎𝑝𝑖𝑟ů𝑣−𝑊𝑖𝑙𝑘ů𝑣 𝑡𝑒𝑠𝑡, 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎<0,001) použit korigovaný Spearmanův korelační koeficient. Pozorovanou hodnotu korelace (0,519) lze na hladině významnosti 0,05 označit za statisticky významnou (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎<0,001).

Literatura Litschmannová, M. (2012), Úvod do statistiky, elektronická skripta a doplňkové interaktivní materiály (kapitola Analýza závislosti) Zvárová, J. (1999), Základy statistiky pro biomedicínské obory, dostupné on-line: (kapitoly 10 a 11) Pavlík, T., Dušek, L. (2012), Biostatistika, Akademické nakladatelství CERM, ISBN (kapitoly 9 a 10)

Děkuji za pozornost!

Martina Litschmannová

Podobné prezentace

Prezentace na téma: "Martina Litschmannová"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Martina Litschmannová

Podobné prezentace

Prezentace na téma: "Martina Litschmannová"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář