Martina Litschmannová

Slides:



Advertisements
Podobné prezentace
Kuchařka na práci s mnohočleny Matematika pro ZŠ Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je David Salač. Dostupné z Metodického portálu.
Advertisements

Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pearsonova korelace Kolomogorovův-Smirnovův (Lilieforsův)
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
NÁZEV ŠKOLY: S0Š Net Office, spol. s r.o, Orlová Lutyně AUTOR: Ing. Oldřich Vavříček NÁZEV: Podpora výuky v technických oborech TEMA: Základy elektrotechniky.
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
Úvod do testování hypotéz
Analýza variance (ANOVA).
Testování hypotéz Testování hypotéz o rozdílu průměrů
Martina Litschmannová
Historická sociologie, Řízení a supervize
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Interpolace funkčních závislostí
7. Statistické testování
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
STATISTICKÉ METODY V GEOGRAFII
Testování hypotéz Testování hypotéz o rozdílu průměrů
2. cvičení
Výběrové metody (Výběrová šetření)
ADDS cviceni Pavlina Kuranova.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Vybraná rozdělení pravděpodobnosti
Oblast: Dobré životní podmínky zvířat
Párový neparametrický test
Základy statistické indukce
Statistické metody pro vysvětlující otázky
ASTAc/01,03 Biostatistika 6. cvičení
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Míry asociace obecná definice – síla a směr vztahu
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
Opakování Analýza kontingenčních tabulek Základy korelační analýzy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Opakování: Parametrické testy.
Test z Metodologie – náměty k přípravě
Spojité VELIČINY Vyšetřování normality dat
Rovnice základní pojmy.
Korelace a elaborace aneb úvod do vztahů proměnných
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
XII. Binomické rozložení
ASTAc/03 Biostatistika 4. cvičení
Základní statistické pojmy
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
Analýza variance (ANOVA).
Běžná pravděpodobnostní rozdělení
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Počty rozdaných, odevzdaných, vyřazených a použitých dotazníků
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Více náhodných veličin
… jak přesně počítat s nepřesnými čísly
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Martina Litschmannová Analýza závislosti Martina Litschmannová

Obsah lekce Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti dvou spojitých proměnných Pearsonův korelační koeficient, Spearmanův korelační koeficient

Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například porodní hmotnost, novorozenecká úmrtnost, výše mzdy, velikost IQ, hmotnost a výška mužů, školní prospěch a pocit deprese u dětí, apod. Možnosti vyhodnocení: Analýza jednotlivých znaků (každý zvlášť) Analýza závislosti, tj. může zajímat, zda existuje závislost mezi Porodní hmotností a novorozeneckou úmrtností, výši mzdy a velikostí IQ, pocitem deprese u dětí a školním prospěchem.

Metody analýzy jednostranné závislosti Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X.   Typ znaku Y (důsledek) kategoriální kvantitativní Typ znaku X (příčina) analýza závislosti v kontingenčních, resp. v asociačních tabulkách ANOVA logistická regrese regresní a korelační analýza

Analýza závislosti dvou kategoriálních proměnných

Analýza závislosti v kontingenčních tabulkách

místo/stupeň spokojenosti Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte. místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40

V jakém formátu obvykle získáváme tento typ dat? Místo Stupeň spokojenosti Praha velmi spokojen spíše spokojen Venkov spíše nespokojen ⋮ Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software. Standardní datový formát místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40 Kontingenční tabulka Vyzkoušejte si v MS Excel!

Základní terminologie Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).

Co je to kontingenční tabulka? 𝑋\𝑌 𝑦 1 𝑦 2 ⋯ 𝑦 𝑠 Celkem 𝑥 1 𝑛 11 𝑛 12 𝑛 1𝑠 𝑛 1∙ 𝑥 2 𝑛 21 𝑛 22 𝑛 2𝑠 𝑛 2∙ ⋮ 𝑥 𝑟 𝑛 𝑟1 𝑛 𝑟2 𝑛 𝑟𝑠 𝑛 𝑟∙ 𝑛 ∙1 𝑛 ∙2 𝑛 ∙𝑠 𝒏 Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.

Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy? Grafická analýza shlukový sloupcový graf, kumulativní sloupcový graf, prostorový sloupcový graf (angl. sky chart), mozaikový graf, 100% skládaný pruhový graf Míry kontingence koeficient kontingence (počet variant obou proměnných je stejný) korigovaný koeficient kontingence, Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.

Míry kontingence Označme: 𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 2 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Koeficient kontingence ( 𝑟=𝑠 ⇒𝐶𝐶∈ 0;1 ) 𝐶𝐶= 𝐾 𝐾+𝑛

Míry kontingence Označme: 𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 2 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Korigovaný koeficient kontingence 𝐶𝐶 𝑐𝑜𝑟 = 𝐶𝐶 𝐶𝐶 𝑚𝑎𝑥 , kde 𝐶𝐶 𝑚𝑎𝑥 = 𝑚𝑖𝑛 𝑟;𝑠 −1 𝑚𝑖𝑛 𝑟;𝑠

Míry kontingence Označme: 𝑟… počet variant proměnné X, 𝑠… počet variant proměnné Y, 𝑛 … celkový počet pozorování 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 2 𝐸 𝑖𝑗 , kde 𝑂 𝑖𝑗 jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a 𝐸 𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. poznámka: 𝐾 je pozorovanou hodnotou testové statistiky Chí-kvadrát testu nezávislosti – bude vysvětleno později. Cramerovo V 𝑉= 𝐾 𝑛 𝑚𝑖𝑛 𝑟;𝑠 −1

místo/stupeň spokojenosti Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte. (viz analyza_zavislost.xlsx (list spokojenost_standard) místo/stupeň spokojenosti velmi nespokojen spíše nespokojen spíše spokojen velmi spokojen Praha 10 25 50 15 Venkov 20 130 40

Exploratorní analýza pomocí RkWardu 𝑟=4 , 𝑠=2⇒ min 𝑟,𝑠 =2; 𝑛=300 Cramerovo V: 𝑉= 𝐾 𝑛 𝑚𝑖𝑛 𝑟;𝑠 −1 = 26,27 300∙(2−1) ≅0,296 n Analysis/Crosstabs/N to N tabulation

Exploratorní analýza pomocí Excelu Vložení/Grafy/Kontingenční graf a kontingenční tabulka Počet z Místo Popisky sloupců Popisky řádků Spíše nespokojen Spíše spokojen Velmi nespokojen Velmi spokojen Celkový součet Praha 25 50 10 15 100 Venkov 130 20 40 200 35 180 30 55 300 TAKHLE NE! Pozor na smysluplné seřazení variant proměnných!

Exploratorní analýza pomocí Excelu Počet z Místo Popisky sloupců Popisky řádků Velmi nespokojen Spíše nespokojen Spíše spokojen Velmi spokojen Celkový součet Praha 10 25 50 15 100 Venkov 20 130 40 200 30 35 180 55 300

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) A to musím počítat intervalové odhady pro „všechny“ pravděpodobnosti, které jsou v té tabulce???

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést…

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin 𝜒 2 test nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé. HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: žádná z očekávaných četností 𝐸 𝑖𝑗 nesmí být menší než 2, alespoň 80% očekávaných četností 𝐸 𝑖𝑗 musí být větších než 5. Testové kritérium: 𝐾= 𝑖=1 𝑟 𝑗=1 𝑠 𝑂 𝑖𝑗 − 𝐸 𝑖𝑗 2 𝐸 𝑖𝑗 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎=1− 𝐹 0 𝑥 𝑂𝐵𝑆 , kde 𝐹 0 𝑥 je distribuční funkce χ2 rozdělení s  𝑟−1 𝑠−1 stupni volnosti.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

A co když předpoklady splněny nebudou??? Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. A co když předpoklady splněny nebudou???

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné „smysluplně“ sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu ( 𝜒 2 test nezávislosti v kontingenční tabulce, 𝜒 2 =26,27, 𝐷𝐹=3, 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎≪0,001). Lze předpokládat, že spokojenost v práci souvisí s umístěním závodu (𝐶𝑟𝑎𝑚𝑒𝑟𝑜𝑣𝑜 𝑉= 0,296).

Analýza závislosti v asociačních tabulkách

Schéma rozšířené asociační tabulky speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) 𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑦 1 (úspěch) 𝑦 2 (neúspěch) Celkem 𝑥 1 (I.) 𝑎 𝑏 𝑎+𝑏 𝑥 2 (II.) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky

Schéma rozšířené asociační tabulky (biomedicínská aplikace) speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Schéma rozšířené asociační tabulky Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) za okolností I. je 𝑎 𝑏 , za okolností II. 𝑐 𝑑 . Odhad poměru šancí je pak 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑦 1 (úspěch) 𝑦 2 (neúspěch) Celkem 𝑥 1 (I.) 𝑎 𝑏 𝑎+𝑏 𝑥 2 (II.) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu nemocných k počtu „zdravých“ (tzv. pozorovaná šance) u exponované populace je 𝑎 𝑏 , u neexponované populace 𝑐 𝑑 . Odhad poměru šancí je pak 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 𝑏 = 618 4 597 =0,134,   což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. 𝑐 𝑑 = 422 67 093 =0,006 Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností.

Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 𝑏 = 618 4 597 =0,134.   Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je 𝑐 𝑑 = 422 67 093 =0,006 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 = 618∙67 093 4 597∙422 = 0,134 0,006 ≅21,4 ⇒ šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . 0𝑅<1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅=1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅>1 U exponované populace je vyšší šance výskytu nemoci. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 . Je-li 𝑂𝑅≠1, potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: 100 1−𝛼 % intervalový odhad 𝑂𝑅 : 𝑂𝑅 ∙𝑒 − 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 1− 𝛼 2 ; 𝑂𝑅 ∙𝑒 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 1− 𝛼 2 . Jestliže 100 1−𝛼 % intervalový odhad 𝑂𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y. 0𝑅<1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅=1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅>1 U exponované populace je vyšší šance výskytu nemoci.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 𝑂𝑅 = 𝑎𝑑 𝑏𝑐 = 618∙67 093 4 597∙422 = 0,134 0,006 ≅21,4 ⇒ šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. 95% intervalový odhad 𝑂𝑅 je dán vztahem 𝑂𝑅∙ 𝑒 − 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 0,975 ; 𝑂𝑅 ∙𝑒 1 𝑎 + 1 𝑏 + 1 𝑐 + 1 𝑑 ∙𝑧 0,975 .   𝑧 0,975 =1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑂𝑅 je 19,2;23,8 . Je zcela zřejmé, že šance novorozeneckého úmrtí závisí na porodní váze 1∉ 19,2;23,8 .

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Míry asociace Absolutní riziko (angl. absolute risk“) výskytu události (onemocnění, úmrtí, …) v závislosti na okolnostech (přítomnosti sledovaného faktoru) odhad absolutního rizika onemocnění u exponovaných respondentů je 𝑎 𝑎+𝑏 , odhad absolutního rizika onemocnění u neexponovaných respondentů je 𝑐 𝑐+𝑑 .   Absolutní rizika mohou nabývat hodnot z intervalu 0;1 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Míry asociace Relativní riziko (angl. relative risk“) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je 𝑎 𝑎+𝑏 = 618 5 215 =0,119, tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), u dětí s normální porodní hmotností je absolutní riziko: 𝑐 𝑐+𝑑 = 422 67 515 =0,006, tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.

Odhad relativního rizika novorozeneckého úmrtí Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je 𝑎 𝑎+𝑏 = 618 5 215 =0,119, u dětí s normální porodní hmotností je absolutní riziko: 𝑐 𝑐+𝑑 = 422 67 515 =0,006. Odhad relativního rizika novorozeneckého úmrtí   𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 = 0,119 0,006 =19,0. Ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.

Schéma rozšířené asociační tabulky (biomedicínská aplikace) Míry asociace Relativní riziko (angl. relative risk“) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . 𝑅𝑅<1 Expozice snižuje riziko onemocnění. 𝑅𝑅=1 Mezi expozici a onemocněním neexistuje žádná asociace. 𝑅𝑅>1 Expozice zvyšuje riziko onemocnění. 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐷 (ANO) 𝐷 (NE) Celkem 𝐸 (přítomnost faktoru) 𝑎 𝑏 𝑎+𝑏 𝐸 (nepřítomnost faktoru) 𝑐 𝑑 𝑐+𝑑 𝑎+𝑐 𝑏+𝑑 𝒏 Schéma rozšířené asociační tabulky (biomedicínská aplikace)

Míry asociace Relativní riziko (angl. relative risk“) poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑎 𝑐+𝑑 𝑐 𝑎+𝑏 . Je-li 𝑅𝑅≠1, musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: 100 1−𝛼 % intervalový odhad 𝑅𝑅: 𝑅𝑅 ∙ 𝑒 − 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 ; 𝑅𝑅 ∙ 𝑒 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 . Jestliže 100 1−𝛼 % intervalový odhad 𝑅𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y. 𝑅𝑅<1 Expozice snižuje riziko onemocnění. 𝑅𝑅=1 Mezi expozici a onemocněním neexistuje žádná asociace. 𝑅𝑅>1 Expozice zvyšuje riziko onemocnění.

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Odhad relativního rizika novorozeneckého úmrtí 𝑅𝑅 =19,0 ⇒ ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. 95% intervalový odhad 𝑅𝑅 je dán vztahem 𝑅𝑅 ∙ 𝑒 − 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 ; 𝑅𝑅 ∙ 𝑒 𝑏 𝑎 𝑎+𝑏 + 𝑑 𝑐 𝑐+𝑑 ∙𝑧 1− 𝛼 2 .   𝑧 0,975 =1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑅𝑅 je 17,1;21,0 . Je zcela zřejmé, že riziko novorozeneckého úmrtí závisí na porodní váze 1∉ 17,1;21,0 .

Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí ANO NE Celkem nízká 618 4 597 5 215 normální 422 67 093 67 515 1 040 71 690 72 730 Analyzujte pomocí výpočetního appletu Asociační tabulka – analýza (xlsm).

Simpsonův paradox aneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin

stav pacienta při přijetí/úmrtnost V Horních Sádrovicích bylo hospitalizováno 600 „lehkých“ pacientů, z nichž 10 (1,7%) zemřelo a 400 „těžkých“ pacientů, z nichž zemřelo 190 (47,5%). Ve Staré Dláze bylo hospitalizováno 900 „lehkých“ pacientů, z nichž 30 (3,2%) zemřelo a 100 „těžkých“ pacientů, z nichž zemřelo 100 (10,0%). Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000)

stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti

Ve kterém městě je u lehkých pacientů nižší riziko úmrtí? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Ve kterém městě je u lehkých pacientů nižší riziko úmrtí? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Ve kterém městě je u těžkých pacientů nižší riziko úmrtí? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?

Ve kterém městě je u lehkých pacientů nižší riziko úmrtí? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

Ve kterém městě je nižší riziko úmrtí pacienta? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

Ve kterém městě je nižší riziko úmrtí pacienta? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Ve kterém městě je nižší riziko úmrtí pacienta?

??? Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) ???

Simpsonův paradox Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 10 590 600 0,017 (10/600) 0,983 (590/600)   těžký 190 210 400 0,475 (190/400) 0,525 (210/400) 200 800 1 000 0,200 (200/1000) 0,800 (800/1000) Stará Dláha stav pacienta při přijetí/úmrtnost ANO NE celkem lehký 30 870 900 0,033 (30/900) 0,967 (870/900)   těžký 70 100 0, 700 (70/100) 0,300 (30/100) 1 000 0, 100 (100/1000) 0,900 (900/1000) Simpsonův paradox

Simpsonův paradox Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího (skrytého). (Např. vztah mezi úmrtnosti pacientů a místem léčby (Horní Sádrovice vs. Stará Dláha), vezmeme-li v úvahu stav pacienta při přijetí do nemocnice.) Důvodem je silná závislost mezi jedním z dvou analyzovaných znaků a znakem skrytým.

Simpsonův paradox Zajímavé odkazy: http://koroptew.blogspot.com/2010/11/zlocin-statistika.html Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7. Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, 364-366. Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. Annals of Statistics, 17, 1693-1708. Dong, J. (1998). Simpson's paradox. Pp. 4108-4110 in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons. Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, 226-233. Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, 81-88. Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241. Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, 46-48. Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49, 24-28.

Analýza závislosti dvou numerických proměnných

Korelační koeficient Pearsonův koeficient korelace vyjadřuje míru závislosti dvou znaků. lineární spojitých 𝑟 𝑋,𝑌 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2

Korelační koeficient Hodnota korelačního koeficientu se pohybuje od -1 do 1. Hodnoty ±1 nabývá tehdy, pokud všechny body [xi, yi] leží na přímce. Nule je roven v případě, že veličiny jsou lineárně nezávislé. Při měření lineární závislosti je znaménko korelačního koeficientu kladné, když obě veličiny X a Y zároveň rostou nebo obě zároveň klesají, a záporné, když jedna z veličin roste, zatímco druhá klesá. Při užití Pearsonova korelačního koeficientu je vždy třeba posoudit, zda je jeho aplikace vhodná.

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient

Korelační koeficient Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Korelační koeficient Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout. Silná korelace

Typ lineární závislosti Korelační koeficient V praxi se zpravidla hodnota koeficientu korelace interpretuje takto: Korelační koeficient Typ lineární závislosti 𝑟 =0,0 neexistující 𝑟 ∈ 0,0; 0,3 velmi slabá 𝑟 ∈ 0,3; 0,7 středně silná 𝑟 ∈ 0,7; 1,0 těsná 𝑟 =1,0 funkční Mezi proudem a napětím na odporu byl zjištěn korelační koeficient 0,6. Mezi školním prospěchem a pocitem deprese u dětí byl zjištěn korelační koeficient 0,6. Výsledky interpretujte!

Pearsonův korelační koeficient Nechť 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 je výběr z dvourozměrného normálního rozdělení. Zjistíme-li, že výběrový korelační koeficient 𝑟≠0, zpravidla nás zajímá, zda je indikovaná korelace statisticky významná. Chceme testovat nulovou hypotézu   H0: 𝜌=0 vůči alternativě HA: 𝜌≠0, resp. 𝜌<0, resp. 𝜌>0. Testová statistika: 𝑇= 𝑟 𝑛−2 1− 𝑟 2 má za předpokladu platnosti H0 Studentovo rozdělení s 𝑛−2 stupni volnosti. Poznámka: Jsou-li složky náhodného vektoru 𝑋;𝑌 s dvourozměrným normálním rozdělením nekorelované, jsou nezávislé. (POZOR! Obecně to neplatí.)

Spearmanův korelační koeficient Mějme náhodný výběr 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 z dvourozměrného rozdělení. Nechť 𝑅 𝑋 1 , …, 𝑅 𝑋 𝑛 jsou pořadí veličin 𝑋 1 , …, 𝑋 𝑛 a nechť 𝑅 𝑌 1 , …, 𝑅 𝑌 𝑛 jsou pořadí veličin 𝑌 1 , …, 𝑌 𝑛 . 𝑟 𝑆 =1− 6 𝑛 𝑛 2 −1 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌 1 2 Pokud se v náhodných výběrech, z nichž je 𝑟 𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 . 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 =1− 6 𝑛 3 −𝑛− 𝑇 𝑋 − 𝑇 𝑌 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌 1 2

Spearmanův korelační koeficient Mějme náhodný výběr 𝑋 1 ; 𝑌 1 , …, 𝑋 𝑛 ; 𝑌 𝑛 z dvourozměrného rozdělení. Nechť 𝑅 𝑋 1 , …, 𝑅 𝑋 𝑛 jsou pořadí veličin 𝑋 1 , …, 𝑋 𝑛 a nechť 𝑅 𝑌 1 , …, 𝑅 𝑌 𝑛 jsou pořadí veličin 𝑌 1 , …, 𝑌 𝑛 . Pokud se v náhodných výběrech, z nichž je 𝑟 𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 . 𝑟 𝑆 𝑘𝑜𝑟𝑖𝑔 =1− 6 𝑛 3 −𝑛− 𝑇 𝑋 − 𝑇 𝑌 𝑖=1 𝑛 𝑅 𝑋 1 − 𝑅 𝑌 1 2 , kde 𝑇 𝑋 = 1 2 𝑡 𝑋 3 − 𝑡 𝑋 , 𝑇 𝑌 = 1 2 𝑡 𝑌 3 − 𝑡 𝑌 , kde 𝑡 𝑋 jsou rozsahy skupin stejně velkých X-ových hodnot. Obdobně definujeme 𝑡 𝑌 .

Spearmanův korelační koeficient Je-li hodnota Spearmanova korelačního koeficientu 𝑟 𝑆 blízká nule, chceme zpravidla testovat, zda je odchylka koeficientu 𝑟 𝑆 od nuly náhodná či statisticky významná. H0: X, Y jsou nezávislé náhodné veličiny. HA: X, Y jsou závislé náhodné veličiny. Testová statistika: 𝑟 𝑆 Nulovou hypotézu zamítáme pokud 𝑟 𝑆 ≥ 𝑟 𝑆 ∗ 𝛼 , kde 𝑟 𝑆 ∗ 𝛼 je kritická hodnota Spearmanova korelačního koeficientu. Pro rozsah výběru 𝑛≤30 a hladiny významnosti 0,05, resp. 0,01 jsou kritické hodnoty 𝑟 𝑆 ∗ 𝛼;𝑛 tabelovány (tabulka T16). Je-li rozsah výběru 𝑛>30, pak   𝑟 𝑆 ∗ 𝛼;𝑛 = 𝑧 1− 𝛼 2 𝑛−1 ,  kde 𝑧 1− 𝛼 2 je 1− 𝛼 2 kvantil normovaného normálního rozdělení.

Na základě datového souboru analyza_zavislosti Na základě datového souboru analyza_zavislosti.xlsx (list biometrie) analyzujte míru závislosti mezi výškou a váhou respondentů. 1. Ověření normality proměnných Distributions/Distribution Analysis/Shapiro-Wilk Normality test 2. Volba typu korelačního koeficientu Spearmanův korelační koeficient (z důvodu zamítnutí předpokladu normality) 3. Výpočet korelačního koeficientu + Vykreslení bodového grafu (scatter plot) Analysis/Correlation/Correlation Matrix Plot

Na základě datového souboru analyza_zavislosti Na základě datového souboru analyza_zavislosti.xlsx (list biometrie) analyzujte míru závislosti mezi výškou a váhou respondentů. 1. Ověření normality proměnných Distributions/Distribution Analysis/Shapiro-Wilk Normality test 2. Volba typu korelačního koeficientu Spearmanův korelační koeficient (z důvodu zamítnutí předpokladu normality) 3. Výpočet korelačního koeficientu + Vykreslení bodového grafu (scatter plot) Analysis/Correlation/Correlation Matrix Plot Pro posouzení korelace mezi váhou a výškou byl z důvodů porušení normality u proměnné váha (𝑆ℎ𝑎𝑝𝑖𝑟ů𝑣−𝑊𝑖𝑙𝑘ů𝑣 𝑡𝑒𝑠𝑡, 𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎<0,001) použit korigovaný Spearmanův korelační koeficient. Pozorovanou hodnotu korelace (0,519) lze na hladině významnosti 0,05 označit za statisticky významnou (𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎<0,001).

Literatura Litschmannová, M. (2012), Úvod do statistiky, elektronická skripta a doplňkové interaktivní materiály (kapitola Analýza závislosti) Zvárová, J. (1999), Základy statistiky pro biomedicínské obory, dostupné on-line: http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html (kapitoly 10 a 11) Pavlík, T., Dušek, L. (2012), Biostatistika, Akademické nakladatelství CERM, ISBN 978- 80-7204-782-6 (kapitoly 9 a 10)

Děkuji za pozornost!