Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Statistická indukce Teorie odhadu.
kvantitativních znaků
Testování neparametrických hypotéz
Testování statistických hypotéz
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Tloušťková struktura porostu
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
kvantitativních znaků
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Statistika Zkoumání závislostí
Charakteristiky variability
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Biostatistika 6. přednáška
Lineární regrese kalibrační přímky
Biostatistika 7. přednáška
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Pohled z ptačí perspektivy
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Aplikovaná statistika 2. Veronika Svobodová
Zpracování dat z kvantitativního výzkumu. Na základní škole se uskutečnil výzkum, kde se měřila hmotnost žáků 8.tříd. Výzkumu se účastnilo 33 žáků. Byly.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Základy zpracování geologických dat R. Čopjaková.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Dvojrozměrné (vícerozměrné) statistické soubory Karel Mach.
Odhady odhady bodové a intervalové odhady
… jsou bohatší lidé šťastnější?
Metody zkoumání závislosti numerických proměnných
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
- váhy jednotlivých studií
Homogenita meteorologických pozorování
Odhady parametrů základního souboru
INDUKTIVNÍ STATISTIKA
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Homogenita meteorologických pozorování
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Úvod do induktivní statistiky
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Vzájemná závislost - KORELACE
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro: - kvantitativní znaky - kvalitativní znaky → závislost funkční x statistická

Příklad (1) Posuďte vztah mezi obsahem kyseliny mléčné v krvi matky a novorozence těsně po porodu (mg/100ml). matka novorozenec x y 39,0 31,8 46,5 34,5 41,1 33,7 43,0 43,0 33,5 21,0 11,2x 9,0x 40,2 32,6 50,9 32,0 66,5x 48,7 54,7 48,2 66,4 62,4 64,7 64,7x 56,8 56,8 40,9 40,9

Příklad (2) Sestrojte bodový graf. mx = 46,81 mz = 39,95 sx = 14,40 sz = 14,94 ∑(xi-mx)(yi-my) = 2 742,49

Bodový graf Závislost mezi obsahem kyseliny mléčné u novorozence a matky těsně po porodu.

Bodový graf Typ závislosti (funkce) Směr (přímá, nepřímá) Těsnost (rozptyl bodů)

Lineární závislost → měří se korelačním koeficientem ρ (parametr); je to nejlepší míra těsnosti. Vlastnosti: -1≤ ρ ≤ 1 ρ = 0 → veličiny jsou nezávislé ρ = ±1 → funkční závislost (přímá, nepřímá) ρ je kladné v případě přímé statistické závislosti ρ je záporné v případě nepřímé stat.závislosti

Nelineární závislost Pro hodnocení nelineární závislosti používáme: a) Transformace – příklady y = 1/x místo závislosti veličin x a y se studuje lineární závislost veličiny x a z = 1/ y y = ax → log y = log a + b log x místo nelineární závislosti x a y se studuje lineární závislost veličin log x a log y b) Pořadový korelační koeficient (Spearmanův, Kendallův) b

Korelační koeficient (1) Ve výběru se počítá tzv. výběrový korelační koeficient r, který je nejlepším odhadem neznámého korelačního koeficientu ρ Mějme n dvojic dat (xi , yi) i = 1, 2, … n, pak kde mx, sx → průměr a směrodatná odchylka veličiny X my, sy → průměr a směrodatná odchylka veličiny Y

Korelační koeficient (2) ! r je výběrová charakteristika, která má povahu náhodné veličiny → mění výběr od výběru → je zatížen náhodnou chybou SE, která je dána vztahem Pro velké výběry (n > 50) má r normální rozdělení, jeho vlastnosti můžeme využít pro hodnocení závislosti.

Hodnocení významnosti r H0 ≡ ρ = 0 → veličiny jsou nezávislé HA ≡ ρ ≠ 0 → veličiny jsou závislé Za platnosti H0 chyba u-test (pro n > 50)!!! 4) → kritické hodnoty: 1,96; 2,58 Pro malá n kritické hodnoty (viz skripta str. 28)

Příklad 1: Zhodnoťte závislost obsahu kyseliny mléčné v krvi novorozence a matky těsně po porodu (viz naměřené hodnoty v úvodu).

Příklad 2: Zhodnoťte závislost kojenecké úmrtnosti a podílu živě narozených dětí s porodní hmotností do 2 500g: a) ve 14 okresech Jmk (r = 0,429) b) ve 76 okresech ČR (r = 0,471)

Příklad 3 V souboru 225 jednoletých brněnských chlapců byl sledován vztah mezi tělesnou délkou a hmotností. Výpočtem jsme zjistili r = 0,648. Zhodnoťte závislost pomocí u-testu i pomocí intervalu spolehlivosti.

Interpretace korelačního koeficientu 100 . r ² udává procento variability náhodné veličiny Y, která připadá na vrub lineární závislosti veličiny Y na veličině X. Příklad: Jestliže těsnost vztahu mezi hmotností a tělesnou délkou jednoletých chlapců vyjadřuje korelační koeficient r = 0,648, pak 42% celkové variability hmotnosti jednoletých chlapců připadá na vrub závislosti na délce. Znamená to, že variabilita vah jednoletých chlapců určité délky by byla o 42% nižší než variabilita celková (pro chlapce všech délek).

Regresní analýza Pokud je závislost těsná ( r – hodně velké), je vhodné vyjádřit ji pomocí tzv. regresní přímky ve tvaru y = a + bx Regresní koeficienty: b = r (sy/sx) → sklon přímky a = my – b mx → úsek na ose y

Regresní analýza – viz příklad v úvodu Vypočítejte regresní koeficienty a sestavte regresní funkci pro závislost mezi obsahem kyseliny mléčné u novorozence a matky těsně po porodu.

Regresní analýza - příklad V souboru 76 okresů ČR byla zjištěna závislost mezi podílem dětí s nízkou porodní hmotností (X) a kojeneckou úmrtností (Y), kterou lze vyjádřit rovnicí: y = 4,139 + 0,942x. Vypočítejte, jaká by byla kojenecká úmrtnost v okrese, kde na 100 živě narozených připadá 7 dětí s nízkou porodní hmotností.

Nelineární závislost (1) Spearmanův koeficient pořadové korelace Nejprve seřadíme všechny hodnoty veličiny X dle velikosti a označíme je pořadovými čísly. Pak seřadíme všechny hodnoty veličiny Y dle velikosti a označíme je pořadovými čísly. Pro každou dvojici hodnot x, y stanovíme jejich rozdíl d Spearmanův koeficient pořadové korelace vypočítáme ze vztahu:

Nelineární závislost (2) rs nabývá hodnot od -1 do 1, opět platí, že když: rs = 0 → nezávislost rs = 1 → přímou funkční závislost rs = -1 → nepřímou funkční závislost Hodnocení rs: Čím více se hodnota blíží + 1, tím větší je těsnost vztahu

Nelineární závislost (3) TEST VÝZNAMNOSTI Absolutní hodnota rs se porovná s kritickými hodnotami Spearmanova koeficientu pořadové korelace: │rs │ ≥ k.h. → zamítáme H0 │rs │ < k.h. → nezamítáme H0

List 1 - okresy di = rozdíl pořadí

Postup při hodnocení závislosti kvantitativních veličin Udělat bodový graf, tím získáme rozumnou vizuální představu o typu závislosti. Pro určení síly lineární závislosti je vhodný Pearsonův korelační koeficient r (-1; +1). Kladné hodnoty svědčí pro přímou závislost , záporné pro nepřímou. Zhodnotit významnost korelačního koeficientu. Sílu závislosti posoudit podle velikosti r. Korelace neznamená příčinnost. Nerozhoduje, která veličina je závislá, která nezávislá. Nemůže-li se empirickými body proložit přímka, je třeba použít: - transformace - pořadový Spearmanův korelační koeficient

Hodnocení závislosti kvalitativních znaků východiskem je kontingenční tabulka je založeno na srovnání empirických a teoretických četností empirická četnost – rozdělení lidí podle pohlaví a alergie, jak bylo skutečně zjištěno ve výběrovém souboru teoretická četnost – jaké by bylo rozdělení lidí ve výběrovém souboru podle pohlaví a alergie, kdyby šlo o jevy nezávislé ALERGIE+ ALERGIE- CELKEM MUŽI 21 84 105 ŽENY 19 176 195 40 260 300

Hodnocení závislosti kvalitativních znaků 1. Stanovení hypotéz H0 – mezi empirickými a teoretickými četnostmi není statisticky významný rozdíl, zjištěné rozdíly nejsou natolik velké, aby nemohly být způsobeny náhodou: HA - mezi empirickými a teoretickými četnostmi je statisticky významný rozdíl, zjištěné rozdíly jsou natolik velké, že nemohou být způsobeny náhodou: 2. Hladina významnosti α = 5% nebo α = 1% 3. Výběr testu - chí-kvadrát test (χ²)

Hodnocení závislosti kvalitativních znaků 4. Podmínky pro použití testu Všechny teoretické četnosti musí být větší než 5. 5. Výpočet testovací charakteristiky chí-kvadrát 1. Pro každé políčko vypočítáme teoretickou četnost 2. Pro každé políčko vypočítáme rozdíl mezi empirickou (E) a teoretickou četností (T) podle vzorečku: 3. Součet vypočítaných rozdílů je hodnota chí-kvadrátu:

Hodnocení závislosti kvalitativních znaků 6. Srovnání s kritickými hodnotami Chí-kvadrát srovnáme s příslušnými kritickými hodnotami chí-kvadrát rozdělení: - Kritické hodnoty určujeme z tabulek podle zvolené hladiny významnosti a tzv. stupňů volnosti. 7. Zamítáme nebo nezamítáme nulovou hypotézu 8. Interpretace výsledků

Příklad (1): Pro čtyřpolní tabulku (typu 2x2) můžeme veličinu chí 2 počítat jednodušeji → postup viz následující příklad Tabulka: Vztah mezi způsobem výživy a výskytem novorozeneckého ikteru u 210 novorozenců

Příklad (2): způsob výživy výskyt + ikteru - součet A1 61 49 110 A2 85 15 100 146 64 210

Kritické hodnoty