10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.

Slides:



Advertisements
Podobné prezentace
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Advertisements

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pearsonova korelace Kolomogorovův-Smirnovův (Lilieforsův)
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Význam diferenciálních rovnic převzato od Doc. Rapanta.
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Definice: Funkce f na množině D(f)  R je předpis, který každému číslu z množiny D(f) přiřazuje právě jedno reálné číslo. Jinak: Nechť A, B jsou neprázdné.
Induktivní statistika
Korelace 20. prosince 2013 VY_42_INOVACE_190227
Analýza variance (ANOVA).
INDUKTIVNÍ STATISTIKA
Testování hypotéz Testování hypotéz o rozdílu průměrů
KVADRATICKÉ NEROVNICE
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
OCEŇOVÁNÍ CENNÝCH PAPÍRŮ Přednáška č. 2
Interpolace funkčních závislostí
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
Řešení nerovnic Lineární nerovnice
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Testování hypotéz Testování hypotéz o rozdílu průměrů
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
GENETIKA POPULACÍ KVANTITATIVNÍCH ZNAKŮ 8
Regrese – jednoduchá regrese
Funkce Funkce (píšeme f (x) ) je každé zobrazení množiny A do množiny R, kde A je libovolná podmnožina množiny R. Zobrazované množině A říkáme definiční.
Párový neparametrický test
Základy statistické indukce
2.2 Kvadratické rovnice.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Míry asociace obecná definice – síla a směr vztahu
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Řešení nerovnic Lineární nerovnice
Test z Metodologie – náměty k přípravě
Spojité VELIČINY Vyšetřování normality dat
PSY252 Statistická analýza dat v psychologii II
Rovnice základní pojmy.
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
Rovnice s absolutními hodnotami
XII. Binomické rozložení
STATISTIKA PRO EKONOMY (kombinovaná forma)
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Lineární regrese.
Lomené výrazy (2) Podmínky řešitelnost
Analýza variance (ANOVA).
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Rovnice s neznámou ve jmenovateli
Teorie chyb a vyrovnávací počet 1
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Více náhodných veličin
… jak přesně počítat s nepřesnými čísly
Grafy kvadratických funkcí
MATEMATIKA Lineární rovnice s neznámou ve jmenovateli.
Teorie chyb a vyrovnávací počet 2
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ

HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY -Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ VELIČINY -Východiskem pro korelační a regresní analýzu je bodový graf. K měření stupně (síly) závislosti se používají různé míry (ukazatele) závislosti. – Jejich použití je vázáno na splnění určitých podmínek.

Okresy JmKPočet dětí s nízkou por. hmotností (do 2500g) na 100 ŽN (nezávis. prom. X) KÚ (závis. prom. Y) Blansko4,107,70 Brno – město6,209,69 Brno – venkov5,009,33 Břeclav4,406,40 Hodonín4,207,77 Jihlava4,608,98 Kroměříž5,306,27 Prostějov5,5011,22 Třebíč4,806,88 Uherské Hradiště4,708,92 Vyškov5,209,09 Zlín5,107,92 Znojmo5,707,64 Žďár nad Sázavou4,606,39

BODOVÝ GRAF Body jsou dány dvojicí hodnot pro každou statistickou jednotku –Osa x: nezávisle proměnná –Osa y: závisle proměnná Zakreslenými body prokládáme čáru (přímku, křivku) Typ závislosti (funkce) Směr závislosti (přímá, nepřímá) Těsnost závislosti (rozptyl bodů)

BODOVÝ GRAF y x y x y x y x y x y x y x y x y x

HODNOCENÍ ZÁVISLOSTI KVANTITATIVNÍCH VELIČIN LINEÁRNÍ ZÁVISLOST Nejužívanější mírou korelace je PEARSONŮV KORELAČNÍ KOEFICIENT NELINEÁRNÍ ZÁVISLOST Např. SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE

Bodový graf

LINEÁRNÍ ZÁVISLOST Nejužívanější mírou korelace je PEARSONŮV KORELAČNÍ KOEFICIENT Označuje se r … pro výběrový soubor (výběrová charakteristika) ρ… pro základní soubor (parametr) Podmínka pro použití: -lineární závislost (odhadujeme z bodového grafu) -dvojrozměrné normální rozdělení

LINEÁRNÍ ZÁVISLOST r(ρ) nabývá hodnot od - 1 do 1 Z tohoto intervalu mají hodnoty -1, 0 a 1 zvláštní význam: r(ρ) = -1funkční nepřímá závislost r(ρ) = 0neexistuje lineární závislost r(ρ) = 1 přímá funkční závislost Hodnocení r: Čím více se hodnota r(ρ) blíží ± 1, tím je větší těsnost vztahu. Pearsonův koeficient korelace je nejlepší mírou korelace, proto tam, kde je to možné, transformujeme nelineární vztah na lineární.

LINEÁRNÍ ZÁVISLOST Z údajů o výběrovém souboru vypočítáme VÝBĚROVÝ KORELAČNÍ KOEFICIENT r. r je výběrová charakteristika a proto je zatížena náhodnou chybou SE: r je nejlepším bodovým odhadem neznámého parametru ρ Pozor při intervalovém odhadu – pokud ρ ≠ 0 nemá r normální rozdělení, je třeba provést logaritmickou transformaci

TEST HYPOTÉZY O NULOVÉM KORELAČNÍM KOEFICIENTU Jde o zjištění statistické významnosti r H 0 - veličiny jsou nezávislé, tj. r(ρ) = 0 H A - veličiny jsou závislé, tj. r(ρ) ≠ 0 Statistická hypotéza zjišťuje, zda se r významně liší od nuly – k tomu lze využít: a) pro n ≤ 50: kritické hodnoty Pearsonova r Absolutní hodnota r se porovná s kritickými hodnotami Pearsonova korelačního koeficientu: - je-li, pak nezamítáme H 0 - je-li, pak zamítáme H 0 b) pro n > 50: u-test

TEST HYPOTÉZY O NULOVÉM KORELAČNÍM KOEFICIENTU Příklad: Zhodnoťte významnost korelace mezi podílem dětí s nízkou porodní hmotností a kojeneckou úmrtností a) v souboru 14 okresů, když r = 0,429 a b) v souboru 72 okresů ČR, když r = 0,471. a)Kritické hodnoty Pearsonova korelačního koeficientu b)u-test,, kritické hodnoty normálního rozdělení

KOEFICIENT DETERMINACE V případě stat. významné závislosti můžeme počítat tzv. KOEFICIENT DETERMINACE: r 2 Nabývá hodnot od 0 do 1; vyjádříme-li ho v %, udává, kolik % variability závislé veličiny Y lze vysvětlit změnami v nezávislé veličině X. Vypočítejte, z kolika % jsou rozdíly v KÚ mezi okresy ČR způsobeny rozdíly v podílu dětí s nízkou por. hmotností.

REGRESNÍ ANALÝZA Zjistíme-li statisticky významnou lineární závislost, je někdy užitečné vyjádřit ji pomocí regresní přímky ve tvaru: y = a + bx yhodnota závislé veličiny xhodnota nezávislé veličiny aregresní koeficient, udává posun po ose y bregresní koeficient, úhel přímky s osou x Přímka se používá k PREDIKCI jedné veličiny pomocí druhé, tzn. zjišťujeme jaká bude hodnota y, pro určenou hodnotu x.

REGRESNÍ ANALÝZA Příklad: V souboru 76 okresů ČR byla zjištěna závislost mezi podílem dětí s nízkou porodní hmotností (X) a kojeneckou úmrtností (Y), kterou lze vyjádřit rovnicí: y = 4, ,942x. Vypočítejte, jaká by byla kojenecká úmrtnost v okrese, kde na 100 živě narozených připadá 7 dětí s nízkou porodní hmotností. Rovnice regresní přímky vypočítaná z dat o výběrovém souboru se chová jako náhodná veličina a je zatížená náhodnou výběrovou chybou SE. Pro odhad regresní přímky slouží tzv. PÁS SPOLEHLIVOSTI (CI pro každý bod přímky).

NELINEÁRNÍ ZÁVISLOST SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE Nejprve seřadíme všechny hodnoty veličiny X dle velikosti a označíme je pořadovými čísly. Pak seřadíme všechny hodnoty veličiny Y dle velikosti a označíme je pořadovými čísly. Pro každou dvojici hodnot x, y stanovíme jejich rozdíl d. Spearmanův koeficient pořadové korelace vypočítáme ze vztahu:

Okresy JmKPor. hmotnost do 2500g na 100 ŽN Pořadí Podle PH KÚPořadí Podle KÚ Rozdíl pořadí Blansko4,1017, Brno – město6,20149, Brno – venkov5,0089, Břeclav4,4036,403 0 Hodonín4,2027, Jihlava4,604,58, ,5 Kroměříž5,30116, Prostějov5,501211, Třebíč4,8076,884 3 Uherské Hradiště4,7068, Vyškov5,20109, Zlín5,1097,928 1 Znojmo5,70137,645 8 Žďár nad Sázavou4,604,56,392 2,5

NELINEÁRNÍ ZÁVISLOST r s nabývá hodnot od -1 do 1, opět platí, že když: r s = 0, jde o nezávislost r s = 1, jde o přímou funkční závislost r s = -1, jde o nepřímou funkční závislost Hodnocení r s : Čím více se hodnota r s (ρ s ) blíží ± 1, tím je větší těsnost vztahu. TEST VÝZNAMNOSTI Absolutní hodnota r s se porovná s kritickými hodnotami Spearmanova koeficientu pořadové korelace: - je-li, pak nezamítáme H 0 - je-li, pak zamítáme H 0

HODNOCENÍ ZÁVISLOSTI KVALITATIVNÍCH ZNAKŮ Východiskem je kontingenční tabulka: Je založeno na srovnání empirických a teoretických četností. Empirická četnost (E)– rozdělení lidí podle kuřáctví a vzdělání jak bylo skutečně zjištěno ve výběrovém souboru. Teoretická četnost (T) – jaké by bylo rozdělení lidí ve výběrovém souboru podle kuřáctví a vzdělání, kdyby šlo o jevy nezávislé.

TEST HYPOTÉZY O NEZÁVISLOSTI 1. STANOVENÍ HYPOTÉZ -H 0 – mezi empirickými a teoretickými četnostmi není rozdíl -H A - mezi empirickými a teoretickými četnostmi je rozdíl 2. HLADINA VÝZNAMNOSTI α = 5% nebo α = 1% 3. VÝBĚR TESTU - chí-kvadrát test (  2 )

TEST HYPOTÉZY O NEZÁVISLOSTI 4. PODMÍNKY PRO POUŽITÍ TESTU Všechny teoretické četnosti musí být větší než VÝPOČET TESTOVACÍ CHARAKTERISTIKY CHÍ - KVADRÁT a)Pro každé políčko tabulky vypočítáme teoretickou četnost. b)Pro každé políčko tabulky vypočítáme rozdíl mezi empirickou (E) a teoretickou četností (T) podle vzorečku: c)Součet vypočítaných rozdílů je hodnota chí-kvadrátu:

TEST HYPOTÉZY O NEZÁVISLOSTI

ZÁVISLOST KVALITATIVNÍCH ZNAKŮ Vyhodnoťte statistickou významnost závislosti mezi kouřením a vzděláním na 5% hladině významnosti. Pro každé políčko tabulky této šestipolní vypočítejte teoretickou četnost Pro každé políčko vypočítejte rozdíl mezi empirickou a teoretickou četností: Proveďte součet dílčích výpočtů pro jednotlivá políčka: Srovnejte hodnotu  2 s příslušnými kritickými hodnotami v tabulce.