Analýza variance (ANOVA).

Slides:



Advertisements
Podobné prezentace
Analýza variance (ANOVA).
Advertisements

Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pearsonova korelace Kolomogorovův-Smirnovův (Lilieforsův)
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Genetické parametry Heritabilita, korelace. primární GP genetický rozptyl prostřeďový rozptyl kovariance sekundární GP heritabilita opakovatelnost genetické.
Odborný výcvik ve 3. tisíciletí Tato prezentace byla vytvořena v rámci projektu.
1 Obhajoba diplomové práce Sluneční záření a atmosféra Autor: Tomáš Miléř Vedoucí: Doc. RNDr. Petr Sládek, CSc. Oponent: RNDr. Jan Hollan BRNO 2007Katedra.
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
Experimenty a jejich statistické vyhodnocení I Biologická technika.
Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Úvod do testování hypotéz
Testování hypotéz Testování hypotéz o rozdílu průměrů
Historická sociologie, Řízení a supervize
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Interpolace funkčních závislostí
7. Statistické testování
Rozvoj zaměstnanosti ve vybraném podniku
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu VY_32_INOVACE_06-01
Testování hypotéz Testování hypotéz o rozdílu průměrů
Název: Trojúhelník Autor:Fyrbachová
Výběrové metody (Výběrová šetření)
Hra k zopakování a procvičení učiva (Test znalostí)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Testování hypotéz o rozdílu průměrů: Analýza rozptylu
GENETIKA POPULACÍ KVANTITATIVNÍCH ZNAKŮ 8
Maďarská metoda Kirill Šustov Michal Bednář Stanislav Běloch
Vysoká škola technická a ekonomická v Českých Budějovicích Zdanění provozu motorových vozidel v České republice Autor Bakalářské práce: Irena Záhorková.
Biostatistika Opakování Modelová rozložení náhodné veličiny
Vzdělávání pro konkurenceschopnost
Párový neparametrický test
Poměr v základním tvaru.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Parametrická analýza rozptylu Kruskal-Wallisův test
Opakování: Parametrické testy.
Spojité VELIČINY Vyšetřování normality dat
PSY252 Statistická analýza dat v psychologii II
XII. Binomické rozložení
3. přednáška Laplaceova transformace
ASTAc/03 Biostatistika 4. cvičení
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
SEM – speciální přístupy
Lineární regrese.
ANALÝZA A KLASIFIKACE DAT
Analýza variance (ANOVA).
Poměr v základním tvaru.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Počty rozdaných, odevzdaných, vyřazených a použitých dotazníků
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Vzdělávání jako hlavní složka řízení lidských zdrojů
Hromadné dokumenty opakující se pro kolekci osob
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno použít ANOVu se stejnými výsledky. U 4 odrůd brambor se zjišťovala celková hmotnost brambor z jednoho trsu: 1.odrůda: 0.9, 0.8, 0.6, 0.9 2. odrůda: 1.3, 1, 1.3,1.2 3. odrůda: 1.3, 1.5, 1.6, 1.1 4. odrůda: 1.1, 1.2, 1.1,1 Liší se průměrné hmotnosti brambor z 1 trsu u těchto 4 odrůd? Testování v analýze variance (ANOVA). H0: 𝜇 1 = 𝜇 2 = 𝜇 3 = 𝜇 4 (střední hodnoty hmotností trsů jednotlivých odrůd se rovnají) H1: alespoň jedna rovnost z H0 neplatí. Předběžné výpočty: Průměry hmotností odrůd: a = 4 odrůdy, pro každou n = 4 měření: 𝟏 𝒏 𝒊=𝟏 𝒏 𝑿 𝒊𝒋 = 𝑿 𝒋 , j = 1, …, a 𝑋 1 =0.8, 𝑋 2 =1.2, 𝑋 3 =1.375, 𝑋 4 =1.1. Celkový průměr 𝟏 𝒂 𝒊=𝟏 𝒂 𝑿 𝒊 = 𝑿 = 1.119

Model analýzy variance: Xij = m + ai + chyba ij , neboli 𝑋 𝑖𝑗 −𝜇= 𝛼 𝑖 + 𝑐ℎ𝑦𝑏𝑎 𝑖𝑗 Vypočítáme tedy 𝑋 𝑖𝑗 − 𝑋 , protože 𝑋 je odhadem m . 𝛼 𝑖 = 𝑋 𝑖 − 𝑋 lze dokázat, že 𝛼 𝑖 = 0 0.9 0.8 0.6 0.9 +0.32= 1.3 1 1.3 1.2 −0.08= 1.3 1.5 1.6 1.1 −0.26= 1.1 1.2 1.1 1 +0.02 Neboli ANOVA umí odhalit posun celých sloupců hodnot o ai

Předpoklady. normalita rozdělení – neověřuje se homogenita variancí - základní předpoklad – ověřuje se 2 odhady variance základního souboru 𝜎 2 : S.E. = 𝑆 𝑛  𝑆 2 =𝑛 𝑆.𝐸. 2 : první odhad variance 𝑆 1 2 =𝑛 𝑆.𝐸. 2 = 𝑛 𝑎 𝑖=1 𝑎 ( 𝑋 𝑖 − 𝑋 ) 2 druhý odhad vriance 𝑆 2 2 = 1 𝑎𝑛 𝑖=1 𝑎 𝑗=1 𝑛 ( 𝑋 𝑖𝑗 − 𝑋 𝑖 ) 2 𝑆 1 2 variabilita mezi sloupci 𝑆 1 2 ≈ 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 , 𝑆 2 2 variabilita uvnitř souboru 𝑆 2 2 ≈ 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 Čtverec posunu sloupců, za platnosti H0 je roven 0 Dá se ukázat, že 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 = 𝜎 2 + 𝑖=1 𝑎 𝛼 𝑖 2 𝜎 2 ≡ 𝜎 2 + 𝜑 2 𝜎 2 Neboli H0: 𝜇 1 = 𝜇 2 = 𝜇 3 = 𝜇 4 , H1: alespoň jedna rovnost z H0 neplatí lze psát jako H0: 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 = 1, H1: 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 ≠1 𝑆 1 2 𝑆 2 2 ≈𝐹(𝑎−1, 𝑎 𝑛−1 )

  Pokud je a = 2, je možno použít jak analýzu variance tak t-test. Dosažená hladina významnosti P je stejná, i když testové charakteristiky (t, F) jsou různé,. Pro a > 2 není možno provádět sérii t-testů  roste chyba 1. druhu.

V našem příkladu   Means 95% conf. interval Obrázek naznačuje, že se budou patrně lišit odrůdy 1 a 2, 1 a 3.

Post – hoc testy: H0: průměr sloupce i = průměr sloupce j, i ≠ j H1: nerovnost mezi průměry sloupců i a j. Zodpoví otázku, KDE je rozdíl zjištěný Anovou. Zjišťujeme, že se liší odrůdy 1a 2 (průměry 0.8 a 1.2, P = 0.015201< 0.05) a 1 a 3 (průměry 0.8 a 1.375, P = 0.001166 < 0.05). V příkladu jsme měli 1 třídící znak “odrůda“  jednofaktorová ANOVA

Analýza variance vícefaktorová (ANOVA). A. Faktoriální uspořádání. Příklad: Krysy byly krmeny 73 dní čerstvým nebo žluklým tukem. Zajímá nás spotřeba kvality tuku v závislosti na pohlaví krys [g]. Samci spotřebují více než samice Čerstvý tuk je atraktivnější než žluklý. Nulové hypotézy: H01: není rozdíl mezi samci a samicemi H02: není rozdíl mezi čerstvým a žluklým tukem H03: nejsou průkazné interakce. Model:

Spojnice přibližně rovnoběžné “H“ pouze posunuty (přibližně) Interakce neprůkazné

H01 nezamítáme  není statisticky průkazný rozdíl mezi samci a samicemi. H02 zamítáme  je rozdíl ve spotřebě čerstvého tuku a žluklého tuku. H03 nezamítáme  nejsou průkazné interakce. Neprůkazné interakce  model je v pořádku, lze použít Anovu. Průkazné interakce  něco dalšího (další faktor) ovlivňuje měření  nutno zdůvodnit. Post-hoc testy: Pouze pro tuk: čerstvý se spotřebovává více než žluklý. Modifikace příkladu.

Průkazné interakce  přímky nejsou rovnoběžné Samci mají zcela jiné preference než samice, model není aditivní (posun), Něco dalšího vstupuje do pokusu?? Anovu nelze použít. Někdy nelze průkazné interakce odstranit  je nutno zdůvodnit.

B. Hierarchická Anova (Nested design). Připravím 2 akvária: Do prvního dám čerstvý tuk, do druhého žluklý tuk. Do první nádoby vyberu náhodně 6 krys, do druhého náhodně 6 krys. 1. nádoba 2. nádoba 6 krys 6 krys 2 faktory: Krysy - náhodný faktor Tuk - pevný faktor Sestoupili jsme na úroveň jedinců – nejde o rozdíly “samice – samec“, jde o rozdíly mezi jedinci Faktor “krysa“ je vnořen (nested in) do faktoru strava Na toto uspořádání lze pohlížet jako na jednofaktorovou Anovu a krysy se berou jako opakování.

Liší se teploty v jednotlivých hloubkách? ANOVA – náhodné bloky. Příklad: Na 10 místech jezera byla měřena teplota vody v hloubce 0, 2 a 5 metrů. Liší se teploty v jednotlivých hloubkách? 1. místo 2. místo 3. místo 10. místo 0 m 0 m 0 m 0 m …. 2 m 2 m 2 m 2 m 5 m 5 m 5 m 5 m Náhodné bloky

Každá hloubka je na daném místě měřena jen jednou Jedná se vlastně o 1-faktorovou Anovu s faktorem “hloubka“. 1-faktorová ANOVA: F(2, 27) = 571.23, P = 0 2-faktorová ANOVA: F(2, 18) = 1119.491, P = 0

Porušení předpokladů. Homogenita variancí. Tento předpoklad říká, že odstraníme-li vliv skupin (aditivní posun skupin), dostáváme soubor se stejnou variabilitou skupin. Pokud je tento předpoklad porušen, znamená to, že další faktor významně ovlivňuje měření, tj. faktor, který nebyl zahrnut do designu pokusu. Porušení homogenity variancí znamená „falešné“ závěry jak ve smyslu nezamítnutí, tak ve smyslu zamítnutí nulových hypotéz. V praxi to znamená pokus provést znovu. Aditivita modelu. Porušení aditivity modelu se projevuje průkaznými interakcemi. Může se jednat o nehomogenitu prostředí pokusu, či nezahrnutí všech podstatných faktorů do pokusu. Porušení aditivity znamená menší citlivost metody, neboli metoda neodhalí i zjevné rozdíly. V praxi jsou interakce často průkazné. Pokud je průkaznost interakcí vysoká (P0), je nutno pokus založit znovu

Porušení normality dat. Stejně jako u t-testů, i zde můžeme provést stejné transformace dat do normality, nebo můžeme použít neparametrické obdoby Anovy. Podobně jako dříve, neparametrické obdoby Anovy jsou málo citlivé a výsledné charakteristiky testů se často transformují do N(0, 1). Neparametrickou obdobou jednofaktorové Anovy je Kruskal-Wallisův test, Neparametrickou obdobou dvoufaktorové Anovy je Friedmannův test (blokové uspořádání). Design pokusu by měl být co nejjednodušší. Je ideální, aby počet faktorů nebyl vyšší než 2, protože eventuální průkazné interakce se špatně vysvětlují.