Analýza variance (ANOVA).

Slides:



Advertisements
Podobné prezentace
Analýza variance (ANOVA).
Advertisements

Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Organizační legitimita: aplikace institucionální teorie a teorie závislosti na zdrojích v rámci výzkumu NNO Magdaléna Šťovíčková SOS FHS UK, 2013/2014.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Pearsonova korelace Kolomogorovův-Smirnovův (Lilieforsův)
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Genetické parametry Heritabilita, korelace. primární GP genetický rozptyl prostřeďový rozptyl kovariance sekundární GP heritabilita opakovatelnost genetické.
1 Obhajoba diplomové práce Sluneční záření a atmosféra Autor: Tomáš Miléř Vedoucí: Doc. RNDr. Petr Sládek, CSc. Oponent: RNDr. Jan Hollan BRNO 2007Katedra.
Experimenty a jejich statistické vyhodnocení I Biologická technika.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Úvod do testování hypotéz
Analýza variance (ANOVA).
Testování hypotéz Testování hypotéz o rozdílu průměrů
Interpolace funkčních závislostí
7. Statistické testování
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
Řešení nerovnic Lineární nerovnice
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Model důchod-výdaje.
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Testování hypotéz Testování hypotéz o rozdílu průměrů
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
8.1.2 Podprostory.
Testování hypotéz o rozdílu průměrů: Analýza rozptylu
GENETIKA POPULACÍ KVANTITATIVNÍCH ZNAKŮ 8
Maďarská metoda Kirill Šustov Michal Bednář Stanislav Běloch
Oblast: Dobré životní podmínky zvířat
Párový neparametrický test
Six sigma – zkrácená verze
Základy statistické indukce
Molekulová fyzika 3. prezentace.
Základy zpracování geologických dat testování statistických hypotéz
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Parametrická analýza rozptylu Kruskal-Wallisův test
Řešení nerovnic Lineární nerovnice
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Spojité VELIČINY Vyšetřování normality dat
PSY252 Statistická analýza dat v psychologii II
MNOŽINY.
XII. Binomické rozložení
ASTAc/03 Biostatistika 4. cvičení
Téma 11 Odstraňování chudoby (Poverty Relief).
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
SEM – speciální přístupy
Lineární regrese.
PhDr.Hana Pazlarová, Ph.D
ANALÝZA A KLASIFIKACE DAT
Lomené výrazy (2) Podmínky řešitelnost
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Centrální limitní věta
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Lineární rovnice Druhy řešení.
Více náhodných veličin
Grafy kvadratických funkcí
Seminář o stavebním spoření
Dělitelnost přirozených čísel
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Analýza variance (ANOVA). ANOVA srovnává 2 nebo více náhodných veličin s normálním rozdělením. Jejich variabilita je stejná, proto ANOVA srovnává jejich (teoretické) střední. Pro srovnání 2 středních hodnotmůžeme použít jak t-test tak ANOVA. Výsledky (dosažené hladiny významnosti) jsou stejné. Chceme srovnat váhu trsů 4 odrůd brambor: 1. odrůda: 0.9, 0.8, 0.6, 0.9 2. odrůda: 1.3, 1, 1.3,1.2 3. odrůda: 1.3, 1.5, 1.6, 1.1 4. odrůda: 1.1, 1.2, 1.1,1 Najdeme rozdíly ve středních hodnotách? První výpočty: Průměr pro osrůdy: 𝑋 𝑗 = 1 𝑛 𝑖=1 𝑛 𝑋 𝑖𝑗 , 𝑗=1, …, 𝑎 (a = 4 odrůdy, n = 4 měření) 𝑋 1 =0.8, 𝑋 2 =1.2, 𝑋 3 =1.375, 𝑋 4 =1.1. , 𝑋 = 1 𝑎 𝑋 𝑖 = 𝑋 = 1.119.

𝑋 je odhad společné hodnoty 𝜇, 𝑋 𝑖𝑗 − 𝑋 = ai + error ij Model Anovy: Xij = m + ai + error ij , kde errorij má rozdělení N(0,  2 ). 𝑋 je odhad společné hodnoty 𝜇, 𝑋 𝑖𝑗 − 𝑋 = ai + error ij 𝛼 𝑖 − 𝑒𝑟𝑟𝑜𝑟 𝑖𝑗 = α 𝑖 − 𝑒𝑟𝑟𝑜𝑟 𝑖𝑗 = α 𝑖 . ANOVA umí odhalit posun sloupců α 𝑖 v kladném i záporném směru od společné hodnoty μ. ANOVA: H0: 𝜇 1 = 𝜇 2 = 𝜇 3 = 𝜇 4 (H0: 𝜇+a1 = 𝜇+ α 2 = 𝜇+ α 3 = 𝜇+ α 4 ) H1: alespoň jedna nerovnost v H0 neplatí. Ekvivalentně: H0: 𝛼 1 = 𝛼 2 = 𝛼 3 = 𝛼 4 H1: alespoň jedna nerovnost v H0 neplatí.

Předpokldy Anovy: normální rozdělení – netestuje se homogenita variancí – základní předpoklad – testuje se 2 odhady variance 𝜎 2 : Variabilita mezi sloupci (odvozeno z S.E.): 𝑆 1 2 =𝑛 𝑆.𝐸. 2 = 𝑛 𝑎 𝑖=1 𝑎 ( 𝑋 𝑖 − 𝑋 ) 2 , 𝑆 1 2 ≈ 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 , Variabilita uvnitře souboru: 𝑆 2 2 = 1 𝑎𝑛 𝑖=1 𝑎 𝑗=1 𝑛 ( 𝑋 𝑖𝑗 − 𝑋 𝑖 ) 2 , 𝑆 2 2 ≈ 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 . Lze odvodit, že 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 = 𝜎 2 + 𝑛 𝑎−1 𝑖=1 𝑎 𝛼 𝑖 2 𝜎 2 ≡ 𝜎 2 + 𝜑 2 𝜎 2 Jestliže H0 je platná, pak α 𝑖 =0 pro všechna i, pak 𝜎 2 + 𝜑 2 𝜎 2 = 𝜎 2 𝜎 2 = 1. Proto se metoda nazývá analýza variance (ANOVA). Odhad 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 je 𝑆 1 2 , odhad 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 je 𝑆 2 2 . 𝑆 1 2 a 𝑆 2 2 jsou náhodné veličiny a 𝑆 1 2 𝑆 2 2 ≈𝐹(𝑎−1, 𝑎 𝑛−1 )

Poznámka. Jestliže je nestejný počet měření ve sloupcích (v našem příkladu je 𝑛 1 = 𝑛 2 = 𝑛 3 = 𝑛 4 =4), počet stuňů volnosti je (𝑎−1, 𝑛 𝑖 −𝑎 ). Jestliže a = 2, můžeme použít t- test nebo ANOVA. Dosažená hladina významnosti je stejná, ačkoliv testové charakteristiky (t, F) jsou různé. Není možno použít řadu t-testů a > 2  chyba 1. druhu (α) roste.

V našem příkladu P < 0.05, proto zamítáme H0, něktaré z rovností v H0 neplatí. Střední hodnoty 95% konf. interval Druhy 1 a 2, 1 a 3 se mohou lišit.

Post – hoc testy: H0: střední hodnota sloupce i = střední hodnota sloupce j, i ≠ j H1: nerovnost mezi středními hodnotami sloupců i a j. Post-hoc test dávají odpověď na otázku KDE je rodíl, který detekovala Anova. Rozdíly jsou mezi 1a 2 (průměry 0.8 a 1.2, P = 0.015201< 0.05), 1 a 3 (průměry 0.8 a 1.375, P = 0.001166 < 0.05). V našem příkladu byl 1 faktor „odrůda“  jednofaktorová ANOVA

Multifaktorová analýza variance. A. Factorialní design. Příklad: Krysy jedly žluklý nebo čerstvý tuk v průběhu 73 dní. Zajímá nás spotřeba tuku v závislosti na jeho kvalitě a pohlaví krys.   fresh rancid sum males 709 592 679 638 699 476 2087 1706 3793 females 657 508 594 505 677 539 1928 1552 3480 4015 3258 Samci jedí více než samice Čerstvý tuk je atraktivnější než žluklý. Máme 2 faktory: pohlsví: máme 2 náhodné veličiny s normálním rozdělením (samci, samice) tuk: máme 2 náhodné veličiny s normálním rozdělením (čerstvý, žluklý). Předpokládáme homogenitu variancí Testujeme rozdíl mezi středními hodnotami pohlaví a testujeme rozdíl mezi 2 středními hodnotami tuků

Proto máme 2 nulové hypotézy: H01: není rozdíl mezi středními hodnotami samců a samic H02: není rozdíl mezi středními hodnotami tuku čerstvého a žluklého. Model: 𝑋 𝑖𝑗 = μ+ 𝑝𝑜ℎ𝑙𝑎𝑣í 𝑖 + 𝑡𝑢𝑘 𝑗 + 𝑖𝑛𝑡𝑒𝑟𝑎𝑘𝑐𝑒 𝑖𝑗 + 𝑐ℎ𝑦𝑏𝑎 𝑖𝑗 Přímky jsou přibližně rovnoběžné, Není závislost mezi faktory. 3, nulová hypotéza: H03: interakce nejsou sinifikantníí. Zde nejsou interakce signifikantní. čerstvý žluklý

H01 nezamítáme  není rozdíl mezi středními hodnostami samců a samic. H02 zamítáme  je rozdíl ve středních hodnotách spotřeby tuku čerstvého a žluklého. H03 nezamítáme  interakce nejsou průkazné. Neprůkazné interakce  model je OK, použijeme Anovu. Průkazné interakce Něco jiného (další faktor) ovlivňuje měřené hodnoty  změna experimentu. Post-hoc test Pouze pro tuk: t čerstvý tuk je konzumován více než žluklý.

Přímky jsou různoběžné, Existuje závislost mezi faktory. Modifikace.   fresh rancid sum males 592 709 538 679 476 699 1606 2087 3693 females 657 508 594 505 677 539 1928 1552 3480 3534 3639 Přímky jsou různoběžné, Existuje závislost mezi faktory. Faktory jsou závislé ANOVA nemůže být použita žluklý čerstvý H03 zamítáme  interakce jsou průkazné.

B. Hierarchická Anova (Nested design). Máme 2 nádoby: V první je umístěn čerstvý tuk, v druhé žluklý tuk. Do první nádoby náhodně vybereme 6 myší, do druhé 6 myší. 1. nádoba 2. nádoba 6 myší 6 myší 2 faktory: myš - náhodný faktor tuk - pevný faktor Jsme na úrovni „jedinec“ – nikoliv na úrovni „pohlaví“, hledáme rozdíly mezi jedinci. Faktor “myš“ je vnořen do faktoru “tuk“ Toto uspořádání múže být chápáno jako jednofaktorová ANOVA, kde myš je opakování.

ANOVA – náhodné bloky. Příklad: Byla měřena teplota vody v hloubce 0, 2, 5 metrů. Jsou rozdíly v teplotě vody v těchto hloubkách? 1. místo 2. místo 3. místo 10. místo 0 m 0 m 0 m 0 m …. 2 m 2 m 2 m 2 m 5 m 5 m 5 m 5 m Náhodné bloky

Každá hloubka ve vybraném místě se měří jen jednou. the temperature in 10 places blok 0 m 2 m 5 m 1 20.8 18.5 11.1 2 21.3 20 12 3 19.9 18 9.5 4 10.2 5 20.1 19 10.1 6 19.8 9.9 7 19.5 8.5 8 19.3 8.8 9 10 jednofaktorová ANOVA: F(2, 27) = 571.23, P = 0 dvoufaktorová ANOVA: F(2, 18) = 1119.491, P = 0

Porušení předpokladů. Homogenita variancí. Není-li splněna, pak do pokusu vstupuje ještě něco jiného, například další faktor, který výrazně ovlivňuje výsledky Porušení předpokladu dává „nepravdivé“ závěry ve smyslu zamítnutí nebo nezamítnutí nulové hypotézy. V praxi to znamená založit nový experiment. Aditivity of the model. Porušení se projeví významnými interakcemi. Znamená to, že máme nestejné podmínky pokusu, nebo nemáme zahrnuty všechny faktory ovlivňující závěr. Porušení předpokladu velmi snižuje citlivost modelu. V praxi jsou interakce často významné. Často je nutno založit nový experiment.

Normality. Porušení normality nebývá závažný problém. Je možno transformovat data do normality nebo použít neparametrické ekvivalenty Anovy. Neparametrický ekvivalent jednofaktorové Anovy je Kruskal-Wallisův test, Neparametrickým ekvivalentem 2-faktorové Anovy je Friedmannův test (block design). Design experimentu by měl být co nejjednodušší. Počet faktorů by neměl být vyšší než 2, protože vysvětlení možných interakcí je jinak velmi složité.