Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza variance (ANOVA).

Podobné prezentace


Prezentace na téma: "Analýza variance (ANOVA)."— Transkript prezentace:

1 Analýza variance (ANOVA).
ANOVA srovnává 2 nebo více náhodných veličin s normálním rozdělením. Jejich variabilita je stejná, proto ANOVA srovnává jejich (teoretické) střední. Pro srovnání 2 středních hodnotmůžeme použít jak t-test tak ANOVA. Výsledky (dosažené hladiny významnosti) jsou stejné. Chceme srovnat váhu trsů 4 odrůd brambor: 1. odrůda: 0.9, 0.8, 0.6, 0.9 2. odrůda: 1.3, 1, 1.3,1.2 3. odrůda: 1.3, 1.5, 1.6, 1.1 4. odrůda: 1.1, 1.2, 1.1,1 Najdeme rozdíly ve středních hodnotách? První výpočty: Průměr pro osrůdy: 𝑋 𝑗 = 1 𝑛 𝑖=1 𝑛 𝑋 𝑖𝑗 , 𝑗=1, …, 𝑎 (a = 4 odrůdy, n = 4 měření) 𝑋 1 =0.8, 𝑋 2 =1.2, 𝑋 3 =1.375, 𝑋 4 =1.1. , 𝑋 = 1 𝑎 𝑋 𝑖 = 𝑋 =

2 𝑋 je odhad společné hodnoty 𝜇, 𝑋 𝑖𝑗 − 𝑋 = ai + error ij
Model Anovy: Xij = m + ai + error ij , kde errorij má rozdělení N(0,  2 ). 𝑋 je odhad společné hodnoty 𝜇, 𝑋 𝑖𝑗 − 𝑋 = ai + error ij 𝛼 𝑖 − 𝑒𝑟𝑟𝑜𝑟 𝑖𝑗 = α 𝑖 − 𝑒𝑟𝑟𝑜𝑟 𝑖𝑗 = α 𝑖 . ANOVA umí odhalit posun sloupců α 𝑖 v kladném i záporném směru od společné hodnoty μ. ANOVA: H0: 𝜇 1 = 𝜇 2 = 𝜇 3 = 𝜇 4 (H0: 𝜇+a1 = 𝜇+ α 2 = 𝜇+ α 3 = 𝜇+ α 4 ) H1: alespoň jedna nerovnost v H0 neplatí. Ekvivalentně: H0: 𝛼 1 = 𝛼 2 = 𝛼 3 = 𝛼 4 H1: alespoň jedna nerovnost v H0 neplatí.

3 Předpokldy Anovy: normální rozdělení – netestuje se homogenita variancí – základní předpoklad – testuje se 2 odhady variance 𝜎 2 : Variabilita mezi sloupci (odvozeno z S.E.): 𝑆 1 2 =𝑛 𝑆.𝐸. 2 = 𝑛 𝑎 𝑖=1 𝑎 ( 𝑋 𝑖 − 𝑋 ) 2 , 𝑆 1 2 ≈ 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 , Variabilita uvnitře souboru: 𝑆 2 2 = 1 𝑎𝑛 𝑖=1 𝑎 𝑗=1 𝑛 ( 𝑋 𝑖𝑗 − 𝑋 𝑖 ) 2 , 𝑆 2 2 ≈ 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 . Lze odvodit, že 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 = 𝜎 2 + 𝑛 𝑎−1 𝑖=1 𝑎 𝛼 𝑖 2 𝜎 2 ≡ 𝜎 2 + 𝜑 2 𝜎 2 Jestliže H0 je platná, pak α 𝑖 =0 pro všechna i, pak 𝜎 2 + 𝜑 2 𝜎 2 = 𝜎 2 𝜎 2 = 1. Proto se metoda nazývá analýza variance (ANOVA). Odhad 𝜎 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 2 je 𝑆 1 2 , odhad 𝜎 𝑤𝑖𝑡ℎ𝑖𝑛 2 je 𝑆 𝑆 1 2 a 𝑆 2 2 jsou náhodné veličiny a 𝑆 𝑆 ≈𝐹(𝑎−1, 𝑎 𝑛−1 )

4 Poznámka. Jestliže je nestejný počet měření ve sloupcích (v našem příkladu je 𝑛 1 = 𝑛 2 = 𝑛 3 = 𝑛 4 =4), počet stuňů volnosti je (𝑎−1, 𝑛 𝑖 −𝑎 ). Jestliže a = 2, můžeme použít t- test nebo ANOVA. Dosažená hladina významnosti je stejná, ačkoliv testové charakteristiky (t, F) jsou různé. Není možno použít řadu t-testů a > 2  chyba 1. druhu (α) roste.

5 V našem příkladu P < 0.05, proto zamítáme H0, něktaré z rovností v H0 neplatí. Střední hodnoty 95% konf. interval Druhy 1 a 2, 1 a 3 se mohou lišit.

6 Post – hoc testy: H0: střední hodnota sloupce i = střední hodnota sloupce j, i ≠ j H1: nerovnost mezi středními hodnotami sloupců i a j. Post-hoc test dávají odpověď na otázku KDE je rodíl, který detekovala Anova. Rozdíly jsou mezi 1a 2 (průměry 0.8 a 1.2, P = < 0.05), 1 a 3 (průměry 0.8 a 1.375, P = < 0.05). V našem příkladu byl 1 faktor „odrůda“  jednofaktorová ANOVA

7 Multifaktorová analýza variance.
A. Factorialní design. Příklad: Krysy jedly žluklý nebo čerstvý tuk v průběhu 73 dní. Zajímá nás spotřeba tuku v závislosti na jeho kvalitě a pohlaví krys. fresh rancid sum males 709 592 679 638 699 476 2087 1706 3793 females 657 508 594 505 677 539 1928 1552 3480 4015 3258 Samci jedí více než samice Čerstvý tuk je atraktivnější než žluklý. Máme 2 faktory: pohlsví: máme 2 náhodné veličiny s normálním rozdělením (samci, samice) tuk: máme 2 náhodné veličiny s normálním rozdělením (čerstvý, žluklý). Předpokládáme homogenitu variancí Testujeme rozdíl mezi středními hodnotami pohlaví a testujeme rozdíl mezi 2 středními hodnotami tuků

8 Proto máme 2 nulové hypotézy:
H01: není rozdíl mezi středními hodnotami samců a samic H02: není rozdíl mezi středními hodnotami tuku čerstvého a žluklého. Model: 𝑋 𝑖𝑗 = μ+ 𝑝𝑜ℎ𝑙𝑎𝑣í 𝑖 + 𝑡𝑢𝑘 𝑗 + 𝑖𝑛𝑡𝑒𝑟𝑎𝑘𝑐𝑒 𝑖𝑗 + 𝑐ℎ𝑦𝑏𝑎 𝑖𝑗 Přímky jsou přibližně rovnoběžné, Není závislost mezi faktory. 3, nulová hypotéza: H03: interakce nejsou sinifikantníí. Zde nejsou interakce signifikantní. čerstvý žluklý

9 H01 nezamítáme  není rozdíl mezi středními hodnostami samců a samic.
H02 zamítáme  je rozdíl ve středních hodnotách spotřeby tuku čerstvého a žluklého. H03 nezamítáme  interakce nejsou průkazné. Neprůkazné interakce  model je OK, použijeme Anovu. Průkazné interakce Něco jiného (další faktor) ovlivňuje měřené hodnoty  změna experimentu. Post-hoc test Pouze pro tuk: t čerstvý tuk je konzumován více než žluklý.

10 Přímky jsou různoběžné, Existuje závislost mezi faktory.
Modifikace. fresh rancid sum males 592 709 538 679 476 699 1606 2087 3693 females 657 508 594 505 677 539 1928 1552 3480 3534 3639 Přímky jsou různoběžné, Existuje závislost mezi faktory. Faktory jsou závislé ANOVA nemůže být použita žluklý čerstvý H03 zamítáme  interakce jsou průkazné.

11 B. Hierarchická Anova (Nested design).
Máme 2 nádoby: V první je umístěn čerstvý tuk, v druhé žluklý tuk. Do první nádoby náhodně vybereme 6 myší, do druhé 6 myší. 1. nádoba 2. nádoba 6 myší 6 myší 2 faktory: myš - náhodný faktor tuk - pevný faktor Jsme na úrovni „jedinec“ – nikoliv na úrovni „pohlaví“, hledáme rozdíly mezi jedinci. Faktor “myš“ je vnořen do faktoru “tuk“ Toto uspořádání múže být chápáno jako jednofaktorová ANOVA, kde myš je opakování.

12 ANOVA – náhodné bloky. Příklad: Byla měřena teplota vody v hloubce 0, 2, 5 metrů. Jsou rozdíly v teplotě vody v těchto hloubkách? 1. místo 2. místo 3. místo 10. místo 0 m 0 m 0 m 0 m …. 2 m 2 m 2 m 2 m 5 m 5 m 5 m 5 m Náhodné bloky

13 Každá hloubka ve vybraném místě se měří jen jednou.
the temperature in 10 places blok 0 m 2 m 5 m 1 20.8 18.5 11.1 2 21.3 20 12 3 19.9 18 9.5 4 10.2 5 20.1 19 10.1 6 19.8 9.9 7 19.5 8.5 8 19.3 8.8 9 10 jednofaktorová ANOVA: F(2, 27) = , P = 0 dvoufaktorová ANOVA: F(2, 18) = , P = 0

14 Porušení předpokladů. Homogenita variancí. Není-li splněna, pak do pokusu vstupuje ještě něco jiného, například další faktor, který výrazně ovlivňuje výsledky Porušení předpokladu dává „nepravdivé“ závěry ve smyslu zamítnutí nebo nezamítnutí nulové hypotézy. V praxi to znamená založit nový experiment. Aditivity of the model. Porušení se projeví významnými interakcemi. Znamená to, že máme nestejné podmínky pokusu, nebo nemáme zahrnuty všechny faktory ovlivňující závěr. Porušení předpokladu velmi snižuje citlivost modelu. V praxi jsou interakce často významné. Často je nutno založit nový experiment.

15 Normality. Porušení normality nebývá závažný problém. Je možno transformovat data do normality nebo použít neparametrické ekvivalenty Anovy. Neparametrický ekvivalent jednofaktorové Anovy je Kruskal-Wallisův test, Neparametrickým ekvivalentem 2-faktorové Anovy je Friedmannův test (block design). Design experimentu by měl být co nejjednodušší. Počet faktorů by neměl být vyšší než 2, protože vysvětlení možných interakcí je jinak velmi složité.


Stáhnout ppt "Analýza variance (ANOVA)."

Podobné prezentace


Reklamy Google