Faktory a jejich uspořádání Faktor (kvalitativní proměnná) factor (= categorial variable = categorical v.) Hladina faktoru factor level Máme-li dva nebo více faktorů, záleží správná volba modelu ANOVA na jejich vzájemném vztahu (uspořádání, design) Faktoriální (factorial design) x hierarchické (nested = hierarchical design)
Faktoriální uspořádání Každá hladina určitého faktoru je kombinována s každou hladinou ostatních faktorů Mají-li naše faktory jen 2 hladiny, pak při 2 faktorech máme 4 kombinace při 3 faktorech máme 8 kombinací ... Obecně, mají-li faktory A, B, C,... a, b, c,... hladin, pak je počet kombinací a*b*c*...
Hierarchické uspořádání tři lokality na každé lokalitě tři kytky na každé pět měření Faktor Kytka je vložen do faktoru Lokalita (Kytka is nested in Lokalita) Kytka 1 (kyt1) z první lokality nemá nic společného s kytkou 1 z druhé lokality
Faktoriální uspořádání: vyváženost Je nejlepší, pokud máme pro každou kombinaci hladin faktorů stejný počet pozorování, dostáváme pak nejsilnější a nejvíce robustní test Přinejmenším bychom ale měli mít proporční uspořádání
Dvoucestná ANOVA bez interakce Nejprve začneme s modelem, ve kterém předpokládáme, že vlivy hnojení a kosení jsou aditivní: Xijk = m + ai + bj + eijk m je celkový (společný) průměr (např. 22.5) a je vliv kosení (např. a1=-5.0, a2=+5.0) b je vliv hnojení (např. b1=+2.5, b2=-2.5) e je náhodná variabilita, nezávislá na hodnotách faktorů
Dvoucestná ANOVA bez interakce Aditivitu faktorů často nemůžeme předpokládat a priori, ověřujeme ji použitím neaditivního modelu (s interakcí): test interakčního členu a interaction plot SSTotal=SShnojeno+SSkoseno+SShnojeno*koseno+SSerror H0A: a1=a2=0 hnojení nemá vliv H0B: b1=b2=0 kosení nemá vliv H0AB: g11=g12=g21=g22=0 není interakce
Dvoucestná ANOVA s interakcí Model bez interakce: Xijk = m + ai + bj + eijk Přidáme-li interakci: Xijk = m + ai + bj + gij + eijk Interakce mezi faktory je symetrická, a tak nám říká buď: „velikost (případně i směr) vlivu hnojení závisí na tom, zda je plocha kosená nebo ne“ nebo „velikost (případně i směr) vlivu kosení závisí na tom, zda je plocha hnojená nebo ne“ Speciální případ: “kosení má vliv jen u nehnojených ploch“
Dvoucestná ANOVA s interakcí Není interakce: Je interakce: Hlavní efekt (main effect) Je třeba zdůraznit, že spojování průměrů tady není interpolací: jde nám o zobrazení interakce pomocí (ne)rovnoběžnosti čar Když popisuji výsledky, nestačí říct, že interakce je průkazná, musím uvést proč (kde a jaká je odchylka od aditivity)
Méně častý typ interakce Vliv 2 léků (A a B) na snížení teploty testován faktoriálním experimentem Hlavní efekt léku A vyšel neprůkazný, hlavní efekt léku B také, ale vyšla průkazná interakce Interaction plot vypadá takto: Výsledek neznamená, že by léky nebyly účinné! Jejich účinek se při společném podání ruší.
F statistika v dvoucestné ANOVA faktory s pevným efektem Fhnojeno, Fkoseno, Fhnojeno*koseno jsou všechny počítány dělením příslušného MS hodnotou MSError Například: Fhnojeno=352.8/8.025 = 43.963 Není tomu ale tak v případě faktorů s náhodným efektem!
Mnohonásobná porovnání Ve faktoriální analýze variance (s 2 a více faktory) provádím obdobně jako ve one-way ANOVA V našem příkladu nemá smysl: máme jen dvě hladiny pro každý z faktorů Mohu porovnávat buď pro hlavní efekty nebo i pro interakci (tj. všechny faktoriálně vytvořené skupiny mezi sebou) Co budu porovnávat rozhoduji já (ovšem s ohledem na výsledky testu)
F statistika v dvoucestné ANOVA mixed effects (náhodný+pevný) Zkoumám vliv kosení na druhovou bohatost, máme tři lokality, na každé mám tři kosené a tři nekosené plochy Fkoseno = MSkoseno / MSlokalita*koseno tj. 206.72 / 5.39
Experimentální uspořádání: 1 – úplně znáhodněné Máme experiment se 4 zásahy (K, Z1, Z2, Z3) a se 4 opakováními pro každý typ zásahu (= pro každou hladinu faktoru) Je-li všech 16 ploch rozmístěno zcela náhodně (completely randomised design), hodnotím jednocestnou analýzou variance
Experimentální uspořádání: 2 – zcela nesprávné Vliv zásahu nelze v datech získaných z tohoto špatného uspořádání odlišit od vlivu umístění v prostoru Pojem pseudoreplikace (pseudoreplication)
Experimentální uspořádání: 3 – znáhodněné bloky Randomised blocks, ale pozor, někdy též jako Completely randomised blocks! Náhodný faktor Blok, two-way ANOVA bez interakce. Silnější test, pokud se bloky liší
Experimentální uspořádání: 4 – Latinský čtverec Latin square Známe směry prostorové variability a buď je jen jeden (např. vlhkost) nebo jsou kolmé 3-way ANOVA, náhodné fak. řádek a sloupec
Friedmanův test Neparametrický test, zobecnění Wilcoxonova testu Založeno na pořadí hodnot (pro jednotlivé hladiny faktoru) uvnitř bloků a je počet hladin studovaného faktoru b je počet bloků Ri je součet hodnot pořadí pro i-tou hladinu
Transformace: problémy s aditivitou 1 Porovnávám výšky sedmikrásek a slunečnic a jejich odpověď na přidání živin Faktoriální uspořádání, 2 faktory s pevným efektem a 2 hladinami (druh a živiny) Tři testovatelné hypotézy (2 hlavní efekty plus interakce): výška sedmikrásek a slunečnic se neliší výška rostlin se mění po přidání živin vliv přidání živin je stejný pro oba druhy
Transformace: problémy s aditivitou 2 Lze očekávat heterogenitu variancí (hodnoty výšky budou mít asi větší varianci u slunečnic než u sedmikrásek) S.D. bude lineárně závislá na průměru (CV bude konstantní) Interakce v ANOVA modelu testuje aditivitu, a tedy nárůst výšky díky přidání živin stejný (v cm) u obou druhů – např. 10 cm:
Transformace: problémy s aditivitou 3 Taková aditivita ale neodpovídá „biologické realitě“ – lze spíše očekávat nárůst proporční, např. o 100% Odpovídající model pro vliv druhu (slunečnice je 10-krát vyšší než sedmikráska; hnojení zvýší výšku 2-krát) je: Chceme-li dostat model ANOVA, musíme logaritmovat Tabulka logaritmů průměrných výšek pak vypadá takto:
Logaritmická transformace Pokud byla v původních datech S.D. lineárně závislá na průměru, vede k homogenitě var. Mění multiplikativní efekty na aditivní Mění lognormální rozdělení e na normální Problém s nulami: v biologických datech časté (pokryvnost či početnost druhu ve vzorku) X’ = log(X+c), c by mělo odpovídat škále hodnot X (c=1 vhodné pro počty, procenta) Přičtení c narušuje převod multiplikativity na aditivitu
Jiné transformace Předpokládáme-li pro závislou proměnnou Poissonovu distribuci: Pro procenta a podíly (na škále 0 – 1):
Hierarchické uspořádání (nested design) tři lokality na každé lokalitě tři kytky na každé pět měření V příkladě je faktor Kytka jasně s náhodným efektem, u faktoru Lokalita si lze představit obě možnosti. Takto vypadají nejčastější případy hierarchické analýzy variance Vyrovnanost počtu pozorování je i zde velmi důležitá
Hierarchické uspořádání příklad s délkou trubky 1 3 2
Hierarchické uspořádání příklad s délkou trubky 2 Při rozkladu sumy čtverců (SS) počítáme čtverce rozdílů každého pozorování (průměru) od jeho hierarchicky nejbližšího vyššího příslušného průměru Jsou-li hierarchicky nižší efekty náhodné, je F statistikou poměr MS efektu a MS nejbližšího hierarchicky nižšího efektu
Nejčastější použití hierarchické analýzy variance Rozklad variability znaků mezi jednotlivé hierarchické úrovně (taxonomické / prostorové) Často mne zajímá především hierarchicky nejvýše postavený faktor, podřazené faktory umožňují oddělení variability na nižších úrovních zvýšení síly testu Příklad: vliv pastvy – 6 ohrad: 3 + 3 ale v každé 5 ploch (zachytí variabilitu uvnitř ohrad), z každé plochy 3 vzorky pro analýzy (zachytí variabilitu v biomase a v anal. metodě)
Pseudoreplikace ještě jednou Pozor na směsné vzorky: umožní zprůměrovat „nezajímavou variabilitu“, ale ztrácí se nezávislost pozorování v nich zahrnutých vzorků! Tohle nejsou nezávislá pozorování !!
Složitější modely ANOVA Faktoriálně a hierarchicky uspořádané faktory se mohou různě kombinovat, některé s pevným a některé s náhodným efektem Split-plot design: whole-plots vs. split-plots Opakovaná pozorování (repeated measures) BACI: before-after control-impact