Faktory a jejich uspořádání

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Analýza experimentu pro robustní návrh
Úvod do analýzy rozptylu
Testování parametrických hypotéz
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Faktory a jejich uspořádání
Další modely ANOVY.
Power analysis aneb Co to vlastně znamená P0.05 (Podle Scheiner & Gurevitch 2001: Desing and analysis of ecological experiments.
Monte Carlo permutační testy & Postupný výběr
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Analýza variance (Analysis of variance)
Návrh modelů Jan Brůha IREAS. Návrh otázek a modelů Jaký vliv měla podpora z ESF v OP LZZ 1.1 na obrat / zisk a zaměstnanost firem? – Jde o srovnání mezi.
Diskrétní rozdělení a jejich použití
CHYBY MĚŘENÍ.
Testování hypotéz vymezení důležitých pojmů
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
ANOVA (s použitím materiálů Petra Šmilauera)
Inference jako statistický proces 1
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Data s diskrétním rozdělením
Experimentální design
Obecný lineární model Fitované hodnoty and regresní residuály
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Experimentální design. Experimenty vs. Observační studie Manipulativní experimenty: jediná možnost jak prokázat kauzální závislost ALE Časová a prostorová.
Transformace v Anově. Předpoklady Anovy: normalita dat
Úvod do gradientové analýzy
Lineární regrese.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Práce s výsledky statistických studií
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Motivační příklad – 1a Vliv rodičů a prostředí na vývoj mláďat Nejstarší mládě v každém hnízdě měřeno ve věku X dní Vysvětlující údaje: počet mláďat, stáří.
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8
IV..
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Ukládání dat biodiverzity a jejich vizualizace
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Statistické testování – základní pojmy
Dvoufaktorová analýza rozptylu
Neparametrické testy parametrické a neparametrické testy
4. cvičení
Neparametrické testy parametrické a neparametrické testy
Popisná analýza v programu Statistica
Induktivní statistika
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
PSY252 Statistická analýza dat v psychologii II Seminář 9
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Kapitola 3: Centrální tendence a variabilita
Lineární regrese.
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

Faktory a jejich uspořádání Faktor (kvalitativní proměnná) factor (= categorial variable = categorical v.) Hladina faktoru factor level Máme-li dva nebo více faktorů, záleží správná volba modelu ANOVA na jejich vzájemném vztahu (uspořádání, design) Faktoriální (factorial design) x hierarchické (nested = hierarchical design)

Faktoriální uspořádání Každá hladina určitého faktoru je kombinována s každou hladinou ostatních faktorů Mají-li naše faktory jen 2 hladiny, pak při 2 faktorech máme 4 kombinace při 3 faktorech máme 8 kombinací ... Obecně, mají-li faktory A, B, C,... a, b, c,... hladin, pak je počet kombinací a*b*c*...

Hierarchické uspořádání tři lokality na každé lokalitě tři kytky na každé pět měření Faktor Kytka je vložen do faktoru Lokalita (Kytka is nested in Lokalita) Kytka 1 (kyt1) z první lokality nemá nic společného s kytkou 1 z druhé lokality

Faktoriální uspořádání: vyváženost Je nejlepší, pokud máme pro každou kombinaci hladin faktorů stejný počet pozorování, dostáváme pak nejsilnější a nejvíce robustní test Přinejmenším bychom ale měli mít proporční uspořádání

Dvoucestná ANOVA bez interakce Nejprve začneme s modelem, ve kterém předpokládáme, že vlivy hnojení a kosení jsou aditivní: Xijk = m + ai + bj + eijk m je celkový (společný) průměr (např. 22.5) a je vliv kosení (např. a1=-5.0, a2=+5.0) b je vliv hnojení (např. b1=+2.5, b2=-2.5) e je náhodná variabilita, nezávislá na hodnotách faktorů

Dvoucestná ANOVA bez interakce Aditivitu faktorů často nemůžeme předpokládat a priori, ověřujeme ji použitím neaditivního modelu (s interakcí): test interakčního členu a interaction plot SSTotal=SShnojeno+SSkoseno+SShnojeno*koseno+SSerror H0A: a1=a2=0 hnojení nemá vliv H0B: b1=b2=0 kosení nemá vliv H0AB: g11=g12=g21=g22=0 není interakce

Dvoucestná ANOVA s interakcí Model bez interakce: Xijk = m + ai + bj + eijk Přidáme-li interakci: Xijk = m + ai + bj + gij + eijk Interakce mezi faktory je symetrická, a tak nám říká buď: „velikost (případně i směr) vlivu hnojení závisí na tom, zda je plocha kosená nebo ne“ nebo „velikost (případně i směr) vlivu kosení závisí na tom, zda je plocha hnojená nebo ne“ Speciální případ: “kosení má vliv jen u nehnojených ploch“

Dvoucestná ANOVA s interakcí Není interakce: Je interakce: Hlavní efekt (main effect) Je třeba zdůraznit, že spojování průměrů tady není interpolací: jde nám o zobrazení interakce pomocí (ne)rovnoběžnosti čar Když popisuji výsledky, nestačí říct, že interakce je průkazná, musím uvést proč (kde a jaká je odchylka od aditivity)

Méně častý typ interakce Vliv 2 léků (A a B) na snížení teploty testován faktoriálním experimentem Hlavní efekt léku A vyšel neprůkazný, hlavní efekt léku B také, ale vyšla průkazná interakce Interaction plot vypadá takto: Výsledek neznamená, že by léky nebyly účinné! Jejich účinek se při společném podání ruší.

F statistika v dvoucestné ANOVA faktory s pevným efektem Fhnojeno, Fkoseno, Fhnojeno*koseno jsou všechny počítány dělením příslušného MS hodnotou MSError Například: Fhnojeno=352.8/8.025 = 43.963 Není tomu ale tak v případě faktorů s náhodným efektem!

Mnohonásobná porovnání Ve faktoriální analýze variance (s 2 a více faktory) provádím obdobně jako ve one-way ANOVA V našem příkladu nemá smysl: máme jen dvě hladiny pro každý z faktorů Mohu porovnávat buď pro hlavní efekty nebo i pro interakci (tj. všechny faktoriálně vytvořené skupiny mezi sebou) Co budu porovnávat rozhoduji já (ovšem s ohledem na výsledky testu)

F statistika v dvoucestné ANOVA mixed effects (náhodný+pevný) Zkoumám vliv kosení na druhovou bohatost, máme tři lokality, na každé mám tři kosené a tři nekosené plochy Fkoseno = MSkoseno / MSlokalita*koseno tj. 206.72 / 5.39

Experimentální uspořádání: 1 – úplně znáhodněné Máme experiment se 4 zásahy (K, Z1, Z2, Z3) a se 4 opakováními pro každý typ zásahu (= pro každou hladinu faktoru) Je-li všech 16 ploch rozmístěno zcela náhodně (completely randomised design), hodnotím jednocestnou analýzou variance

Experimentální uspořádání: 2 – zcela nesprávné Vliv zásahu nelze v datech získaných z tohoto špatného uspořádání odlišit od vlivu umístění v prostoru Pojem pseudoreplikace (pseudoreplication)

Experimentální uspořádání: 3 – znáhodněné bloky Randomised blocks, ale pozor, někdy též jako Completely randomised blocks! Náhodný faktor Blok, two-way ANOVA bez interakce. Silnější test, pokud se bloky liší

Experimentální uspořádání: 4 – Latinský čtverec Latin square Známe směry prostorové variability a buď je jen jeden (např. vlhkost) nebo jsou kolmé 3-way ANOVA, náhodné fak. řádek a sloupec

Friedmanův test Neparametrický test, zobecnění Wilcoxonova testu Založeno na pořadí hodnot (pro jednotlivé hladiny faktoru) uvnitř bloků a je počet hladin studovaného faktoru b je počet bloků Ri je součet hodnot pořadí pro i-tou hladinu

Transformace: problémy s aditivitou 1 Porovnávám výšky sedmikrásek a slunečnic a jejich odpověď na přidání živin Faktoriální uspořádání, 2 faktory s pevným efektem a 2 hladinami (druh a živiny) Tři testovatelné hypotézy (2 hlavní efekty plus interakce): výška sedmikrásek a slunečnic se neliší výška rostlin se mění po přidání živin vliv přidání živin je stejný pro oba druhy

Transformace: problémy s aditivitou 2 Lze očekávat heterogenitu variancí (hodnoty výšky budou mít asi větší varianci u slunečnic než u sedmikrásek) S.D. bude lineárně závislá na průměru (CV bude konstantní) Interakce v ANOVA modelu testuje aditivitu, a tedy nárůst výšky díky přidání živin stejný (v cm) u obou druhů – např. 10 cm:

Transformace: problémy s aditivitou 3 Taková aditivita ale neodpovídá „biologické realitě“ – lze spíše očekávat nárůst proporční, např. o 100% Odpovídající model pro vliv druhu (slunečnice je 10-krát vyšší než sedmikráska; hnojení zvýší výšku 2-krát) je: Chceme-li dostat model ANOVA, musíme logaritmovat Tabulka logaritmů průměrných výšek pak vypadá takto:

Logaritmická transformace Pokud byla v původních datech S.D. lineárně závislá na průměru, vede k homogenitě var. Mění multiplikativní efekty na aditivní Mění lognormální rozdělení e na normální Problém s nulami: v biologických datech časté (pokryvnost či početnost druhu ve vzorku) X’ = log(X+c), c by mělo odpovídat škále hodnot X (c=1 vhodné pro počty, procenta) Přičtení c narušuje převod multiplikativity na aditivitu

Jiné transformace Předpokládáme-li pro závislou proměnnou Poissonovu distribuci: Pro procenta a podíly (na škále 0 – 1):

Hierarchické uspořádání (nested design) tři lokality na každé lokalitě tři kytky na každé pět měření V příkladě je faktor Kytka jasně s náhodným efektem, u faktoru Lokalita si lze představit obě možnosti. Takto vypadají nejčastější případy hierarchické analýzy variance Vyrovnanost počtu pozorování je i zde velmi důležitá

Hierarchické uspořádání příklad s délkou trubky 1 3 2

Hierarchické uspořádání příklad s délkou trubky 2 Při rozkladu sumy čtverců (SS) počítáme čtverce rozdílů každého pozorování (průměru) od jeho hierarchicky nejbližšího vyššího příslušného průměru Jsou-li hierarchicky nižší efekty náhodné, je F statistikou poměr MS efektu a MS nejbližšího hierarchicky nižšího efektu

Nejčastější použití hierarchické analýzy variance Rozklad variability znaků mezi jednotlivé hierarchické úrovně (taxonomické / prostorové) Často mne zajímá především hierarchicky nejvýše postavený faktor, podřazené faktory umožňují oddělení variability na nižších úrovních  zvýšení síly testu Příklad: vliv pastvy – 6 ohrad: 3 + 3 ale v každé 5 ploch (zachytí variabilitu uvnitř ohrad), z každé plochy 3 vzorky pro analýzy (zachytí variabilitu v biomase a v anal. metodě)

Pseudoreplikace ještě jednou Pozor na směsné vzorky: umožní zprůměrovat „nezajímavou variabilitu“, ale ztrácí se nezávislost pozorování v nich zahrnutých vzorků! Tohle nejsou nezávislá pozorování !!

Složitější modely ANOVA Faktoriálně a hierarchicky uspořádané faktory se mohou různě kombinovat, některé s pevným a některé s náhodným efektem Split-plot design: whole-plots vs. split-plots Opakovaná pozorování (repeated measures) BACI: before-after control-impact