Faktory a jejich uspořádání

Slides:

Advertisements

Podobné prezentace

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.

Advertisements

Analýza experimentu pro robustní návrh

Úvod do analýzy rozptylu

Testování parametrických hypotéz

Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)

Další modely ANOVY.

Power analysis aneb Co to vlastně znamená P0.05 (Podle Scheiner & Gurevitch 2001: Desing and analysis of ecological experiments.

Monte Carlo permutační testy & Postupný výběr

F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)

Chováme králíčky Liší se tato tři králičí plemena hmotností?

Cvičení 6 – 25. října 2010 Heteroskedasticita

Analýza variance (Analysis of variance)

Návrh modelů Jan Brůha IREAS. Návrh otázek a modelů Jaký vliv měla podpora z ESF v OP LZZ 1.1 na obrat / zisk a zaměstnanost firem? – Jde o srovnání mezi.

Diskrétní rozdělení a jejich použití

Faktory a jejich uspořádání

Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.

Náhodná proměnná Rozdělení.

Testování hypotéz vymezení důležitých pojmů

Obecný lineární model Analýza kovariance Nelineární modely

Základy ekonometrie Cvičení září 2010.

ANOVA (s použitím materiálů Petra Šmilauera)

Inference jako statistický proces 1

Kontingenční tabulky Závislost dvou kvalitativních proměnných.

Data s diskrétním rozdělením

Experimentální design

základní principy a použití

Experimentální design. Experimenty vs. Observační studie Manipulativní experimenty: jediná možnost jak prokázat kauzální závislost ALE Časová a prostorová.

Transformace v Anově. Předpoklady Anovy: normalita dat

Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.

Úvod do gradientové analýzy

Lineární regrese.

Lineární regresní analýza

Závislost dvou kvantitativních proměnných

Analýza variance (ANOVA).

Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.

Odhad metodou maximální věrohodnost

Práce s výsledky statistických studií

Pohled z ptačí perspektivy

V. Analýza rozptylu ANOVA.

Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.

8. Kontingenční tabulky a χ2 test

Biostatistika 8. přednáška

PSY717 – statistická analýza dat

Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0

Popisná analýza v programu Statistica

Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.

Mann-Whitney U-test Wilcoxonův test Znaménkový test

PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8

Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.

Ukládání dat biodiverzity a jejich vizualizace

Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0

Statistické testování – základní pojmy

Dvoufaktorová analýza rozptylu

Neparametrické testy parametrické a neparametrické testy

Neparametrické testy parametrické a neparametrické testy

Popisná analýza v programu Statistica

Induktivní statistika

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Úvod do statistického testování

PSY252 Statistická analýza dat v psychologii II Seminář 9

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Parciální korelace Regresní analýza

Typy proměnných Kvalitativní/kategorická binární - ano/ne

Neparametrické testy pro porovnání polohy

Lineární regrese.

7. Kontingenční tabulky a χ2 test

Induktivní statistika

Základy statistiky.

Transkript prezentace:

Faktory a jejich uspořádání Faktor (kvalitativní proměnná) factor (= categorial variable = categorical v.) Hladina faktoru factor level Máme-li dva nebo více faktorů, záleží správná volba modelu ANOVA na jejich vzájemném vztahu (uspořádání, design) Faktoriální (factorial design) x hierarchické (nested = hierarchical design)

Faktoriální uspořádání Každá hladina určitého faktoru je kombinována s každou hladinou ostatních faktorů Mají-li naše faktory jen 2 hladiny, pak při 2 faktorech máme 4 kombinace při 3 faktorech máme 8 kombinací ... Obecně, mají-li faktory A, B, C,... a, b, c,... hladin, pak je počet kombinací a*b*c*...

Faktoriální uspořádání v terénu - faktory: tvar a vzor

Hierarchické uspořádání tři lokality na každé lokalitě tři kytky na každé pět měření Faktor Kytka je vložen (vnořen) do faktoru Lokalita (Kytka is nested in Lokalita) Kytka 1 (kyt1) z první lokality nemá nic společného s kytkou 1 z druhé lokality

Faktoriální uspořádání: vyváženost Je nejlepší, pokud máme pro každou kombinaci hladin faktorů stejný počet pozorování, dostáváme pak nejsilnější a nejvíce robustní test Přinejmenším bychom ale měli mít proporční uspořádání

Když jsou faktory “nezávislé”, a design je vyvážený Vyvážený design Váhy krys

Když jsou faktory “nezávislé”, a design je proporční Proporční design Váhy krys

Když jsou faktory “závislé”, tj. design není vyvážený ani proporční Neproporční design Váhy krys Podle marginálnch průměrů se zdá, jako by poslech hudby ovlivňoval váhu krys. (Jsou metody, které si s tím jsou schopny částečně poradit [LS means], ale ztrácí se síla testu pro oba faktory).

Statistica spočítá cokoliv, ale Pokud mám proporční uspořádání, výsledek by měl být vždy stejný Dvoucestnou ANOVu mohu počítat i při neproporčním uspořádání - předvolba, která tam je (Type III sum of squares - orthogonal) je v pořádku, ale mohu se podle situace pokusu rozhodnout i pro jiný (asi Type I - sequential), a měl bych vědět, co který znamená (a proč se tedy výsledky liší).

Dvoucestná ANOVA bez interakce Nejprve začneme s modelem, ve kterém předpokládáme, že vlivy hnojení a kosení na počet druhů jsou aditivní: Xijk = m + ai + bj + eijk m je celkový (společný) průměr (např. 22.5) a je vliv kosení (např. a1=-5.0, a2=+5.0) b je vliv hnojení (např. b1=+2.5, b2=-2.5) e je náhodná variabilita, nezávislá na hodnotách faktorů

Dvoucestná ANOVA bez interakce Aditivitu faktorů často nemůžeme předpokládat a priori, ověřujeme ji použitím neaditivního modelu (s interakcí): test interakčního členu a interaction plot SSTotal=SShnojeno+SSkoseno+SShnojeno*koseno+SSerror H0A: a1=a2=0 hnojení nemá vliv H0B: b1=b2=0 kosení nemá vliv H0AB: g11=g12=g21=g22=0 není interakce

Dvoucestná ANOVA s interakcí Model bez interakce: Xijk = m + ai + bj + eijk Přidáme-li interakci: Xijk = m + ai + bj + gij + eijk Interakce mezi faktory je symetrická, a tak nám říká buď: „velikost (případně i směr) vlivu hnojení závisí na tom, zda je plocha kosená nebo ne“ nebo „velikost (případně i směr) vlivu kosení závisí na tom, zda je plocha hnojená nebo ne“ Speciální případ: “kosení má vliv jen u nehnojených ploch“ (můžeme vyjádřit i „hnojení má vliv jen u kosených ploch“)

Dvoucestná ANOVA s interakcí Není interakce: Je interakce: Hlavní efekt (main effect) Je třeba zdůraznit, že spojování průměrů tady není interpolací: jde nám o zobrazení interakce pomocí (ne)rovnoběžnosti čar Když popisuji výsledky, nestačí říct, že interakce je průkazná, musím uvést proč (kde a jaká je odchylka od aditivity)

Méně častý typ interakce Vliv 2 léků (A a B) na snížení teploty testován faktoriálním experimentem Hlavní efekt léku A vyšel neprůkazný, hlavní efekt léku B také, ale vyšla průkazná interakce Interaction plot vypadá takto: Výsledek neznamená, že by léky nebyly účinné! Jejich účinek se při společném podání ruší.

F statistika v dvoucestné ANOVA faktory s pevným efektem Fhnojeno, Fkoseno, Fhnojeno*koseno jsou všechny počítány dělením příslušného MS hodnotou MSError Například: Fhnojeno=352.8/8.025 = 43.963 Není tomu ale tak v případě faktorů s náhodným efektem!

Mnohonásobná porovnání Ve faktoriální analýze variance (s 2 a více faktory) provádím obdobně jako ve one-way ANOVA V našem příkladu nemá smysl: máme jen dvě hladiny pro každý z faktorů Mohu porovnávat buď pro hlavní efekty nebo i pro interakci (tj. všechny faktoriálně vytvořené skupiny mezi sebou) Co budu porovnávat rozhoduji já (ovšem s ohledem na výsledky testu)

F statistika v dvoucestné ANOVA mixed effects (náhodný+pevný) Zkoumám vliv kosení na druhovou bohatost, máme tři lokality, na každé mám tři kosené a tři nekosené plochy Fkoseno = MSkoseno / MSlokalita*koseno tj. 206.72 / 5.39

Experimentální uspořádání: 1 – úplně znáhodněné Máme experiment se 4 zásahy (K, Z1, Z2, Z3) a se 4 opakováními pro každý typ zásahu (= pro každou hladinu faktoru) Je-li všech 16 ploch rozmístěno zcela náhodně (completely randomised design), hodnotím jednocestnou analýzou variance

Experimentální uspořádání: 2 – zcela nesprávné Vliv zásahu nelze v datech získaných z tohoto špatného uspořádání odlišit od vlivu umístění v prostoru Pojem pseudoreplikace (pseudoreplication)

Experimentální uspořádání: 3 – znáhodněné bloky Randomised blocks, ale pozor, někdy též jako Completely randomised blocks nebo randomized complete blocks! Náhodný faktor Blok, two-way ANOVA bez interakce. Silnější test, pokud se bloky liší

Experimentální uspořádání: 4 – Latinský čtverec Latin square Známe směry prostorové variability a buď je jen jeden (např. vlhkost) nebo jsou kolmé 3-way ANOVA, náhodné fak. řádek a sloupec

Friedmanův test a je počet hladin studovaného faktoru b je počet bloků Neparametrický test pro úplné znáhodnění bloky, ale na jiném principu než Wilcoxonův test (tady mi stačí hodnoty v rámci bloku seřadit, nepotřebuju tedy odečítat) Založeno na pořadí hodnot (pro jednotlivé hladiny faktoru) uvnitř bloků a je počet hladin studovaného faktoru b je počet bloků Ri je součet hodnot pořadí pro i-tou hladinu

Transformace: problémy s aditivitou 1 Porovnávám výšky sedmikrásek a slunečnic a jejich odpověď na přidání živin Faktoriální uspořádání, 2 faktory s pevným efektem a 2 hladinami (druh a živiny) Tři testovatelné hypotézy (2 hlavní efekty plus interakce): výška sedmikrásek a slunečnic se neliší výška rostlin se mění po přidání živin vliv přidání živin je stejný pro oba druhy

Transformace: problémy s aditivitou 2 Lze očekávat heterogenitu variancí (hodnoty výšky budou mít asi větší varianci u slunečnic než u sedmikrásek) S.D. bude lineárně závislá na průměru (CV bude konstantní) Interakce v ANOVA modelu testuje aditivitu, a tedy nárůst výšky díky přidání živin stejný (v cm) u obou druhů – např. 10 cm:

Transformace: problémy s aditivitou 3 Taková aditivita ale neodpovídá „biologické realitě“ – lze spíše očekávat nárůst proporční, např. o 100% Odpovídající model pro vliv druhu (slunečnice je 10-krát vyšší než sedmikráska; hnojení zvýší výšku 2-krát) je: Chceme-li dostat model ANOVA, musíme logaritmovat Tabulka logaritmů průměrných výšek pak vypadá takto:

Logaritmická transformace Pokud byla v původních datech S.D. lineárně závislá na průměru, vede k homogenitě var. Mění multiplikativní efekty na aditivní Mění lognormální rozdělení e na normální Problém s nulami: v biologických datech časté (pokryvnost či početnost druhu ve vzorku) X’ = log(X+c), c by mělo odpovídat škále hodnot X (c=1 vhodné pro počty, procenta) Přičtení c narušuje (někdy ne moc) převod multiplikativity na aditivitu

Jiné transformace Předpokládáme-li pro závislou proměnnou Poissonovu distribuci: Pro procenta a podíly (na škále 0 – 1):

Hierarchické uspořádání (nested design) tři lokality na každé lokalitě tři kytky na každé pět měření V příkladě je faktor Kytka jasně s náhodným efektem, u faktoru Lokalita si lze představit obě možnosti. Takto vypadají nejčastější případy hierarchické analýzy variance Vyrovnanost počtu pozorování je i zde velmi důležitá

Hierarchické uspořádání příklad s délkou trubky 1 3 2

Hierarchické uspořádání příklad s délkou trubky 2 Při rozkladu sumy čtverců (SS) počítáme čtverce rozdílů každého pozorování (průměru) od jeho hierarchicky nejbližšího vyššího příslušného průměru Jsou-li hierarchicky nižší efekty náhodné, je F statistikou poměr MS efektu a MS nejbližšího hierarchicky nižšího efektu

Nejčastější použití hierarchické analýzy variance Rozklad variability znaků mezi jednotlivé hierarchické úrovně (taxonomické / prostorové) Často mne zajímá především hierarchicky nejvýše postavený faktor, podřazené faktory umožňují oddělení variability na nižších úrovních  zvýšení síly testu Příklad: vliv pastvy – 6 ohrad: 3 + 3 ale v každé 5 ploch (zachytí variabilitu uvnitř ohrad), z každé plochy 3 vzorky pro analýzy (zachytí variabilitu v biomase a v anal. metodě)

Pseudoreplikace ještě jednou Pozor na směsné vzorky: umožní zprůměrovat „nezajímavou variabilitu“, ale ztrácí se nezávislost pozorování v nich zahrnutých vzorků! Ale pozor – směsné vzorky samy o sobě není nic špatmného, ale musí být replikované Tohle nejsou nezávislá pozorování !!

Složitější modely ANOVA Faktoriálně a hierarchicky uspořádané faktory se mohou různě kombinovat, přičemž některé budou s pevným a některé s náhodným efektem (Tohle nechci ke zkoušce, ale bude se vám to hodit na diplomky apod. – V mnoha diplomkách si s tím, co jste se naučili v tomhle kursu nevystačíte.)

Split plot (main plots and split plots - two error levels) 6 polí (3 vápenec, 3 žula), na každém poli 3 typy zásahů

ANOVA - Repeated measures Mám nějaké experimentální uspořádání, a každý objekt sleduji v průběhu času, např.

Replicated BACI - repeated measures