Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza variance ANOVA (s použitím materiálů Petra Šmilauera)

Podobné prezentace


Prezentace na téma: "Analýza variance ANOVA (s použitím materiálů Petra Šmilauera)"— Transkript prezentace:

1 Analýza variance ANOVA (s použitím materiálů Petra Šmilauera)

2 Příklady problémů Srovnáváme obsah dusíku v listech u pěti příbuzných druhů rostlin, a ptáme se, zda se druhy v dané charakteristice liší Srovnávám stav pacientů léčených placebem, se stavem pacientů léčených lékem A a léčených lékem B Obecně - srovnávám více skupin než 2

3 Proč nesrovnat po dvojicích, a nepoužít řadu t-testů? Druh ADruh B Druh C

4 Pokud máme k skupin (a srovnáváme k průměrů) Provádíme k.(k-1)/2 testů. Pravděpodobnost chyby prvního druhu je α v každém z nich. Šance, že uděláme alespoň jednu chybu prvního druhu pak roste s počtem porovnávaných průměrů

5 Pravděpodobnost, že se dopustíme chyby I. druhu, budeme-li užívat více t testů při hledání rozdílů mezi všemi páry ve skupině k průměrů. „Statistical fishing“ Neužívá se

6 Proto testujeme jen jednu hypotézu “Všechny skupiny jsou stejné” nebo přesněji H 0 :  1 =  2 =  3 =...=  k. za přepokladu homogenity variance (a normality). H A potom říká: není pravda, že jsou všechny střední hodnoty stejné (tedy alespoň jedna se liší od ostatních)

7 Analýza variance = ANOVA (ANalysis Of VAriance) V nejjednosušším případě - jednoduché třídění - jednocestná ANOVA Single Factor ANOVA, one-way ANOVA

8 Chováme králíčky (randomizovat!) Liší se tato tři králičí plemena hmotností? 3, 3, 4, 5, 54, 4, 6, 5, 67, 5, 6, 5, 7 Mezi plemeny nemusí být skutečný rozdíl: průměry skupin se mohou lišit jen proto, že mám malý počet pozorování Příklad výběrů z normální distribuce N(5,2), každý s 5 případy: průměry jsou například: 5.89, 4.50, 5.69, 5.73,.... H0:1=2=3H0:1=2=3 H A : alespoň jeden se liší

9 Zas ti králíci... SS tot = Celková suma čtverců Total sum of squares SS tot rozptyl kolem společného průměru SS tot = (3-5) 2 +(3-5) 2 +(4-5) 2 +(5-5) 2 + (5-5) 2 +(4-5) 2 +(4-5) (7-5) 2 = 22 Skupinová (modelová) suma čtverců Among-group sum of squares SS G rozptyl hodnot předpovídaných plemenem kolem celkového průměru SS G = (4-5) 2 +(4-5) 2 +(4-5) 2 +(4-5) 2 + (4-5) 2 +(5-5) 2 +(5-5) (6-5) 2 = 10 Residuální suma čtverců Error sum of squares SS e rozptyl hodnot kolem průměrů předpovídaných plemenem SS e = (3-4) 2 +(3-4) 2 +(4-4) 2 +(5-4) 2 + (5-4) 2 +(4-5) 2 +(4-5) (7-6) 2 = 12 Jaký počet nezávislých informací jsme použili? SS G + SS e DF tot = počet pozorování – 1 (pro celkový průměr) = 14 DF G = počet skup. průměrů – 1 (pro celkový průměr) = 2 DF e = počet pozorování – počet nezávislých průměrů = 12 MS tot = SS tot /DF tot = 22/14 = MS G = SS G /DF G = 10/2 = 5.0 MS e = SS e /DF e = 12/12 = 1.0

10 Platí Proto ANALÝZA VARIANCE - rozkládám varianci na jednotlivé její složky

11 Mám dva odhady variance (MS G a MS e ) za předpokladu platnosti nulové hypotézy Pokud nulová hypotéza platí, odhadují tutéž veličinu. Poměr dvou odhadů variance (proměnných s normálním rozdělením) má F- rozdělení. Pokud se jedná o skupiny s různými průměry, potom variabilita mezi skupinami bude větší, než variabilita uvnitř skupin.

12 Variabilitu mezi skupinami mohu prokázat jen proti variabilitě uvnitř skupin!!!

13 A pořád ještě králíci... Pokud platí nulová hypotéza, měly by být obě variability zhruba stejné – jejich poměr lze popsat F distribucí, se dvěma parametry: DF G a DF e MS G a MS e odhadují mezi-skupinovou a vnitro- skupinovou variabilitu na srovnatelné škále V našem příkladě F = 5.0 / 1.0 = 5.0 Pravděpodnost, že takto velkou nebo větší hodnotu „si vytáhnu“ z F 2,12 distribuce je asi Zamítám tedy H 0 ve prospěch H A s p=0.0263

14 Test probíhá klasicky Pozor, opět máme dvojí stupně volnosti Najdu kritickou hodnotu, tj. 95% kvantil F rozdělení, a provnám s hodnotou testového kriteria. Stačí 95% - ne 97.5%, protože kdyby H 0 neplatila, tak hodnota F bude vysoká. Velmi malé F je podezřelá shoda s nulovou hypotézou, too good to be true.

15 Dnes spíše P=0,026 Nebo přímo odečtu hodnotu ocásku

16 Model: X ij = μ+α i + ε ij Společná střední hodnota “posunutí” i-té skupiny proti společném u průměru náhodná variability N(0, σ 2 ) Nezávislá na α – tudíž předpokládám homogenitu variance Všimněte si také, že předpokládám normalitu uvnitř skupin Nulovou hypotézu tedy mohu vyjádřit α i = 0 pro všechna i (jinými slovy - posunutí mezi skupinami není, je tam jen náhodná variabilita)

17 Statistica nám napíše Intercept je test nulové hypotézy, že společný průměr je 0. Ve velké většině případů je taková nulová hypotéza na první pohled nesmyslná, a pak nemá smysl tento test prezentovat v diplomkách ani článcích.

18 Mám dvě skupiny (k=2), mám užít ANOVu, nebo t=test? Je to jedno, P vyjde v obou případech přesně strejně (F je druhou mocninou příslušného t)

19 Síla testu Roste s odchylkou od H 0 - ale to my neovlivníme :-( Roste s počtem pozorování ve skupině Roste s vyvážeností skupin Klesá s počtem skupin (nesnažte se porovnávat všechno možné, s malým počtem opakování ve skupině!)

20 Narušení předpokladů Robustnost Robustnost k narušení normality stoupá s počtem pozorování ve skupině Robustnost k narušení homogenity variancí výrazně klesá při nevyvážených počtech ve skupinách (Existují testy pro otestování obou – u normality testujeme normalitu reziduálů; u homogenity variancí je to Bartlet nebo Levene). Ale pozor, i síla těchto testů je závislá na počtu pozorování

21 Shoda variancí Test shody variancí mezi skupinami: Bartlettův test

22 Faktory s pevným a náhodným efektem Chci zjistit limitaci prvkem ve stravě: Králíci krmení stravou normální a vylepšenou hořčíkem, vápníkem, a železem. - Pevný efekt – zajímají mě ty čtyři typy stravy, a vybral jsem si tyhle záměrně a úmyslně. Mám 10 náhodně vybraných rostlin z louky, a zajímá mě, jestli se liší jejich potomstvo - náhodný efekt - jestli má lepší potomstvo moje rostlina 1 nebo moje rostlina 3 je jedno, hlavně jestli se jejich potomstvo liší. Dobrá zpráva – pro jednocestnou ANOVu vyjde výsledek (tedy F an P) stejně, bez ohledu na to, jestli je efekt pevný, nebo náhodný

23 Pevné a náhodné efekty Králičí příklad představoval problém, ve kterém faktor (nezávislá proměnná) plemeno obsahoval hladiny, které nás konkrétně zajímaly – podobně hnojené vs. nehnojené plochy, srovnání vlivu několika druhů léků. Plemeno, hnojení, druh léku jsou faktory s pevným efektem (fixed effect factor) V jiných situacích: porovnáváme variabilitu hodnot mezi kategoriemi vs. uvnitř kategorií: liší se hmotnost plodů mezi mateřskými rostlinami, tj. existuje systematický vliv rostliny? Konkrétní rostlina mne nezajímá, faktor rostlina odpovídá tzv. náhodnému efektu (random effect factor) ANOVA s náhodnými efekty se označuje také jako model II ANOVA (x model I – s pevnými efekty). Mixed-effect ANOVA V případě faktorů s náhodným efektem nemá smysl testovat rozdíly mezi konkrétními hladinami faktoru (nemá smysl dělat multiple comparisons)

24 Pro faktory s pevným efektem mě obvykle nestačí vědět, že všechny skupiny nejsou stejné, chci vědět, co se liší od čeho. Tahle otázka nemá jednoznačné dobré řešení (proto má řešení spoustu). Experiment-wise vs. comparison-wise Type I error rate. Bonferroni, False Discovery Rate

25 Mnohonásobná porovnání Tukey - asi “klasika” (aby pravděpodobnost chyby prvního druhu alespoň v jednom testu byla menší než α - tj. předem daná hladina významnosti, obvykle 5%). Obdoba mnoha t-testů kritické hodnoty závisí na k. Pro velká k je test zoufale slabý (dělám moc dílčích testů). SE se odhaduje na základě variability ve všech skupinách, nejen těch srovnávaných (abych zvětšil denominator DF a tím i sílu testu) - pozor - tady je velká citlivost k narušení homogenity variancí. Existuje ale i varianta Tukeyho testu pro nestejně velké výběry

26 Typické výsledky

27 V grafické formě Tady něco nehraje - zřejmě jsme se dopustili chyby druhého druhu [a tváříme se, že to nevadí]. Tukey zřetelně není ideální, ale nikdo vás za něj moc nezkritizuje

28 Jaké mám jiné možnosti? Dunnet - testuji jednotlivé zásahy jen vůči kontrole: méně testů (roste jen lineárně s počtem skupin) => silnější test. Mohu užít i jednostranné testy. Kontrasty - testování “skupin skupin”, většinou logicky plánované Plánovaná pozorování

29 Neparametrické možnosti Permutační testy (náhodně rozděluju pozorování do skupin o stejné velikosti, jako jsou v experimentu, a tím si generuji rozdělení testové statistiky za platnosti nulové hypotézy) - PERMANOVA Kruskal-Wallisův test - založený na pořadí Oba testy testují H 0, že se jedná o výběry z téhož základního souboru. Mají-li být formulovány jako testy o poloze, musím mít předpoklad, že tvar rozdělení je ve všech skupinách stejný. Mediánový test - porovnávám počet pozorování nad a pod mediánem v jednotlivých skupinách.

30 Kruskal-Wallis R i - součet pořadí v jednotlivých skupinách n i - počet pozorování v jednotlivých skupinách N - celkový počet pozorování

31 Kruskal – Wallisův test: příklad Porovnáváme četnost určitého druhu hmyzu ve třech vegetačních patrech. Původní data nahradíme pořadím

32 I po průkazném K-W testu Mohu užít mnohonásobná porovnání - testuji, které skupiny se liší průměrným pořadím.


Stáhnout ppt "Analýza variance ANOVA (s použitím materiálů Petra Šmilauera)"

Podobné prezentace


Reklamy Google