V. Analýza rozptylu ANOVA.

Slides:



Advertisements
Podobné prezentace
Korelace a regrese Karel Zvára 1.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Úvod do analýzy rozptylu
Testování parametrických hypotéz
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Neparametrické metody a analýza rozptylu (lekce 3-7)
Testování statistických hypotéz
Statistické metody v ochraně kulturního dědictví
Jednofaktorová ANOVA Jednofaktorová analýza rozptylu
Odhady parametrů základního souboru
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 7. cvičení Heteroskedasticita
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
Porovnání průměrů více než dvou normálních rozdělení
Faktory a jejich uspořádání
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Obecný lineární model Analýza kovariance Nelineární modely
ANOVA (s použitím materiálů Petra Šmilauera)
Biostatistika 9. přednáška Aneta Hybšová
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Transformace v Anově. Předpoklady Anovy: normalita dat
Lineární regrese.
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Analýza variance (ANOVA).
Práce s výsledky statistických studií
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
1. cvičení
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Mann-Whitney U-test Wilcoxonův test Znaménkový test
PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8
IV..
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Statistické testování – základní pojmy
Dvoufaktorová analýza rozptylu
8. Analýza rozptylu a korelace
Parametrická analýza rozptylu Kruskal-Wallisův test
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
PSY252 Statistická analýza dat v psychologii II Seminář 9
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
ANOVA – analýza rozptylu
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

V. Analýza rozptylu ANOVA

ANOVA F = (vážený rozptyl mezi průměry skupin)/(rozptyl mezi jedinci v téže skupině) Pevné (fixed effect model) = model I normalita reziduí, y Náhodné (random effect model) = model II normalita reziduí, y a faktory

One-way ANOVA (jednoduché třídění) H0: μ1 = μ2 = … =μk α1 = α2 = ... = αk = 0 H1: alespoň jeden průměr se liší od ostatních = omnibus test, sleduje pouze porušení globální hypotézy rovnosti průměrů.

One-way ANOVA (jednoduché třídění) Neprůkazný výsledek testu znamená: 1) střední hodnoty se neliší (αj = 0) 2) důsledek chyby II. Druhu ANOVA pro k=2 odpovídá oboustranné variantě t-testu

One-way ANOVA ST = Se + SA ST = celkový součet čtverců Se = součet čtverců odchylek uvnitř výběrů SA = součet čtverců rozdílů mezi výběry ST = Se + SA

One-way ANOVA Velikost účinku Poměr vysvětlené variability k celkové variabilitě

Základní předpoklady Nezávislost měření uvnitř i mezi skupinami. Měření mají normální rozdělení s průměrem μi. Ve všech skupinách mají měření stejný rozptyl kolem průměru. Aditivita efektů hladin jednotlivých faktorů (vlivy se sčítají, odchylky od součtu = interakce) (pomocí testů, graficky)

Grafy

Efekty v analýze rozptylu Aditivní účinek: Pozorování = vliv faktoru A + celkový průměr + náhod. variabilita (formální podobnost s lineární regresí!!!) Multiplikativní účinek: Pozorování = celkový průměr x vliv faktoru A x náhod. variabilita Log(pozorování) = log(celkový průměr) + log(vliv faktoru A) + log(náhod. variabilita) (Tukeyův test neaditivity)

Analýza reziduálních hodnot Výpočet reziduí Grafické znázornění reziduí a jejich absolutních hodnot proti hodnotám faktorů a hodnotám závisle proměnné, zjišťování změn, trendů a konfigurací bodů. Ověření normality reziduí: graficky či testem

Analýza reziduálních hodnot Transformace dat: Logaritmická (rozptyl se zvětšuje úměrně s průměrem). Arcsinová (pro relativní četnosti) Druhá odmocnina (pro četnosti) Box – Coxova transformace Přítomnost odlehlých hodnot = nutno použít neparametrický postup (Kruskal – Wallisův test)

Bartlettův test homogenity rozptylů Testuje shodu několika rozptylů, měl by předcházet analýzu rozptylu. Hrubý odhad shody rozptylů

Simultánní porovnávání Plánované srovnání t-test (modifikace hladiny významnosti podle Bonferroniho): α’ = 0,05/k k = počet porovnávání nepříliš vhodný = rostou šířky intervalu spolehlivosti a pravděpodobnost chyby II. druhu!! Aby bylo možno spočítat korekci, už musíme předem vědět které dvojice chceme srovnávat. Post hoc testy Fisherův LSD test Scheffeho test

Simultánní porovnávání Tukey(ho) test SNK (Student-Newnam-Keuls) test (modifikace Tukeyho testu, silnější x větší pravděpodobnost chyby I. Druhu) Duncanův test (vyšší pravděpodobnost chyby I. Druhu, ta se vztahuje na konkrétní pozorování) Dunnettův test (více pokusů vs. 1 kontrola, podobný Tukeyho testu)

Simultánní porovnávání POZOR!!!! Simultánní porovnávání lze použít pouze pro model I (pevné efekty) !!!!!!! Pro model II (náhodné efekty) se někdy odhadují podíly vlivu na varianci (poměr variability uvnitř tříd a mezi třídami)

Kruskal-Wallisův test = neparametrická varianta jednoduché analýzy rozptylu, kritérium je založeno na rozptylu standardizovaných pořadí. Korigovaná hodnota (není-li H signifikantní) tj označuje kolikrát se ve smíchaném výběru opakuje j-té pozorování Simultánní srovnávání: modifikace testu podle Bonferroniho Jednostranné testování: test Jonckheere - Terpstra

Two-way ANOVA (dvojné třídění) H0: α1 = α2 = ... = αi = 0 β1 = β2 = ... = β i = 0 α1 β1 = α2 β2= ... = αi β i = 0 model I (pevné efekty) model II (náhodné efekty) model III (smíšené efekty)

Two-way ANOVA (dvojné třídění) Blok = faktor s náhodným efektem

Two-way ANOVA bez opakování Jedna hodnota pro každou kombinaci faktorů = není žádná variabilita, tudíž nelze testovat interakcí. K odhadu celkové variance lze použít pouze odchylky od aditivity.

Friedmanův test = neparametrická varianta dvoufaktorové analýzy rozptylu, určuje se pořadí hodnot v každém bloku, shodným hodnotám přiřazujeme průměrné pořadí skupiny. Pro malý rozsah výběru – speciální tabulky

Two-way ANOVA s opakováním Vyvážený model Stejný počet opakování pro každou kombinaci faktorů, nejjednodušší výpočet, největší síla testu pro daný počet pozorování. Nevyvážený model

Two-way ANOVA ST = Se + SA + SB + SI ST = celkový součet čtverců Se = součet čtverců odchylek uvnitř výběrů SA, B = hlavní efekty faktorů SI = efekt interakce ST = Se + SA + SB + SI

Interakce mezi faktory Hlavní efekt = přímý efekt faktoru na závisle proměnnou Interakční efekt = spojený efekt kombinace dvou a více faktorů na závisle proměnnou Vliv faktorů je neaditivní: = vliv náhodné variability (pokud interakci a priori zamítáme) = vliv interakce

Two-way ANOVA Podmínky: shoda rozptylů shoda kovariancí v kovarianční matici různých úrovní faktorů Podmínka sféricity kovarianční matice (nárůst chyby I. druhu) F test s Greenhouse-Geisserovou korekcí MANOVA

Two-way ANOVA Mnohonásobné porovnání Tukeyův test Dunnettův test

Analysis of means (ANOM) Hybrid analýzy rozptylu a regulačních diagramů, překročení konfidenčních pásů indikuje statisticky významný vliv daného faktoru. Lze testovat: Shodu průměrů Shodu rozptylů Shodu korelačních koeficientů

Analysis of means (ANOM) HANOM – pro heteroskedastická data ANOMR – pro pořadové hodnoty Compass plot

Analýza kovariance (ANCOVA) Na závisle proměnnou může mít vliv i rušivá proměnná (na intervalové škále), ANCOVA eliminuje její vliv. Kombinuje ANOVU s regresní analýzou