Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)

Podobné prezentace


Prezentace na téma: "Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)"— Transkript prezentace:

1 Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)

2 Motivační příklady Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU) Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin Srovnání platů podle bydliště respondentů (krajů) …

3 Proč nepoužívat řadu dvouvýběrových t-testů? Skupina ISkupina II Skupina III Porovnáváme-li k tříd (skupin), provádíme testů. V každém z nich je pravděpodobnost chyby prvního druhu α. Pravděpodobnost, že uděláme alespoň jednu chybu prvního druhu pak roste s počtem porovnávaných tříd.

4 Pravděpodobnost chyby I. druhu při srovnávání typu „každý s každým“ - „Statistical fishing“

5 Motivační příklad Porovnejte úspěšnost absolventů gymnázii, SPŠ a odborných učilišť s maturitou (OU) u přijímací zkoušky z matematiky. Dosažené výsledky náhodně vybraných patnácti studentů jsou uvedeny v následující tabulce. GymnáziumSPŠOU

6 Co je příčinou rozdílných výsledků? Vliv sledovaného faktoru tj. rozdíly mezi kvalitou výuky na jednotlivých typech středních škol. Reziduální (zbytkové) vlivy tj. rozdíly mezi školami v rámci tříd (není gymnázium jako gymnázium), rozdíly mezi pedagogy v rámci jedné školy, rozdíly mezi schopnostmi jednotlivých studentů, …

7 Jak se projevují tyto dva typy vlivů? Vliv sledovaného faktoru se projevuje rozdíly mezi třídami Reziduální (zbytkové) vlivy se projevují rozdíly uvnitř tříd

8 Co testujeme analýzou rozptylu? Jsou průměry jednotlivých výběrů (tříd) rozdílné vlivem různých středních hodnot příslušných populací, nebo lze rozdíly mezi průměry přičíst na vrub náhodnému kolísání?

9 Jak kvantifikovat tyto rozdíly? Rozdíly mezi třídami (vliv faktoru) kvantifikuje mezitřídní variabilita (součet čtverců mezi třídami) : Rozdíly uvnitř tříd (reziduální vlivy) kvantifikuje vnitřní variabilita (součet čtverců uvnitř tříd):

10 Celková variabilita SS TOTAL C elková variabilita (celkový součet čtverců) je definována jako součet mezitřídní variability a vnitřní variability.

11 Srovnejte údaje ve dvou následujících tabulkách – bodové hodnocení náhodně vybraných studentů. GymnáziumSPŠOU GymnáziumSPŠOU

12 Ukázka výpočtu mezitřídní a vnitřní variability

13

14 Rice Virtual Lab in Statistics Rice Virtual Lab in Statistics autor: David Lane Applet – One Way AnovaOne Way Anova Úkol Všimněte si změn poměru mezitřídní a vnitrotřídní variability při zachování průměrů a proměnném výb. rozptylu.

15 ANOVA Je možné, že výběry reprezentovány takto rozdílnými průměry pocházejí ze stejného rozdělení? H 0 : H A : Předpoklad: normalita výběrů, (homoskedasticita)

16 Odhad společného rozptylu σ 2 za předpokladu platnosti H 0 Odhad na základě mezitřídní variability (rozptyl mezi třídami, průměrný mezitřídní součet čtverců, vysvětlený rozptyl) Odhad na základě vnitřní variability (rozptyl uvnitř tříd, průměrný součet čtverců uvnitř tříd, nevysvětlený rozptyl)

17 F-ratio (F-poměr) Poměr dvou odhadů rozptylu (na základě výběrů z normálního rozdělení) má Fisher-Snedecorovo rozdělení. Platí-li H 0 : MSB je srovnatelné s MSW, F-poměr se pohybuje kolem 1. Platí-li H A : MSB je mnohem větší než MSW, F-poměr je mnohem větší než 1.

18 ANOVA - shrnutí Formulace H 0 a H A : H 0 : H A : Testová statistika:

19 ANOVA - shrnutí Předpoklady testu: Normalita (výběry pocházejí z populací s normálním rozdělením) Homoskedasticita (shoda rozptylů – výběry pocházejí z populací se shodným rozptylem) Výpočet p-value:

20 Tabulka ANOVA je typickým způsobem prezentace výsledku ANOVy.

21 Síla testu Zvyšuje se se zvětšující se odchylkou od H 0 (to nelze ovlivnit) Zvyšuje se s počtem pozorování ve třídách Zvyšuje se s vyvážeností tříd Klesá s rostoucím počtem tříd

22 Post Hoc analýza (vícenásobné porovnávání) Vysoký F-poměr indikuje existenci významných změn mezi populačními výběrovými průměry a vede k zamítnutí H 0. V tomto případě je nutné identifikovat, které z populací signalizují významnou odchylku průměru. LSD metoda, Duncanův test, Tukeyův test pro významné rozdíly, Scheffého test a Bonferoniho test POZOR!!! Použijeme-li post hoc analýzu neoprávněně (v případě nezamítnuti H 0 ), můžeme získat informaci o falešně významných rozdílech mezi průměry.

23 Příklady Litschmannová M., Statistika I. – cvičení, ANOVA ANOVA – 13.1, 13.2

24 Jak postupovat při nesplnění předpokladů? Porušení homoskedasticity: Pokusíme se stabilizovat rozptyl pomocí transformací proměnných (není obsahem Statistiky I.). Pokud se nám rozptyl stabilizovat nepodaří, nemůžeme vliv faktoru testovat. Porušení normality: Pokud je splněna podmínka homoskedasticity, můžeme použít neparametrickou obdobu ANOVy – Kruskall – Wallisův test (vícevýběrový test o shodě mediánů)

25 Kruskall – Wallisův test Formulace H 0 a H A : H 0 : H A : neplatí H 0 Volba testového kritéria: (, T i jsou součty pořadí pro jednotlivé výběry)

26 Kruskall – Wallisův test Předpoklad testu: Homoskedasticita Výpočet p-value:

27 Příklad výpočtu pozorované hodnoty a p-value při Kruskall-Wallisově testu Výběr IIIIIIIV Výběr IIIIIIIV ,5 12, ,589,535 25,54, ,5 194,512, ,5 25, Rozsah výběru n i Součty pořadí T i , ,35625,085849,037442,3 2502,8803,67154,13744,2

28 Příklady Litschmannová M., Statistika I. – cvičení, ANOVA ANOVA – 13.3


Stáhnout ppt "Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)"

Podobné prezentace


Reklamy Google