Jednofaktorová ANOVA Jednofaktorová analýza rozptylu

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Úvod do analýzy rozptylu
Testování parametrických hypotéz
Neparametrické metody a analýza rozptylu (lekce 3-7)
Testování neparametrických hypotéz
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Analýza variance (Analysis of variance)
Porovnání průměrů více než dvou normálních rozdělení
Testování hypotéz přednáška.
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
ANOVA (s použitím materiálů Petra Šmilauera)
Biostatistika 9. přednáška Aneta Hybšová
Odhady parametrů základního souboru
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
základní principy a použití
Transformace v Anově. Předpoklady Anovy: normalita dat
Lineární regrese.
Lineární regresní analýza
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
V. Analýza rozptylu ANOVA.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
MATEMATICKÁ STATISTIKA
Dvouvýběrový t-test 11 stejně starých selat bylo náhodně rozděleno do 2 skupin. První skupina byla krmena krmivem A, druhá krmivem B. Po 6 měsících byly.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
Jednoduchý lineární regresní model Tomáš Cahlík 2. týden
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
1. cvičení
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Mann-Whitney U-test Wilcoxonův test Znaménkový test
IV..
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Testování hypotéz párový test
Dvoufaktorová analýza rozptylu
Neparametrické testy parametrické a neparametrické testy
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Neparametrické testy parametrické a neparametrické testy
Odhady parametrů základního souboru
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Pravděpodobnost a matematická statistika I.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Analýza kardinálních proměnných
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)

Motivační příklady Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU) Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin Srovnání platů podle bydliště respondentů (krajů) …

Proč nepoužívat řadu dvouvýběrových t-testů? Skupina I Skupina II Skupina III Porovnáváme-li k tříd (skupin), provádíme testů. V každém z nich je pravděpodobnost chyby prvního druhu α. Pravděpodobnost, že uděláme alespoň jednu chybu prvního druhu pak roste s počtem porovnávaných tříd.

Pravděpodobnost chyby I Pravděpodobnost chyby I. druhu při srovnávání typu „každý s každým“ - „Statistical fishing“

Motivační příklad Porovnejte úspěšnost absolventů gymnázii, SPŠ a odborných učilišť s maturitou (OU) u přijímací zkoušky z matematiky. Dosažené výsledky náhodně vybraných patnácti studentů jsou uvedeny v následující tabulce. Gymnázium SPŠ OU 55 54 47 50 53 58 51 49 61 52 46

Co je příčinou rozdílných výsledků? Vliv sledovaného faktoru tj. rozdíly mezi kvalitou výuky na jednotlivých typech středních škol. Reziduální (zbytkové) vlivy tj. rozdíly mezi školami v rámci tříd (není gymnázium jako gymnázium), rozdíly mezi pedagogy v rámci jedné školy, rozdíly mezi schopnostmi jednotlivých studentů, …

Jak se projevují tyto dva typy vlivů? Vliv sledovaného faktoru se projevuje rozdíly mezi třídami Reziduální (zbytkové) vlivy se projevují rozdíly uvnitř tříd

Co testujeme analýzou rozptylu? Jsou průměry jednotlivých výběrů (tříd) rozdílné vlivem různých středních hodnot příslušných populací, nebo lze rozdíly mezi průměry přičíst na vrub náhodnému kolísání?

Jak kvantifikovat tyto rozdíly? Rozdíly mezi třídami (vliv faktoru) kvantifikuje mezitřídní variabilita (součet čtverců mezi třídami) : Rozdíly uvnitř tříd (reziduální vlivy) kvantifikuje vnitřní variabilita (součet čtverců uvnitř tříd):

Celková variabilita SSTOTAL Celková variabilita (celkový součet čtverců) je definována jako součet mezitřídní variability a vnitřní variability.

Srovnejte údaje ve dvou následujících tabulkách –bodové hodnocení náhodně vybraných studentů. Gymnázium SPŠ OU 55 54 47 50 53 58 51 49 61 52 46 Gymnázium SPŠ OU 48 57 50 59 42 65 53 46 45 51 55

mezitřídní a vnitřní variability Ukázka výpočtu mezitřídní a vnitřní variability

Rice Virtual Lab in Statistics autor: David Lane Applet – One Way Anova Úkol Všimněte si změn poměru mezitřídní a vnitrotřídní variability při zachování průměrů a proměnném výb. rozptylu.

ANOVA Je možné, že výběry reprezentovány takto rozdílnými průměry pocházejí ze stejného rozdělení? H0: HA: Předpoklad: normalita výběrů, (homoskedasticita)

Odhad společného rozptylu σ2 za předpokladu platnosti H0 Odhad na základě mezitřídní variability (rozptyl mezi třídami, průměrný mezitřídní součet čtverců, vysvětlený rozptyl) Odhad na základě vnitřní variability (rozptyl uvnitř tříd, průměrný součet čtverců uvnitř tříd, nevysvětlený rozptyl)

F-ratio (F-poměr) Poměr dvou odhadů rozptylu (na základě výběrů z normálního rozdělení) má Fisher-Snedecorovo rozdělení. Platí-li H0: MSB je srovnatelné s MSW, F-poměr se pohybuje kolem 1. Platí-li HA: MSB je mnohem větší než MSW, F-poměr je mnohem větší než 1.

ANOVA - shrnutí Formulace H0 a HA: H0: HA: Testová statistika:

ANOVA - shrnutí Předpoklady testu: Normalita (výběry pocházejí z populací s normálním rozdělením) Homoskedasticita (shoda rozptylů – výběry pocházejí z populací se shodným rozptylem) Výpočet p-value:

Tabulka ANOVA je typickým způsobem prezentace výsledku ANOVy.

Síla testu Zvyšuje se se zvětšující se odchylkou od H0 (to nelze ovlivnit) Zvyšuje se s počtem pozorování ve třídách Zvyšuje se s vyvážeností tříd Klesá s rostoucím počtem tříd

Post Hoc analýza (vícenásobné porovnávání) Vysoký F-poměr indikuje existenci významných změn mezi populačními výběrovými průměry a vede k zamítnutí H0. V tomto případě je nutné identifikovat, které z populací signalizují významnou odchylku průměru. LSD metoda, Duncanův test, Tukeyův test pro významné rozdíly, Scheffého test a Bonferoniho test POZOR!!! Použijeme-li post hoc analýzu neoprávněně (v případě nezamítnuti H0), můžeme získat informaci o falešně významných rozdílech mezi průměry.

Příklady Litschmannová M., Statistika I. – cvičení, ANOVA – 13.1, 13.2

Jak postupovat při nesplnění předpokladů? Porušení homoskedasticity: Pokusíme se stabilizovat rozptyl pomocí transformací proměnných (není obsahem Statistiky I.). Pokud se nám rozptyl stabilizovat nepodaří, nemůžeme vliv faktoru testovat. Porušení normality: Pokud je splněna podmínka homoskedasticity, můžeme použít neparametrickou obdobu ANOVy – Kruskall – Wallisův test (vícevýběrový test o shodě mediánů)

Kruskall – Wallisův test Formulace H0 a HA: H0: HA: neplatí H0 Volba testového kritéria: ( , Ti jsou součty pořadí pro jednotlivé výběry)

Kruskall – Wallisův test Předpoklad testu: Homoskedasticita Výpočet p-value:

Příklad výpočtu pozorované hodnoty a p-value při Kruskall-Wallisově testu Výběr I II III IV 67 20 106 13 22 -13 127 49 10 11 97 55 5 79 85 94 38 37 46 -17 53 31 28 70 61 76 1 91 25 Výběr I II III IV 28 11 36 9,5 12,5 2 37 23 6,5 8 35 25,5 4,5 31 32 34 21 19 22 1 24 16,5 15 29 27 30 3 33 14 Rozsah výběru ni 7 12 10 Součty pořadí Ti 145 75 293 193,5 20022,3 5625,0 85849,0 37442,3 2502,8 803,6 7154,1 3744,2

Příklady Litschmannová M., Statistika I. – cvičení, ANOVA – 13.3