Úvod do analýzy rozptylu

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

ZÁKLADY EKONOMETRIE 6. cvičení Autokorelace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Testování parametrických hypotéz
Testování statistických hypotéz
Jednofaktorová ANOVA Jednofaktorová analýza rozptylu
Odhady parametrů základního souboru
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
Analýza variance (Analysis of variance)
t-rozdělení, jeho použití
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Porovnání průměrů více než dvou normálních rozdělení
CHYBY MĚŘENÍ.
Obecný postup při testování souborů
Testování hypotéz přednáška.
Korelace a regrese síla (těsnost) závislosti dvou náhodných veličin: korelace symetrický vztah obou veličin neslouží k předpovědi způsob (tvar) závislosti.
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
ANOVA (s použitím materiálů Petra Šmilauera)
Inference jako statistický proces 1
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
základní principy a použití
Lineární regrese.
Lineární regresní analýza
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Pohled z ptačí perspektivy
V. Analýza rozptylu ANOVA.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
1. cvičení
Základy testování hypotéz
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Mann-Whitney U-test Wilcoxonův test Znaménkový test
IV..
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Sledujeme (např.): Chceme prokázat: závisí plat na dosaženém vzdělání? závisí plat na dosaženém vzdělání? je u všech čtyř strojů délka výlisků srov- natelná.
INDUKTIVNÍ STATISTIKA
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Testování hypotéz párový test
Neparametrické testy parametrické a neparametrické testy
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Neparametrické testy parametrické a neparametrické testy
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Úvod do analýzy rozptylu Připomeneme párový t-test cholesterolu u školáků, jímž se podařilo prokázat, že úprava režimu stravování a fyzické aktivity měla vliv na zlepšené hodnoty HDL-cholesterolu u těchto dětí. Pro otestování jsme potřebovali párové hodnoty před úpravou režimu a po něm. Představme si, že máme víc skupin těchto školáků a chceme provést porovnání hodnot HDL – cholesterolu, abychom mohli posoudit, jestli se od sebe tyto skupiny liší. Např. chceme porovnat rozdíly v průměrné hladině cholesterolu u dětí na třech velkých školách A, B, C. Porovnávání více skupin pomocí dvouvýběrového t-testu by bylo zdlouhavé a složité. Přesnější výsledky a jednodušší výpočet nám poskytne metoda nazvaná ANALÝZA ROZPTYLU.

Úvod do analýzy rozptylu Analýza rozptylu je soubor postupů induktivní statistiky užívaných při testování hypotéz o středních hodnotách při různém, často i složitém uspořádání experimentu, kdy testujeme více než 2 skupiny. Na rozdíl od toho, co má v názvu, neslouží k testování rozptylu, ale k ověření nulové hypotézy o shodě středních hodnot: Testované skupiny se od sebe statisticky významně neliší ve střední hodnotě. Proč se tedy tato metoda jmenuje ANALÝZA ROZPTYLU? Protože postup této metody je založen na rozkladu (analýze) rozptylu na dvě složky (uvnitř výběrů a mezi výběry) a na jejich porovnání.

ANALÝZA ROZPTYLU – předpoklady pro použití Pro použití ANALÝZY ROZPTYLU musí být splněny tyto předpoklady: normální rozdělení (sledovaná veličina musí mít normální nebo alespoň přibližně normální rozložení) shoda rozptylů (rozptyl testovaných souborů se nesmí statisticky významně lišit) nezávislost pozorování a reprezentativnost souboru (soubor by měl obsahovat dostatečný počet měření, která se nesmí opakovat)

Princip analýzy rozptylu Princip analýzy rozptylu ukážeme na jednoduchém příkladu: Mějme 3 nebo více různých skupin u kterých předpokládáme stejný rozptyl. Z každé skupiny uděláme náhodný výběr a změříme na něm stejnou veličinu. Ptáme se, jestli se střední hodnoty ve skupinách statisticky významně liší, nebo naopak - zda všechny výběry patří do stejného základního souboru. Použijeme k tomu metodu Analýzy rozptylu a budeme to nazývat ANALÝZA ROZPTYLU s jednoduchým tříděním, protože na objektu byla měřena jen jedna proměnná (veličina). V Excelu se volba pro výpočet této možnosti nazývá „ANOVA: jeden faktor“ (ANOVA = Analysis Of Variance)

Princip analýzy rozptylu Použití ANALÝZY ROZPTYLU je vázáno na dodržení nutných předpokladů: normální rozdělení sledované veličiny – obvykle se ověřuje jinou předcházející studií nebo je to všeobecně známá skutečnost shoda rozptylů – testuje se zvláštními testy (např. Bartlettův, Leveneho nebo Hartleyův test – nejsou součástí Excelu) nezávislost pozorování a reprezentativnost souboru - dána dostatečným počtem měření a měřené objekty nesmí do testu vstupovat víckrát. Dodržení předpokladů je významné proto, že testujeme charakteristiky skupin, které nejsou přirozené pro sledovanou populaci a mohou tedy špatně popisovat její rozložení. Přesto mírné porušení normality nemusí znehodnotit test, pokud jsou počty v dílčích skupinách dostatečně velké.

Princip analýzy rozptylu V tomto modelu chceme ověřit, zda je nutno považovat průměry v uvažovaných skupinách za rozdílné či zda pozorované rozdíly mohly vzniknout jako důsledek náhodného kolísání. Variabilitu souborů můžeme vypočítat dvěma způsoby: 1. jako variabilitu jediného souboru složeného ze všech prvků pro variantu, že se hodnoty ve školách neliší. 2. jako variabilitu všech výběrů rozdělenou na variabilitu uvnitř skupin a variabilitu mezi skupinami pro případ, že mezi školami existují systematické rozdíly. Poznámka: variabilitu počítáme jako součet čtverců odchylek od střední hodnoty

Princip analýzy rozptylu 1. Variabilita jediného souboru složeného ze všech prvků si vyjádříme schematicky jako součet čtverců odchylek od jejich společné střední hodnoty Počet stupňů volnosti je (Počet prvků – 1) 2. Variabilitu všech výběrů můžeme rozložit na dvě části: variabilitu mezi výběry neboli mezi skupinami jako by každý výběr představoval prvek výběru: počet prvků odpovídá počtu výběrů Počet stupňů volnosti je (počet výběrů - 1) variabilitu uvnitř výběrů neboli uvnitř skupin, kterou spočítáme pro každý výběr zvlášť Počet stupňů volnosti je (počet prvků výběru - 1) Když sečteme obě složky, dostaneme stejné číslo jako při výpočtu variability 1. způsobem. Stejně tak odpovídá součet počtu stupňů volnosti.

Princip analýzy rozptylu (AR) Rozptyl mezi výběry i uvnitř výběrů vypočteme tak, že příslušnou variabilitu (součet čtverců) dělíme počtem stupňů volnosti. Pro zjištění, zda jsou průměry v uvažovaných skupinách rozdílné, testujeme, zda je rozptyl mezi skupinami statisticky významně odlišný od nuly. Rozptyl uvnitř skupin se někdy nazývá reziduální (zbytkový) rozptyl. Hypotézu pak ověříme testovací statistikou F: a vypočtenou hodnotu F porovnáme s kritickou hodnotou F-statistiky.

ANALÝZA ROZPTYLU Podíl dvou veličin s rozdělením χ2 má tvar Fischerova-Snedecorova F- rozdělení

ANALÝZA ROZPTYLU – příklad: Střelec pálí 5x na terč, střely však skončí v pravé horní části terče. Možné příčiny: vadný zaměřovací dalekohled vadný zrak střelce nepřesnost hlavně Máme 3 důvody (faktory), které mohly ovlivnit výsledek. Tento pokus můžeme obměnit postupně např. výměnou pušky, střelec si nasadí brýle, ... Z nových hodnot můžeme zjistit, jak k odchylce od průměru přispěly jednotlivé faktory - rozkládáme rozptyl. Pokud analýza rozptylu prokáže, že vypočtená statistika je nevýznamná, výsledek je ovlivněn náhodou víc než faktory, které jsme při pokusech měnili.

ANALÝZA ROZPTYLU - příklad Střelec při střelbě na terč vystřílel se třemi různými puškami tyto výsledky: 1. pokus: 2, 3, 1, 3, 1 (součet 10, průměr 2) 2. pokus: 3, 4, 3, 5, 0 (součet 15, průměr 3) 3. pokus: 6, 8, 7, 4, 10 (součet 35, průměr 7) Ptáme se, zda výměna střelné zbraně měla vliv na dosažený výsledek, v našem případě: „zda se významně změnila průměrná hodnota“. Hypotéza H0: předpokládáme, že se střední hodnota mezi jednotlivými skupinami neliší

ANALÝZA ROZPTYLU - výpočet 1. způsob: Budeme zkoumat variabilitu tří výběrů jako by šlo o jediný soubor Variabilitu vyjádříme jako CELKOVÝ SOUČET ČTVERCŮ SS vypočteme jako součet odchylek od celkového průměru umocněný na druhou, tj. považujeme všechny hodnoty za jeden výběr se střední hodnotou 4 4+1+9+1+9+1+0+1+1+16+4+16+9+0+36 = 108 SS = 108 SS ... Sum Square 2. způsob: Budeme zkoumat variabilitu tří výběrů složenou ze dvou částí: - variabilitu mezi skupinami SSm - variabilitu uvnitř skupin SSu

ANALÝZA ROZPTYLU - výpočet Variabilitu mezi skupinami vyjádříme jako SOUČET ČTVERCŮ SSm : Σ ((průměr skupiny - celkový průměr)2 * počet měření) Střední hodnota ze všech hodnot = 4 (2-4)2 *5+(3-4)2 *5+ (7-4)2 *5 = 20 + 5 + 45 = 70 … SSm = 70 Variabilitu uvnitř skupin vyjádříme jako SOUČET ČTVERCŮ SSu : Σ ((hodnota - výběrový průměr)2) 0+1+1+1+1 = 4 0+1+0+4+9 = 14 1+1+0+9+9 = 20 … celkem SSu = 38 Celkový součet čtverců je 108 (SS = 108) z toho 70 způsobil rozdíl mezi výběry (SSm = 70) a 38 uvnitř výběrů (SSu = 38)

ANALÝZA ROZPTYLU - výpočet Rozptyl vypočteme jako podíl variability vyjádřené součtem čtverců odchylek a počtu stupňů volnosti Počet stupňů volnosti vypočteme: MEZI VÝBĚRY: 3 výběry - 1 … počet stupňů volnosti je 2 UVNITŘ VÝBĚRŮ: 3 výběry po 5 hodnotách -> … počet stupňů volnosti je 3 x (5-1) = 12 Testová hodnota statistiky kde m je počet výběrů a n počet všech prvků

ANALÝZA ROZPTYLU - výpočet Vypočteme testovou statistiku: a porovnáme ji s kritickou hodnotou Snedecorova F-rozdělení pro 12 a 2 stupně volnosti a hladinu významnosti 0,05 Tk= 3,89: 11,05 > 3,89 —> zamítáme H0

ANALÝZA ROZPTYLU - SHRNUTÍ Celkový součet čtverců všech výběrů můžeme složit ze dvou částí: z variability uvnitř výběrových souborů kolem středních hodnot výběrů součet čtverců uvnitř výběrů ------------------------------------------------------------------- ------------------------------- z variability mezi výběry - čtverce rozdílů výběrových stř. hodnot a celkové střední hodnoty součet čtverců mezi výběry

ANALÝZA ROZPTYLU - shrnutí Předpoklady použití ANALÝZY ROZPTYLU: Sledovaná veličina musí mít normální rozdělení Rozptyly jednotlivých výběrů musí být stejné (rozdíly rozptylů nevýznamné) Pozorování musí být nezávislá Mírné porušení předpokladů normality nemusí znehodnotit test v případě, že počty v dílčích skupinách jsou dostatečně velké Shodu rozptylů můžeme testovat několika způsoby (Bartlettův test, Leveneho test, Hartleyův test). Také v analýze rozptylu existuje obdoba neparametrických testů, např.: Kruskal - Wallisův test Znaménkový (mediánový) test