Úvod do analýzy rozptylu Připomeneme párový t-test cholesterolu u školáků, jímž se podařilo prokázat, že úprava režimu stravování a fyzické aktivity měla vliv na zlepšené hodnoty HDL-cholesterolu u těchto dětí. Pro otestování jsme potřebovali párové hodnoty před úpravou režimu a po něm. Představme si, že máme víc skupin těchto školáků a chceme provést porovnání hodnot HDL – cholesterolu, abychom mohli posoudit, jestli se od sebe tyto skupiny liší. Např. chceme porovnat rozdíly v průměrné hladině cholesterolu u dětí na třech velkých školách A, B, C. Porovnávání více skupin pomocí dvouvýběrového t-testu by bylo zdlouhavé a složité. Přesnější výsledky a jednodušší výpočet nám poskytne metoda nazvaná ANALÝZA ROZPTYLU.
Úvod do analýzy rozptylu Analýza rozptylu je soubor postupů induktivní statistiky užívaných při testování hypotéz o středních hodnotách při různém, často i složitém uspořádání experimentu, kdy testujeme více než 2 skupiny. Na rozdíl od toho, co má v názvu, neslouží k testování rozptylu, ale k ověření nulové hypotézy o shodě středních hodnot: Testované skupiny se od sebe statisticky významně neliší ve střední hodnotě. Proč se tedy tato metoda jmenuje ANALÝZA ROZPTYLU? Protože postup této metody je založen na rozkladu (analýze) rozptylu na dvě složky (uvnitř výběrů a mezi výběry) a na jejich porovnání.
ANALÝZA ROZPTYLU – předpoklady pro použití Pro použití ANALÝZY ROZPTYLU musí být splněny tyto předpoklady: normální rozdělení (sledovaná veličina musí mít normální nebo alespoň přibližně normální rozložení) shoda rozptylů (rozptyl testovaných souborů se nesmí statisticky významně lišit) nezávislost pozorování a reprezentativnost souboru (soubor by měl obsahovat dostatečný počet měření, která se nesmí opakovat)
Princip analýzy rozptylu Princip analýzy rozptylu ukážeme na jednoduchém příkladu: Mějme 3 nebo více různých skupin u kterých předpokládáme stejný rozptyl. Z každé skupiny uděláme náhodný výběr a změříme na něm stejnou veličinu. Ptáme se, jestli se střední hodnoty ve skupinách statisticky významně liší, nebo naopak - zda všechny výběry patří do stejného základního souboru. Použijeme k tomu metodu Analýzy rozptylu a budeme to nazývat ANALÝZA ROZPTYLU s jednoduchým tříděním, protože na objektu byla měřena jen jedna proměnná (veličina). V Excelu se volba pro výpočet této možnosti nazývá „ANOVA: jeden faktor“ (ANOVA = Analysis Of Variance)
Princip analýzy rozptylu Použití ANALÝZY ROZPTYLU je vázáno na dodržení nutných předpokladů: normální rozdělení sledované veličiny – obvykle se ověřuje jinou předcházející studií nebo je to všeobecně známá skutečnost shoda rozptylů – testuje se zvláštními testy (např. Bartlettův, Leveneho nebo Hartleyův test – nejsou součástí Excelu) nezávislost pozorování a reprezentativnost souboru - dána dostatečným počtem měření a měřené objekty nesmí do testu vstupovat víckrát. Dodržení předpokladů je významné proto, že testujeme charakteristiky skupin, které nejsou přirozené pro sledovanou populaci a mohou tedy špatně popisovat její rozložení. Přesto mírné porušení normality nemusí znehodnotit test, pokud jsou počty v dílčích skupinách dostatečně velké.
Princip analýzy rozptylu V tomto modelu chceme ověřit, zda je nutno považovat průměry v uvažovaných skupinách za rozdílné či zda pozorované rozdíly mohly vzniknout jako důsledek náhodného kolísání. Variabilitu souborů můžeme vypočítat dvěma způsoby: 1. jako variabilitu jediného souboru složeného ze všech prvků pro variantu, že se hodnoty ve školách neliší. 2. jako variabilitu všech výběrů rozdělenou na variabilitu uvnitř skupin a variabilitu mezi skupinami pro případ, že mezi školami existují systematické rozdíly. Poznámka: variabilitu počítáme jako součet čtverců odchylek od střední hodnoty
Princip analýzy rozptylu 1. Variabilita jediného souboru složeného ze všech prvků si vyjádříme schematicky jako součet čtverců odchylek od jejich společné střední hodnoty Počet stupňů volnosti je (Počet prvků – 1) 2. Variabilitu všech výběrů můžeme rozložit na dvě části: variabilitu mezi výběry neboli mezi skupinami jako by každý výběr představoval prvek výběru: počet prvků odpovídá počtu výběrů Počet stupňů volnosti je (počet výběrů - 1) variabilitu uvnitř výběrů neboli uvnitř skupin, kterou spočítáme pro každý výběr zvlášť Počet stupňů volnosti je (počet prvků výběru - 1) Když sečteme obě složky, dostaneme stejné číslo jako při výpočtu variability 1. způsobem. Stejně tak odpovídá součet počtu stupňů volnosti.
Princip analýzy rozptylu (AR) Rozptyl mezi výběry i uvnitř výběrů vypočteme tak, že příslušnou variabilitu (součet čtverců) dělíme počtem stupňů volnosti. Pro zjištění, zda jsou průměry v uvažovaných skupinách rozdílné, testujeme, zda je rozptyl mezi skupinami statisticky významně odlišný od nuly. Rozptyl uvnitř skupin se někdy nazývá reziduální (zbytkový) rozptyl. Hypotézu pak ověříme testovací statistikou F: a vypočtenou hodnotu F porovnáme s kritickou hodnotou F-statistiky.
ANALÝZA ROZPTYLU Podíl dvou veličin s rozdělením χ2 má tvar Fischerova-Snedecorova F- rozdělení
ANALÝZA ROZPTYLU – příklad: Střelec pálí 5x na terč, střely však skončí v pravé horní části terče. Možné příčiny: vadný zaměřovací dalekohled vadný zrak střelce nepřesnost hlavně Máme 3 důvody (faktory), které mohly ovlivnit výsledek. Tento pokus můžeme obměnit postupně např. výměnou pušky, střelec si nasadí brýle, ... Z nových hodnot můžeme zjistit, jak k odchylce od průměru přispěly jednotlivé faktory - rozkládáme rozptyl. Pokud analýza rozptylu prokáže, že vypočtená statistika je nevýznamná, výsledek je ovlivněn náhodou víc než faktory, které jsme při pokusech měnili.
ANALÝZA ROZPTYLU - příklad Střelec při střelbě na terč vystřílel se třemi různými puškami tyto výsledky: 1. pokus: 2, 3, 1, 3, 1 (součet 10, průměr 2) 2. pokus: 3, 4, 3, 5, 0 (součet 15, průměr 3) 3. pokus: 6, 8, 7, 4, 10 (součet 35, průměr 7) Ptáme se, zda výměna střelné zbraně měla vliv na dosažený výsledek, v našem případě: „zda se významně změnila průměrná hodnota“. Hypotéza H0: předpokládáme, že se střední hodnota mezi jednotlivými skupinami neliší
ANALÝZA ROZPTYLU - výpočet 1. způsob: Budeme zkoumat variabilitu tří výběrů jako by šlo o jediný soubor Variabilitu vyjádříme jako CELKOVÝ SOUČET ČTVERCŮ SS vypočteme jako součet odchylek od celkového průměru umocněný na druhou, tj. považujeme všechny hodnoty za jeden výběr se střední hodnotou 4 4+1+9+1+9+1+0+1+1+16+4+16+9+0+36 = 108 SS = 108 SS ... Sum Square 2. způsob: Budeme zkoumat variabilitu tří výběrů složenou ze dvou částí: - variabilitu mezi skupinami SSm - variabilitu uvnitř skupin SSu
ANALÝZA ROZPTYLU - výpočet Variabilitu mezi skupinami vyjádříme jako SOUČET ČTVERCŮ SSm : Σ ((průměr skupiny - celkový průměr)2 * počet měření) Střední hodnota ze všech hodnot = 4 (2-4)2 *5+(3-4)2 *5+ (7-4)2 *5 = 20 + 5 + 45 = 70 … SSm = 70 Variabilitu uvnitř skupin vyjádříme jako SOUČET ČTVERCŮ SSu : Σ ((hodnota - výběrový průměr)2) 0+1+1+1+1 = 4 0+1+0+4+9 = 14 1+1+0+9+9 = 20 … celkem SSu = 38 Celkový součet čtverců je 108 (SS = 108) z toho 70 způsobil rozdíl mezi výběry (SSm = 70) a 38 uvnitř výběrů (SSu = 38)
ANALÝZA ROZPTYLU - výpočet Rozptyl vypočteme jako podíl variability vyjádřené součtem čtverců odchylek a počtu stupňů volnosti Počet stupňů volnosti vypočteme: MEZI VÝBĚRY: 3 výběry - 1 … počet stupňů volnosti je 2 UVNITŘ VÝBĚRŮ: 3 výběry po 5 hodnotách -> … počet stupňů volnosti je 3 x (5-1) = 12 Testová hodnota statistiky kde m je počet výběrů a n počet všech prvků
ANALÝZA ROZPTYLU - výpočet Vypočteme testovou statistiku: a porovnáme ji s kritickou hodnotou Snedecorova F-rozdělení pro 12 a 2 stupně volnosti a hladinu významnosti 0,05 Tk= 3,89: 11,05 > 3,89 —> zamítáme H0
ANALÝZA ROZPTYLU - SHRNUTÍ Celkový součet čtverců všech výběrů můžeme složit ze dvou částí: z variability uvnitř výběrových souborů kolem středních hodnot výběrů součet čtverců uvnitř výběrů ------------------------------------------------------------------- ------------------------------- z variability mezi výběry - čtverce rozdílů výběrových stř. hodnot a celkové střední hodnoty součet čtverců mezi výběry
ANALÝZA ROZPTYLU - shrnutí Předpoklady použití ANALÝZY ROZPTYLU: Sledovaná veličina musí mít normální rozdělení Rozptyly jednotlivých výběrů musí být stejné (rozdíly rozptylů nevýznamné) Pozorování musí být nezávislá Mírné porušení předpokladů normality nemusí znehodnotit test v případě, že počty v dílčích skupinách jsou dostatečně velké Shodu rozptylů můžeme testovat několika způsoby (Bartlettův test, Leveneho test, Hartleyův test). Také v analýze rozptylu existuje obdoba neparametrických testů, např.: Kruskal - Wallisův test Znaménkový (mediánový) test