Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza rozptylu Porovnání průměrů více než dvou normálních rozdělení.

Podobné prezentace


Prezentace na téma: "Analýza rozptylu Porovnání průměrů více než dvou normálních rozdělení."— Transkript prezentace:

1 Analýza rozptylu Porovnání průměrů více než dvou normálních rozdělení

2 Analýza rozptylu (ANOVA) se v technické praxi používá buď jako samostatná technika nebo jako postup umožňující analýzu zdrojů variability v lineárních statistických modelech. Ze statistického hlediska lze analýzu rozptylu chápat jako speciální případ regresní analýzy, kdy vysvětlující proměnné mohou mít kvantitativní i kvalitativní charakter. Podstatou analýzy rozptylu je rozklad celkového rozptylu dat na složky objasněné (známé zdroje variability) a složku neobjasněnou, o níž se předpokládá, že je náhodná. Následně se testují hypotézy o významnosti jednotlivých zdrojů variability.

3 Základní myšlenka analýzy rozptylu spočívá v tom, že celkový rozptyl rozložíme na rozptyly dílčí náležející příslušným jednotlivým vlivům, podle nichž jsou empirické údaje roztříděny. Kromě těchto dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, který je způsoben dalšími vlivy, které v rámci analýzy nepostihujeme. Porovnáním složek rozptylu zkoumaného kvantitativního znaku pak určíme ty vlivy, které významně ovlivňují úroveň tohoto znaku.

4 Analýzu rozptylu používáme tehdy, sledujeme-li vliv jednoho nebo několika faktorů na zkoumaný statistický znak. Předpokládejme, že sledovaný znak je ovlivňován pouze jediným faktorem, který budeme sledovat na několika jeho úrovních. Úrovní faktoru se zde rozumí určitá hodnota kvantitativního znaku nebo určitá varianta kvalitativního znaku. Získané hodnoty uspořádáme podle jednoho třídícího kritéria (hlediska), tzn. podle úrovní sledovaného faktoru do tolika tříd, na kolika úrovních tento faktor sledujeme. Tento model, kdy sledujeme úroveň jednoho faktoru, se potom nazývá analýza rozptylu při jednoduchém třídění.

5 Úrovně sledovaných faktorů mohou mít různý charakter. V některých případech úrovně faktoru představují pevné typy určitého kvalitativního faktoru nebo pevná množství určitého kvantitativního faktoru. Účelem experimentu je vyšetřit a porovnat efekty těchto pevných úrovní faktoru. Jsou-li úrovně faktoru přesně fixovány, nazýváme odpovídající model analýzy rozptylu model s pevnými efekty (model I). Model s náhodnými efekty (model II) – úrovně faktoru mohou být náhodně vybrány z velkého počtu možných úrovní. Při náhodně vybraných úrovních (tzn. má-li výběr úrovní náhodný charakter) je efekt úrovně náhodnou veličinou.

6 Představme si, že sledujeme vliv tří způsobů mletí vzorku v zařízeních Z 1, Z 2 a Z 3 na výsledek chemické analýzy. Na každém mlecím zařízení byly připraveny tři vzorky, pro které byly určeny výsledky chemické analýzy x ij, (i = 1, 2, 3 a j = 1, 2, 3), kde x ij označuje výsledek pro i-tý způsob mletí a j-tý vzorek. Způsob mletí je označován jako kvalitativní faktor. Vyskytují se však také faktory kvantitativní, jako je například průměrná velikost částic mletého vzorku či další fyzikální a chemické veličiny. Pokud nás zajímají pouze rozdíly mezi danými úrovněmi (způsoby mletí), jde o modely s pevnými efekty. Pokud jsou jednotlivé úrovně pouze výběrem z konečného či nekonečného souboru, jde o modely s náhodnými efekty.

7 Výběr mezi pevnými a náhodnými efekty závisí na vlastním záměru analýzy rozptylu a může se podle něho měnit. V rámci uvedeného příkladu uvažujme, že místo tří mlecích zařízení vybereme faktor „průměrná jemnost mletí“. a)O model s pevnými efekty půjde tehdy, budeme-li uvažovat, že třem mlecím zařízením odpovídají tři úrovně jemnosti mletí. Naším záměrem je vyšetřit, zda mletí na jednotlivých mlecích zařízeních výrazně ovlivní výsledek chemické analýzy. b)O model s náhodnými efekty jde tehdy, když zjišťujeme, zda má průměrná velikost částic vzorku vliv na výsledek analýzy. Ze všech možných velikostí částic náhodně vybereme tři, které lze shodou okolností realizovat na třech mlecích zařízeních. Zajímá nás tedy původní soubor, tj. všechny velikosti částic, a nikoliv vlastní výběr, tj. konkrétní tři velikosti částic.

8 Předpokládejme, že sledovaný faktor má m úrovní a že počet pozorování v jednotlivých třídách (tzn. na každé úrovni sledovaného faktoru) je roven n. Pro přehlednost uspořádání údajů je možné využít následujícího schématu:

9 Pro vlastní zpracování modelů analýzy rozptylu je důležité, zda je při všech kombinacích faktorů realizován stejný počet měření (opakování) či nikoliv. Pro stejný počet opakování se modely označují jako vyvážené (ortogonální), kdy n 1 = n 2 = … = n m. Nevyvážený (neortogonální) model  rozsahy n i (i = 1, 2, …, m) jednotlivých tříd jsou různé. Podmínky použitelnosti analýzy rozptylu:  normalita rozdělení,  statistická nezávislost náhodných chyb e ij,  shodné rozptyly náhodných chyb e ij.

10 Analýza rozptylu při jednoduchém třídění hodnotí diference průměrů sledované závisle proměnné mezi skupinami, které jsou určeny jednou nezávisle proměnnou (jedním faktorem). Zkoumá se, zda skupiny vytvořené tímto faktorem jsou podobné, nebo zda jednotlivé průměry tvoří nějaké identifikovatelné shluky. Máme k dispozici m  2 nezávislých výběrů z rozdělení kde  1,  2, …,  m a  2 jsou neznámé parametry ZS.

11 Předpokládáme, že jednotlivé rozptyly ZS jsou shodné, tzn. (není však nutno, aby jejich hodnota byla známa). Nulová hypotéza má tvar: H 0 :  1 =  2 = … =  m, m  2 Alternativní hypotéza pak tvrdí, že existuje alespoň jedna dvojice průměrů, která se sobě nerovná. Předpokládáme, že jednotlivá měření vyhovují modelu x ij =  + a i + e ij, i = 1, 2, …, m, j = 1, 2, …, n, kde x ij označuje i-té měření v j-tém výběru,  je společná část průměru a e ij jsou nezávislé náhodné veličiny s rozdělením N(0;  2 ).

12 Hodnotu  je možno interpretovat jako průměrný teoretický výsledek na uvažovaných úrovních faktoru A (obecná střední hodnota), a i (i = 1, 2, …, m) představuje efekt (účinek) i-té úrovně faktoru A (efekt a i zvyšuje nebo snižuje teoretickou střední hodnotu o účinek i-té úrovně faktoru A). Efekt skupiny a i způsobuje, že průměry  i sledované proměnné si nemusí být rovny. Náhodné veličiny e ij lze chápat jako náhodné chyby, jimiž je každé měření zatíženo.

13 Pro posouzení, zda daný faktor A skutečně ovlivňuje zkoumaný statistický znak X, je třeba testovat nulovou hypotézu H 0 :  1 =  2 = … =  m, kterou je možno ekvivalentně zapsat též takto: H 0 : a 1 = a 2 = … = a m = 0. Slovně vyjádřeno: efekty jednotlivých úrovní sledovaného faktoru A jsou zanedbatelné (faktor neovlivňuje závisle proměnnou X). Alternativní hypotézou je hypotéza

14 Pro přehlednější vyjádření vzorců užívaných v analýze rozptylu se používá tzv. tečkový způsob zápisu součtů a průměrů pozorovaných hodnot. Součet, resp. průměr hodnot, zjištěných v i-tém výběrovém souboru (tzn. součet, resp. průměr hodnot v i-tém řádku schématu) lze označit následujícím způsobem: Součet Průměr

15 Celkový součet označíme X, tzn. a celkový průměr pak lze vyjádřit jako:

16 Ve složitějších modelech analýzy rozptylu budeme pracovat i se sloupcovými součty, resp. sloupcovými průměry: Tečka vždy nahrazuje indexy, přes které sčítáme.

17 Test H 0 je založen na skutečnosti, že za platnosti H 0 lze ze zjištěných výběrových hodnot x ij provést odhad neznámého rozptylu  2 dvěma na sobě zcela nezávislými způsoby. 1. způsob odhadu  2 Každý z výběrových rozptylů ( je rozptyl hodnot zjištěných v i-tém výběrovém souboru) poskytuje odhad rozptylu  2. Jestliže z těchto výběrových rozptylů utvoříme aritmetický průměr, získáme opět odhad rozptylu  2, který je však lepší než kterýkoliv z odhadů.

18 Tento odhad se nazývá rozptyl uvnitř tříd (reziduální rozptyl). 2. způsob odhadu  2 V teorii odhadu se dokazuje, že pro rozptyl výběrového průměru platí vztah Odtud pro rozptyl  2 dostáváme vyjádření

19 Rozptyl sice neznáme, můžeme ho ale odhadnout pomocí výběrových průměrů, vypočtených z pozorovaných hodnot x ij : Následně tedy dostáváme vztah pro odhad  2 : Tento odhad se nazývá rozptyl mezi třídami.

20 Test hypotézy H 0 : a 1 = a 2 = … = a m = 0 je tedy ekvivalentní testu hypotézy kde představuje rozptyl mezi třídami a rozptyl uvnitř tříd (reziduální). Významnost rozdílu mezi uvedenými rozptyly pak posoudíme F-testem, kdy testové kritérium bude mít tvar:

21 Statistika F má za platnosti H 0 F-rozdělení o (m-1) a m(n-1) stupních volnosti. Pokud F > F , pak zamítáme hypotézu o statisticky nevýznamném rozdílu obou rozptylů, což bude znamenat i zamítnutí hypotézy o shodě průměrů ZS. Pro provedení testu je třeba určit hodnoty srovnávaných rozptylů, které získáme pomocí tzv. součtů čtverců. Celkový součet čtverců, tzn. součet čtverců odchylek pozorovaných hodnot xij od celkového průměru lze upravit takto:

22 Označme: Výše uvedené lze stručně přepsat takto: S = S 1 + S r.

23 Celkovou variabilitu, reprezentovanou celkovým součtem čtverců S, lze rozložit na dvě aditivní složky: S 1 – součet čtverců mezi třídami, S r – součet čtverců uvnitř tříd (reziduální) Složka S 1 charakterizuje vliv faktoru A na sledovaný statistický znak S, Složka S r charakterizuje působení pouze náhodných příčin. Při praktických úlohách určujeme S r jako rozdíl součtů S a S 1, tzn. S r = S – S 1.

24 Tvary součtů čtverců je možné upravit do výpočetně jednodušších výrazů, kdy dostáváme následující tzv. výpočetní tvary veličin S, S 1 a S r : kde

25 Výpočty pro analýzu rozptylu obvykle uspořádáváme do tzv. tabulky analýzy rozptylu. Variabilita Součet čtverců Stupně volnosti Rozptyl Testovací kritérium Mezi třídamim - 1 Uvnitř tříd (reziduální) m(n-1) Celkovámn-1 Jestliže F  F  [(m-1); m(n-1)], zamítáme H 0.

26 Analýza rozptylu při jednoduchém třídění s nestejným počtem opakování Pokud jednotlivé třídy ve schématu nemají stejný počet pozorování, hovoříme o tzv. nevyváženém modelu analýzy rozptylu. Předpokládejme, že jednotlivé třídy mají rozsahy n i, i = 1, 2, …, m. Vzorce pro součty čtverců se odvodí zcela analogicky jako u vyváženého modelu a budou mít tento tvar (pravé strany výrazů pak představují výpočetní tvary součtů čtverců):

27

28 Pokud se týká stupňů volnosti, jsou u nevyváženého modelu stanoveny takto: f 1 = m – 1, f 2 =  n i – m. Další postup je již stejný jako v případě třídění se stejným počtem pozorování (tzn. jako u vyváženého modelu). Jestliže F  F  [(m-1); (  n i – m )], zamítáme H 0.

29 Podrobnější hodnocení výsledků analýzy rozptylu (metody mnohonásobného srovnávání) Jestliže se F-testem zamítne H 0, je závěr, že ne všechny průměry ZS jsou shodné, příliš neurčitý. Porovnáváme-li m výběrových průměrů, lze mezi nimi vytvořit m(m-1)/2 diferencí. F-test v analýze rozptylu však sám o sobě nepodává informaci, kolik a které z těchto diferencí jsou statisticky významné. Z tohoto důvodu je v případě zamítnutí H 0 nezbytné, aby se výsledky analýzy rozptylu doplnily podrobnějším hodnocením, jímž bychom zjistili, které z dvojic výběrových průměrů se liší statisticky významně, a které pouze náhodně.

30 Metody mnohonásobného srovnávání umožňují detailní rozlišení jednotlivých průměrů. Je možné použít postupy:  Duncanova metoda  Kramerova metoda  Scheffého metoda (S – metoda)  Tukeyova metoda (T – metoda)  Newmann – Kelsův test  Dunnettův test  Fisherův LSD test apod.

31 Scheffého metoda (S-metoda)  univerzálně použitelná, tzn. jak pro model vyvážený, tak nevyvážený. Hypotéza  i =  j (i, j = 1, 2, …, m; i  j) se zamítá tehdy, jestliže – reziduální rozptyl, n i a n j – rozsahy srovnávaných souborů, F  – tabulková hodnota F–rozdělení.

32 Tukeyova metoda (T-metoda)  použitelná pouze pro vyvážený model  je citlivější na rozdíly mezi středními hodnotami Jestliže kde liší se výběrové průměry statisticky významně (ve smyslu T – metody). q  (m; n-m) – tabelované hodnoty studentizovaného rozpětí q

33 U T – metody se lze setkat s označením d  min, kdy q , f r, m – tabulková hodnota studentizovaného rozpětí q pro:  – hladinu významnosti, f r – stupňů volnosti reziduálního rozptylu, m – počet srovnávaných průměrů, n – počet opakování ve třídách (rozsah srovnávaných souborů).

34 Duncanova metoda  použitelná pouze pro vyvážený model  pro tuto metodu je potřeba vypočtené výběrové průměry seřadit vzestupně podle velikosti Rozptyl výběrových průměrů je možné odhadnout pomocí reziduálního rozptylu Pro další výpočty budeme potřebovat směrodatnou odchylku tohoto rozptylu, tzn.

35 Duncanova metoda uspořádávání průměrů Kritická hodnota diferencí.. ………… … …

36 R p; (f);  – pomocné hodnoty pro Duncanův test, kdy  – hladina významnosti, f – stupně volnosti reziduálního rozptylu. Kramerova metoda Používá se v případě, kdy jednotlivé výběry mají nestejné rozsahy. Výběrové průměry vypočtené z výběrů o rozsazích n i a n j, kde n i  n j, se liší statisticky významně, jestliže

37 Příklad Tří různých vyučovacích metod bylo použito na malých skupinách žáků. Na základě závěrečného zkoušení (v bodech), které jsou uvedeny v tabulce, posuďte, zda existuje statisticky významný rozdíl mezi uvedenými metodami.

38 Použitím výpočtových tvarů dostaneme následující hodnoty součtů čtverců:

39

40 Následuje podrobnější vyhodnocení analýzy rozptylu. T-metoda Metoda B 13,2 Metoda C 14,4 Metoda A 11 2,23,4 Metoda B 13,2 1,2 Statisticky významný rozdíl byl zjištěn mezi metodou A a B a metodou A a C.

41 S-metoda Metoda B 13,2 Metoda C 14,4 Metoda A 11 2,23,4 Metoda B 13,2 1,2 Podle S – metody byl statisticky významný rozdíl zjištěn mezi metodou A a metodou C.

42 Duncanova metoda Kritická hodnota diferencí Metoda C 14,4 Metoda B 13,2 Metoda A 11,0 3,01 · 0,645 = 1,94 C – A 3,4 -- 2,86 · 0,645 = 1,84 C – B 1,2 B – A 2,2 -- R 3; 42; 0,05 = 3,01 R 2; 42; 0,05 = 2,86 Statisticky významný rozdíl byl zjištěn mezi metodou A a B a metodou A a C.


Stáhnout ppt "Analýza rozptylu Porovnání průměrů více než dvou normálních rozdělení."

Podobné prezentace


Reklamy Google