Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů Lubomír Moc – KVM – Inženýrská statistika 30.10.2014
Extrémní hodnoty a analýza výběrových souborů Lubomír Moc – Inženýrská statistika Extrémní hodnoty a analýza výběrových souborů V souboru hodnot zjištěných při experimentu, i při dodržení relativně stálých podmínek v průběhu experimentu, se může vyskytnout výrazně odlišná hodnota. Hodnota může být dosažena vlivem dalšího neuvažovaného faktoru, či nepředpokládanou kombinací faktorů v relativně stálých podmínkách. Další příčinou vzniku je chyba v průběhu experimentu, v metodice nebo v měřicím zařízení. Hodnotu označujeme jako hrubou chybu a je nutné ji odlišit od chyby náhodné, která souvisí s variabilitou působení ovlivňujících faktorů. 16.2.2018
Hodnoty obsahující hrubou chybou se z výběrového souboru vylučují Hodnoty obsahující hrubou chybou se z výběrového souboru vylučují. Postup lze použít pouze tehdy, pokud je velmi nepravděpodobné, že hodnota patří do základního souboru jako ostatní hodnoty ve výběrovém souboru. Při vyhodnocení extrémní či odlehlé hodnoty se musí vycházet z vlastností základního souboru dle funkce hustoty pravděpodobnosti náhodné veličiny. Při posuzování zdánlivých extrémních či odlehlých hodnot se používají statistické testy : Grubbsův test pro soubory s normální náhodnou veličinou Dixonův test (Q test) pro výběrové soubory s malým počtem hodnot a soubory s obecným rozdělením pravděpodobnosti
Posuzování extrémní hodnoty pro soubor s normální náhodnou veličinou a) orientační vyloučení extrémních hodnot Metoda posuzuje umístění extrémní hodnoty vzhledem k praktickému oboru normální náhodné veličiny v pásmu 3. Z hodnot výběrového souboru bez předpokládané extrémní hodnoty určíme aritmetický průměr a směrodatnou odchylku s. Pokud odchylka mezi střední hodnotou a předpokládanou extrémní hodnotou je větší než 3 jedná se skutečně o extrémní hodnotu a z výběrového souboru ji vylučujeme. Pokud je odchylka do 3 nejedná se o extrémní hodnotu a do výběrového souboru patří. Pro další hodnocení výběrového souboru se musí použít všechny hodnoty souboru.
b) Grubbsův test extrémních odchylek Posouzení vlastností výběrového souboru se provádí kvantitativně podle velikosti testovacího kritéria Tn,. Test se uskutečňuje následujícím postupem: 1) Formulace hypotéz Nulová hypotéza Ho: hodnota ve výběru není extrémní Alternativní hypotéza H1: hodnota ve výběru je extrémní hladina významnosti testu (1%, 5%) 2) Charakteristiky výběrového souboru - střední hodnota - směrodatná odchylka s - seřazení hodnot výběrového souboru do vzestupné variační řady
3) Testovací kritérium Určíme pro první a poslední (n-tou) hodnotu variační řady: první hodnota poslední hodnota 4) Kritická hodnota testovacího kritéria Tn, závisí na stupni volnosti n a hladině významnosti (1%, 5%), hodnoty dle tabulky. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritéria T1 a Tn splňují podmínky
n =0,05 =0,01 3 1,412 1,414 15 2,493 2,800 4 1,689 1,723 16 2,523 2,837 5 1,869 1,955 17 2,551 2,871 6 1,996 2,130 18 2,577 2,903 7 2,093 2,265 19 2,600 2,932 8 2,172 2,374 20 2,623 2,959 9 2,237 2,464 21 2,644 2,984 10 2,294 2,540 22 2,664 3,008 11 2,343 2,606 23 2,683 3,030 12 2,387 2,663 24 2,701 3,051 13 2,426 2,714 25 2,717 3,071 14 2,481 2,759
Posuzování extrémní hodnoty pro soubor s neznámou náhodnou veličinou Dixonův test extrémních odchylek Posouzení vlastností výběrového souboru se provádí kvantitativně podle velikosti testovacího kritéria Qn,. Test se provádí následujícím postupem: 1) Formulace hypotéz Nulová hypotéza Ho: hodnota ve výběru není extrémní Alternativní hypotéza H1: hodnota ve výběru je extrémní hladina významnosti testu (1%, 5%) 2) Charakteristiky výběrového souboru - variační rozpětí R = xmax – xmin - seřazení hodnot výběrového souboru do vzestupné variační řady
3) Testovací kritérium Určíme pro první a poslední (n-tou) hodnotu variační řady hodnotící kritérium: první hodnota poslední hodnota 4) Kritická hodnota testovacího kritéria Tn, závisí na stupni volnosti n a hladině významnosti (1%, 5%), hodnoty dle tabulky. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritéria Q1 event. Qn splňují podmínku event.
n 3 0,941 0,988 17 0,320 0,416 4 0,765 0,889 18 0,313 0,407 5 0,642 0,780 19 0,306 0,398 6 0,560 0,698 20 0,300 0,391 7 0,507 0,637 21 0,295 0,384 8 0,468 0,590 22 0,292 0,378 9 0,437 0,555 23 0,289 0,372 10 0,412 0,527 24 0,285 0,367 11 0,392 0,502 25 0,281 0,362 12 0,376 0,482 26 0,277 0,357 13 0,361 0,465 27 0,273 0,353 14 0,349 0,450 28 0,269 15 0,338 0,438 29 0,266 0,345 16 0,329 0,426 30 0,260 0,341
Neparametrické testy Při provádění testů se nevychází z volby konkrétního typu náhodné veličiny, pouze se předpokládá její spojité rozdělení. V testech se neověřují parametry náhodné veličiny, ale jiné další charakteristiky používané k popisu statistického souboru. Výhody neparametrických testů možnost použití pro popis kvantitativních a kvalitativních znaků, obecná použitelnost proti parametrickým testům, jednoduchost testů, nepožadují splnění specielních předpokladů o rozdělení pravděpodobnosti, hodnoty veličiny mohou být stanoveny subjektivně nebo nepřesně, pořadí hodnot je správné. Významnou skupinou těchto testů jsou pořadové testy. V testech se používá místo původních skutečných hodnot náhodné veličiny pouze neklesající posloupnost pořadí přiřazených k hodnotám náhodné veličiny.
Postup pro určení pořadí Při n opakováních náhodné veličiny X získáme hodnoty X1, X2, X3 ….. Xn, které se od sebe odlišují, v některých případech mohou být i shodné. Každé hodnotě z výběrového souboru přiřadíme pořadí Pi podle umístění v neklesající posloupnosti hodnot. Hodnotám v posloupnosti shodným se přiřadí průměrné pořadí (v tabulce hodnoty 25,02; 25,03; 25,04 a 25,06) i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X i 25,05 25,07 25,10 25,03 25,08 25,04 25,09 25,06 25,02 P i 3,5 9,5 1,5 i - pořadí výběru xi - hodnota Pi - pořadí podle velikosti
Do skupiny těchto testů patří: Wilcoxon-Whiteův test Wilcoxonův test dvouvýběrový Wilcoxonův test jednovýběrový Kruskal-Wallisův test Používá se k ověření, zda dva nezávislé výběry s různým počtem prvků patří do stejného základního souboru. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu (1%, 5%)
2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3,…, xm) Výběr Y: hodnoty ( y1, y2, y3, ..., yn) - sloučíme oba soubory do jediného s počtem prvků N = m + n a uspořádáme v rostoucí posloupnost podle velikosti hodnot, - hodnotám v posloupnosti přiřadíme pořadová čísla (při shodě hodnot průměrná pořadová čísla) a rozlišíme do kterého výběru pořadové číslo patří, pořadová čísla k hodnotám výběru X: Px1, Px2, Px3, ……Pxm pořadová čísla k hodnotám výběru Y: Py1, Py2, Py3, …… Pyn, 3) Testovací kritérium - vypočteme součty pořadových čísel původních souborů X a Y Tx = Px1 + Px2 + Px3 + ……+ Pxm Ty = Py1 + Py2 + Py3 + ……+ Pyn, - testovací kritérium je minimum součtu pořadových čísel T = min (Tx, Ty)
4) Kritická hodnota testovacího kritéria Tm,n, závisí na stupních volnosti m, n a hladině významnosti , hodnoty dle následující tabulky: pro = 5% n m 4 5 6 7 8 9 10 11 12 13 14 2 8,0 9,0 10,0 11,0 12,0 13,0 3 7,5 9,5 11,5 13,5 14,0 15,5 16,0 15,0 17,0 18,0 19,0 10,5 12,5 18,5 20,5 22,0 20,0 23,0 25,0 16,5 19,5 21,0 22,5 24,0 25,5 27,0 26,0 28,0 29,0 26,5 30,5 32,0 30,0 34,0 33,0 34,5 37,0 35,0 39,0 38,5 41,0 43,0
Pro = 1 % n m 5 6 7 8 9 10 11 12 13 14 3 13,5 15,0 16,5 17,0 18,5 20,0 4 12,0 14,0 18,0 21,0 22,0 24,0 12,5 15,5 19,5 22,5 25,5 28,0 16,0 26,0 27,0 29,0 31,0 20,5 28,5 30,0 32,5 34,0 25,0 33,0 35,0 38,0 29,5 32,0 33,5 36,0 38,5 41,0 39,0 44,0 39,5 42,0 44,5 47,0 50,0 50,5 53,0 56,0
Poznámka: normované u a testovací kritérium je ve tvaru Pro velké výběrové soubory má testovací kritérium rozdělení normální normované u a testovací kritérium je ve tvaru 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku
Wilcoxonův test (dvouvýběrový) Slouží k ověření zda dva nezávislé výběry s různým počtem prvků patří do stejného základního souboru. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu (1%, 5%) 2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3 ,…, xm) Výběr Y: hodnoty ( y1, y2, y3 ,..., yn) - sloučíme oba soubory do jediného s počtem prvků N = m + n a uspořádáme v rostoucí posloupnost podle velikosti hodnot, - hodnotám v posloupnosti přiřadíme pořadová čísla (při shodě hodnot průměrná pořadová čísla) a rozlišíme do kterého výběru pořadové číslo patří,
- pořadová čísla k hodnotám výběru X: Px1, Px2, Px3, ……Pxm - pořadová čísla k hodnotám výběru Y: Py1, Py2, Py3, …… Pyn, 3) Testovací kritérium - vypočteme součty pořadových čísel původních souborů X a Y Tx = Px1 + Px2 + Px3 + ……+ Pxm Ty = Py1 + Py2 + Py3 + ……+ Pyn Testovací kritérium je T = min (Ux, Uy) Hodnoty Ux a Uy se určí ze vztahů
Pro větší soubory lze použít normální aproximaci s testovacím kritériem při použití menší hodnoty z Ux, Uy dle vztahu 4) Kritická hodnota testovacího kritéria Tm, n, závisí na stupních volnosti m, n a hladině významnosti (1%, 5%), hodnoty dle tabulky předchozího testu. Pro větší soubory lze použít k popisu testovacího kritéria normální aproximaci. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku
Wilcoxonův test (jednovýběrový) Jedná se o variantu neparametrického testu pro ověření shodnosti středních hodnot ve dvou výběrech při párovém přiřazení hodnot ( diference mezi hodnotami jsou nevýznamné). 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu (1%, 5%) 2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3, …, xm) Výběr Y: hodnoty ( y1, y2, y3, ..., yn) Určíme diference di mezi párovými hodnotami di = xi - yi - nenulovým diferencím v absolutní hodnotě přiřadíme vzestupně pořadová čísla Pi - určíme součet pořadí pro kladné a záporné diference U-, U+
Hladina významnosti = 5 % Hladina významnosti = 1 % 3) Testovací kritérium T = min ( U-, U+ ) 4) Kritická hodnota testovacího kritéria Pro hladinu významnosti a celkový počet nenulových diferencí je kritická hodnota U n, dle tabulky. Počet diferencí Hladina významnosti = 5 % Hladina významnosti = 1 % 6 0,6 7 2,1 8 3,7 0,3 9 5,5 1,6 10 8,1 3,1 11 10,7 5,1 12 13,8 7,2 13 17,2 9,8 14 21,1 12,7 15 25,3 15,7 20 52,3 37,4
Poznámka: Pro větší rozsahy má testovací kritérium normální rozdělení N(u, u).Testovací kritérium je dle vztahu 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku
Kruskal – Wallisův test Postup je variantou analýzy rozptylu při jednoduchém třídění. Posuzuje nezávislé náhodné výběry obecně s různým počtem prvků, zda patří do jednoho základního souboru. Předpokladem je spojitost distribučních funkcí náhodných k výběrů. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru F1(x) = F2(x) =…….. = Fk(x) Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu (1%, 5%) 2) Charakteristiky výběrových souborů Celkem k výběrových souborů o četnostech n1, n2, n3, …….., nk sloučíme do jednoho neklesajícího souboru a hodnotám přiřadíme pořadové číslo, pro stejné hodnoty průměrného pořadového čísla. Každý původní soubor otestujeme součtem pořadí: T1, T2, T3, ….., Tk.
3) Testovací kritérium Posouzení celého souboru k výběrů s počtem prvků n = n1 + n2 …. + nk je kritériem dle vztahu 4) Kritická hodnota testovacího kritéria Testovací kritérium na rozdělení 2 o k-1 stupních volnosti. Kritická hodnota 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku
Poznámka: Pokud v posloupnosti výběrových souborů jsou shodné hodnoty pořadí a přiřazuje se souborům průměrné pořadí, je nutné testovací kriterium korigovat faktorem kde p je počet souborů se stejným pořadí a ti je počet pořadí v i-tém výběru. Korigované testovací kritérium