Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Úvod do analýzy rozptylu
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
Testování parametrických hypotéz
Testování statistických hypotéz
Statistické metody v ochraně kulturního dědictví
Hodnocení způsobilosti měřících systémů
Cvičení 6 – 25. října 2010 Heteroskedasticita
Neparametrické testy.
Rozbory přesnosti v jednotlivých fázích vytyčení
Porovnání průměrů více než dvou normálních rozdělení
CHYBY MĚŘENÍ.
Obecný postup při testování souborů
Testování hypotéz přednáška.
Testování hypotéz vymezení důležitých pojmů
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
Odhady parametrů základního souboru
Inference jako statistický proces 1
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
základní principy a použití
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
Biostatistika 8. přednáška
PSY717 – statistická analýza dat
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
ADDS cviceni Pavlina Kuranova. Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých.
Základy testování hypotéz
Aritmetický průměr - střední hodnota
Mann-Whitney U-test Wilcoxonův test Znaménkový test
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Zlepšení podmínek pro vzdělávání na středních školách Operačního programu Vzdělávání pro konkurenceschopnost Název a adresa školy: Integrovaná střední.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Jednovýběrový a párový t - test
Homogenita meteorologických pozorování
Statistické testování – základní pojmy
Testování hypotéz párový test
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Neparametrické testy parametrické a neparametrické testy
Odhady parametrů základního souboru
Opakování Shrnutí statistických testů Neparametrické testy
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů Lubomír Moc – KVM – Inženýrská statistika 30.10.2014

Extrémní hodnoty a analýza výběrových souborů Lubomír Moc – Inženýrská statistika Extrémní hodnoty a analýza výběrových souborů V souboru hodnot zjištěných při experimentu, i při dodržení relativně stálých podmínek v průběhu experimentu, se může vyskytnout výrazně odlišná hodnota. Hodnota může být dosažena vlivem dalšího neuvažovaného faktoru, či nepředpokládanou kombinací faktorů v relativně stálých podmínkách. Další příčinou vzniku je chyba v průběhu experimentu, v metodice nebo v  měřicím zařízení. Hodnotu označujeme jako hrubou chybu a je nutné ji odlišit od chyby náhodné, která souvisí s variabilitou působení ovlivňujících faktorů. 16.2.2018

Hodnoty obsahující hrubou chybou se z výběrového souboru vylučují Hodnoty obsahující hrubou chybou se z  výběrového souboru vylučují. Postup lze použít pouze tehdy, pokud je velmi nepravděpodobné, že hodnota patří do základního souboru jako ostatní hodnoty ve výběrovém souboru. Při vyhodnocení extrémní či odlehlé hodnoty se musí vycházet z  vlastností základního souboru dle  funkce hustoty pravděpodobnosti náhodné veličiny. Při posuzování zdánlivých extrémních či odlehlých hodnot se používají statistické testy : Grubbsův test pro soubory s normální náhodnou veličinou Dixonův test (Q test) pro výběrové soubory s malým počtem hodnot a soubory s obecným rozdělením pravděpodobnosti

Posuzování extrémní hodnoty pro soubor s normální náhodnou veličinou a) orientační vyloučení extrémních hodnot Metoda posuzuje umístění extrémní hodnoty vzhledem k praktickému oboru normální náhodné veličiny v pásmu  3. Z hodnot výběrového souboru bez předpokládané extrémní hodnoty určíme aritmetický průměr a směrodatnou odchylku s. Pokud odchylka mezi střední hodnotou a předpokládanou extrémní hodnotou je větší než  3 jedná se skutečně o extrémní hodnotu a z výběrového souboru ji vylučujeme. Pokud je odchylka do  3 nejedná se o extrémní hodnotu a do výběrového souboru patří. Pro další hodnocení výběrového souboru se musí použít všechny hodnoty souboru.

b) Grubbsův test extrémních odchylek Posouzení vlastností výběrového souboru se provádí kvantitativně podle velikosti testovacího kritéria Tn,. Test se uskutečňuje následujícím postupem: 1) Formulace hypotéz Nulová hypotéza Ho: hodnota ve výběru není extrémní Alternativní hypotéza H1: hodnota ve výběru je extrémní hladina významnosti testu  (1%, 5%) 2) Charakteristiky výběrového souboru - střední hodnota - směrodatná odchylka s - seřazení hodnot výběrového souboru do vzestupné variační řady

3) Testovací kritérium Určíme pro první a poslední (n-tou) hodnotu variační řady: první hodnota poslední hodnota 4) Kritická hodnota testovacího kritéria Tn, závisí na stupni volnosti n a hladině významnosti  (1%, 5%), hodnoty dle tabulky. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritéria T1 a Tn splňují podmínky

n =0,05 =0,01 3 1,412 1,414 15 2,493 2,800 4 1,689 1,723 16 2,523 2,837 5 1,869 1,955 17 2,551 2,871 6 1,996 2,130 18 2,577 2,903 7 2,093 2,265 19 2,600 2,932 8 2,172 2,374 20 2,623 2,959 9 2,237 2,464 21 2,644 2,984 10 2,294 2,540 22 2,664 3,008 11 2,343 2,606 23 2,683 3,030 12 2,387 2,663 24 2,701 3,051 13 2,426 2,714 25 2,717 3,071 14 2,481 2,759

Posuzování extrémní hodnoty pro soubor s neznámou náhodnou veličinou Dixonův test extrémních odchylek Posouzení vlastností výběrového souboru se provádí kvantitativně podle velikosti testovacího kritéria Qn,. Test se provádí následujícím postupem: 1) Formulace hypotéz Nulová hypotéza Ho: hodnota ve výběru není extrémní Alternativní hypotéza H1: hodnota ve výběru je extrémní hladina významnosti testu  (1%, 5%) 2) Charakteristiky výběrového souboru - variační rozpětí R = xmax – xmin - seřazení hodnot výběrového souboru do vzestupné variační řady

3) Testovací kritérium Určíme pro první a poslední (n-tou) hodnotu variační řady hodnotící kritérium: první hodnota poslední hodnota 4) Kritická hodnota testovacího kritéria Tn, závisí na stupni volnosti n a hladině významnosti  (1%, 5%), hodnoty dle tabulky. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritéria Q1 event. Qn splňují podmínku event.

n  3 0,941 0,988 17 0,320 0,416 4 0,765 0,889 18 0,313 0,407 5 0,642 0,780 19 0,306 0,398 6 0,560 0,698 20 0,300 0,391 7 0,507 0,637 21 0,295 0,384 8 0,468 0,590 22 0,292 0,378 9 0,437 0,555 23 0,289 0,372 10 0,412 0,527 24 0,285 0,367 11 0,392 0,502 25 0,281 0,362 12 0,376 0,482 26 0,277 0,357 13 0,361 0,465 27 0,273 0,353 14 0,349 0,450 28 0,269 15 0,338 0,438 29 0,266 0,345 16 0,329 0,426 30 0,260 0,341

Neparametrické testy Při provádění testů se nevychází z volby konkrétního typu náhodné veličiny, pouze se předpokládá její spojité rozdělení. V testech se neověřují parametry náhodné veličiny, ale jiné další charakteristiky používané k popisu statistického souboru. Výhody neparametrických testů možnost použití pro popis kvantitativních a kvalitativních znaků, obecná použitelnost proti parametrickým testům, jednoduchost testů, nepožadují splnění specielních předpokladů o rozdělení pravděpodobnosti, hodnoty veličiny mohou být stanoveny subjektivně nebo nepřesně, pořadí hodnot je správné. Významnou skupinou těchto testů jsou pořadové testy. V testech se používá místo původních skutečných hodnot náhodné veličiny pouze neklesající posloupnost pořadí přiřazených k hodnotám náhodné veličiny.

Postup pro určení pořadí Při n opakováních náhodné veličiny X získáme hodnoty X1, X2, X3 ….. Xn, které se od sebe odlišují, v některých případech mohou být i shodné. Každé hodnotě z výběrového souboru přiřadíme pořadí Pi podle umístění v neklesající posloupnosti hodnot. Hodnotám v posloupnosti shodným se přiřadí průměrné pořadí (v tabulce hodnoty 25,02; 25,03; 25,04 a 25,06) i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X i 25,05 25,07 25,10 25,03 25,08 25,04 25,09 25,06 25,02 P i 3,5 9,5 1,5 i - pořadí výběru xi - hodnota Pi - pořadí podle velikosti

Do skupiny těchto testů patří: Wilcoxon-Whiteův test Wilcoxonův test dvouvýběrový Wilcoxonův test jednovýběrový Kruskal-Wallisův test Používá se k ověření, zda dva nezávislé výběry s různým počtem prvků patří do stejného základního souboru. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu  (1%, 5%)

2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3,…, xm) Výběr Y: hodnoty ( y1, y2, y3, ..., yn) - sloučíme oba soubory do jediného s počtem prvků N = m + n a uspořádáme v rostoucí posloupnost podle velikosti hodnot, - hodnotám v posloupnosti přiřadíme pořadová čísla (při shodě hodnot průměrná pořadová čísla) a rozlišíme do kterého výběru pořadové číslo patří, pořadová čísla k hodnotám výběru X: Px1, Px2, Px3, ……Pxm pořadová čísla k hodnotám výběru Y: Py1, Py2, Py3, …… Pyn, 3) Testovací kritérium - vypočteme součty pořadových čísel původních souborů X a Y Tx = Px1 + Px2 + Px3 + ……+ Pxm Ty = Py1 + Py2 + Py3 + ……+ Pyn, - testovací kritérium je minimum součtu pořadových čísel T = min (Tx, Ty)

4) Kritická hodnota testovacího kritéria Tm,n, závisí na stupních volnosti m, n a hladině významnosti , hodnoty dle následující tabulky: pro  = 5% n m 4 5 6 7 8 9 10 11 12 13 14 2 8,0 9,0 10,0 11,0 12,0 13,0 3 7,5 9,5 11,5 13,5 14,0 15,5 16,0 15,0 17,0 18,0 19,0 10,5 12,5 18,5 20,5 22,0 20,0 23,0 25,0 16,5 19,5 21,0 22,5 24,0 25,5 27,0 26,0 28,0 29,0 26,5 30,5 32,0 30,0 34,0 33,0 34,5 37,0 35,0 39,0 38,5 41,0 43,0

Pro  = 1 % n m 5 6 7 8 9 10 11 12 13 14 3 13,5 15,0 16,5 17,0 18,5 20,0 4 12,0 14,0 18,0 21,0 22,0 24,0 12,5 15,5 19,5 22,5 25,5 28,0 16,0 26,0 27,0 29,0 31,0 20,5 28,5 30,0 32,5 34,0 25,0 33,0 35,0 38,0 29,5 32,0 33,5 36,0 38,5 41,0 39,0 44,0 39,5 42,0 44,5 47,0 50,0 50,5 53,0 56,0

Poznámka: normované u a testovací kritérium je ve tvaru Pro velké výběrové soubory má testovací kritérium rozdělení normální normované u a testovací kritérium je ve tvaru 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku

Wilcoxonův test (dvouvýběrový) Slouží k ověření zda dva nezávislé výběry s různým počtem prvků patří do stejného základního souboru. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu  (1%, 5%) 2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3 ,…, xm) Výběr Y: hodnoty ( y1, y2, y3 ,..., yn) - sloučíme oba soubory do jediného s počtem prvků N = m + n a uspořádáme v rostoucí posloupnost podle velikosti hodnot, - hodnotám v posloupnosti přiřadíme pořadová čísla (při shodě hodnot průměrná pořadová čísla) a rozlišíme do kterého výběru pořadové číslo patří,

- pořadová čísla k hodnotám výběru X: Px1, Px2, Px3, ……Pxm - pořadová čísla k hodnotám výběru Y: Py1, Py2, Py3, …… Pyn, 3) Testovací kritérium - vypočteme součty pořadových čísel původních souborů X a Y Tx = Px1 + Px2 + Px3 + ……+ Pxm Ty = Py1 + Py2 + Py3 + ……+ Pyn Testovací kritérium je T = min (Ux, Uy) Hodnoty Ux a Uy se určí ze vztahů

Pro větší soubory lze použít normální aproximaci s testovacím kritériem při použití menší hodnoty z Ux, Uy dle vztahu 4) Kritická hodnota testovacího kritéria Tm, n,  závisí na stupních volnosti m, n a hladině významnosti  (1%, 5%), hodnoty dle tabulky předchozího testu. Pro větší soubory lze použít k popisu testovacího kritéria normální aproximaci. 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku

Wilcoxonův test (jednovýběrový) Jedná se o variantu neparametrického testu pro ověření shodnosti středních hodnot ve dvou výběrech při párovém přiřazení hodnot ( diference mezi hodnotami jsou nevýznamné). 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu  (1%, 5%) 2) Charakteristiky výběrových souborů Výběr X : hodnoty ( x1, x2, x3, …, xm) Výběr Y: hodnoty ( y1, y2, y3, ..., yn) Určíme diference di mezi párovými hodnotami di = xi - yi - nenulovým diferencím v absolutní hodnotě přiřadíme vzestupně pořadová čísla Pi - určíme součet pořadí pro kladné a záporné diference U-, U+

Hladina významnosti  = 5 % Hladina významnosti  = 1 % 3) Testovací kritérium T = min ( U-, U+ ) 4) Kritická hodnota testovacího kritéria Pro hladinu významnosti  a celkový počet nenulových diferencí je kritická hodnota U n,  dle tabulky. Počet diferencí Hladina významnosti  = 5 % Hladina významnosti  = 1 % 6 0,6 7 2,1 8 3,7 0,3 9 5,5 1,6 10 8,1 3,1 11 10,7 5,1 12 13,8 7,2 13 17,2 9,8 14 21,1 12,7 15 25,3 15,7 20 52,3 37,4

Poznámka: Pro větší rozsahy má testovací kritérium normální rozdělení N(u, u).Testovací kritérium je dle vztahu 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku

Kruskal – Wallisův test Postup je variantou analýzy rozptylu při jednoduchém třídění. Posuzuje nezávislé náhodné výběry obecně s různým počtem prvků, zda patří do jednoho základního souboru. Předpokladem je spojitost distribučních funkcí náhodných k výběrů. 1) Formulace hypotéz Nulová hypotéza Ho: výběry jsou ze stejného základního souboru F1(x) = F2(x) =…….. = Fk(x) Alternativní hypotéza H1: výběry nejsou ze stejného základního souboru hladina významnosti testu  (1%, 5%) 2) Charakteristiky výběrových souborů Celkem k výběrových souborů o četnostech n1, n2, n3, …….., nk sloučíme do jednoho neklesajícího souboru a  hodnotám přiřadíme pořadové číslo, pro stejné hodnoty průměrného pořadového čísla. Každý původní soubor otestujeme součtem pořadí: T1, T2, T3, ….., Tk.

3) Testovací kritérium Posouzení celého souboru k výběrů s počtem prvků n = n1 + n2 …. + nk je kritériem dle vztahu 4) Kritická hodnota testovacího kritéria Testovací kritérium na rozdělení 2 o k-1 stupních volnosti. Kritická hodnota 5) Rozhodnutí o platnosti hypotézy Ho Hypotéza Ho je platná pokud testovací kritérium T splňuje podmínku

Poznámka: Pokud v posloupnosti výběrových souborů jsou shodné hodnoty pořadí a přiřazuje se souborům průměrné pořadí, je nutné testovací kriterium korigovat faktorem kde p je počet souborů se stejným pořadí a ti je počet pořadí v i-tém výběru. Korigované testovací kritérium