Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Testy dobré shody (testy shody rozdělení)

Podobné prezentace


Prezentace na téma: "Testy dobré shody (testy shody rozdělení)"— Transkript prezentace:

1 Testy dobré shody (testy shody rozdělení)

2 Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu. V jiných případech hledáme rozdělení, které by odpovídalo provedenému náhodnému výběru a sloužilo tak jako teoretický model. Přitom vycházíme z výběrového rozdělení, které se přirozeně od od rozdělení teoretického více či méně liší. Máme tedy důvody v některých případech porovnávat empirická rozdělení četností s rozděleními teoretickými. Případně neuvádět a jen si vytisknout pro sebe.

3 Volba teoretického rozdělení je prováděna na základě některých věcných úvah o sledovaném jevu, popřípadě na základě odhadu typu teoretického rozdělení z grafického vyobrazení výběrového rozdělení četností. Tato volba nemusí být vždy správná, a proto je aktuální ověřit shodu empirického rozdělení rozdělení s teoretickým vhodným testem. Testy hypotézy, že náhodný výběr x1, x2, …, xn pochází z určitého předpokládaného rozdělení (např. normálního), se nazývají testy dobré shody. Mezi nejčastěji užívané testy dobré shody patří Pearsonův 2 – test dobré shody.

4 Tento test lze použít ve dvou nejčastěji se vyskytujících situacích:
Nulová hypotéza H0 předpokládá, že v konečném ZS roztříděném podle nějakého kvantitativního či kvalitativního znaku do k skupin jsou podíly variant v základním souboru rovny číslům p0,1, p0,2, …, p0,k. Nulová hypotéza H0 předpokládá, že nekonečný ZS má rozdělení určitého typu (např. normální). V případě, že H0 udává nejen typ rozdělení, ale i jeho parametry, mluvíme o úplně specifikovaném modelu. V případě, že je udán pouze typ rozdělení, tak hovoříme o neúplně specifikovaném modelu.

5 Předpokládejme, že základní soubor má libovolné rozdělení s neznámou distribuční funkcí F(x).
Provedeme náhodný výběr o rozsahu n a zjištěné výsledky roztřídíme do k tříd (intervalů) s četnostmi n1, n2, …, nk. Na základě výběrových zjištění pak chceme ověřit hypotézu, že daný náhodný výběr pochází ze základního souboru s určitým rozdělením pravděpodobností. H0: F(x) = F0(x) Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry.

6 Z formulace problému vyplývá, že není třeba rozlišovat jednostranné a dvoustranné alternativní hypotézy. H1 prostě popírá platnost H0, tzn. tvrdí, že rozdělení je jiné, než udává hypotéza H0. H1: F(x)  F0(x) Postup při stanovení testového kritéria Pozorované hodnoty rozdělíme do k disjunktních intervalů Ij = xj, xj+1, j = 1, …, k, přičemž -  x1 x2  …  xk  xk+1  . Počet pozorování, která leží v j-tém intervalu, nazýváme j-tá empirická četnost a označujeme nj.

7 pj = P(xj  X  xj+1) = F0(xj+1) – F0(xj).
Pro jednotlivé intervaly vypočteme teoretické (očekávané) četnosti npj odvozené za předpokladu platnosti nulové hypotézy (na základě distribuční funkce a parametrů daného rozdělení se stanoví pravděpodobnost pj , že hodnota náhodné veličiny X padne do j-tého intervalu). Užitím vlastnosti distribuční funkce lze pravděpodobnost pj vyjádřit pomocí F0(x) pj = P(xj  X  xj+1) = F0(xj+1) – F0(xj).

8 Shodu mezi empirickým a teoretickým rozdělením se posuzuje pomocí testového kritéria
kde nj jsou empirické (skutečné) četnosti v intervalu j (j = 1, 2, …, k) a npj teoretické četnosti (stanovené na základě pravděpodobnosti) v intervalu j. Vzorec testového kritéria lze snadno upravit na ekvivalentní tvar

9 Za platnosti H0 má statistika asymptoticky 2 – rozdělení o k-1 stupních volnosti.
Kritický obor pro test H0 má tedy tvar: , kde je kritická hodnota 2 – rozdělení. Pokud , nulová hypotéza se zamítá, platí hypotéza alternativní, která tvrdí, že náhodný výběr není ze základního souboru s daným rozdělením pravděpodobností.

10 Situace, kdy hypotetická distribuční funkce je určena jednoznačně, jsou v praxi poměrně vzácné (jde o případ, kdy H0 určuje tvar i hodnoty parametrů testovaného rozdělení). Častější jsou případy, kdy H0 nespecifikuje teoretické rozdělení úplně, tzn. specifikuje jen tvar rozdělení, nikoliv hodnoty jeho parametrů. Počet parametrů, které nejsou H0 specifikovány, označíme c. Mohou to být jenom některé parametry zkoumaného rozdělení, ale také parametry všechny. Tyto parametry je pak nutno z daného náhodného výběru odhadnout.

11 Testové kritérium budeme následně porovnávat s tabulkovou hodnotou  – rozdělení pro f = (k – c – 1) stupňů volnosti, kde k je počet tříd – intervalů, c je počet parametrů ověřované distribuční funkce, např. distribuční funkce normálního rozdělení má 2 parametry  a 2, exponenciálního rozdělení jeden parametr ). Spolehlivost  – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n. Je tedy žádoucí, aby byla splněna podmínka n > 50.

12 Pro použití  – testu je však nezbytné, aby teoretické četnosti npj byly větší než 5.
Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť k je rovno počtu tříd po sloučení). Je nutno tedy hledat skupiny nějak příbuzné, věcně spolu související, které je možné následně sloučit. Jde-li o kvantitativní třídicí znak, a tedy intervalové rozdělení četností, slučují se běžně okrajové skupiny.

13 Z obecnějšího hlediska však můžeme nesplnění podmínky (velikost teoretických četností) považovat za varovný signál toho, že test provádíme při nedostatečném rozsahu výběru a že naše závěry budou možná zpochybnitelné. Je-li to podle povahy výběrového šetření reálné, dává se kvůli splnění podmínky npj  5 raději přednost zvýšení rozsahu výběru před slučováním sousedních tříd (okrajových skupin).

14 Příklad V rámci přijímacího řízení absolvují uchazeči o studium na VŠ Amthauerův test struktury inteligence. Výsledky tohoto testu se vyjadřují prostřednictvím tzv. celkového hrubého skóre. Ze studentů přijatých ke studia během 4 let byl proveden náhodný výběr 98 studentů. Ověřte předpoklad normality rozdělení pro tento výběr. Soubor je potřeba nejprve setřídit do intervalového rozdělení a stanovit základní číselné charakteristiky, které odpovídají parametrům normálního rozdělení.

15 Při sčítání teoretických četností je nutno sečíst i četnosti empirické.

16 V případě přijetí nulové hypotézy lze konstatovat, že daný výběr byl pořízen ze základního souboru s normálním rozdělením.

17

18

19 Nulovou hypotézu může také obecněji tvořit jakékoliv teoretické rozdělení pravděpodobností, které může být formulováno intuitivně, např. jako zobecněná zkušenost apod. Příklad Hudební vydavatelství připravuje k vydání zvukovou nahrávku, která vychází na 3 typech audionosičů: MG, CD, LP. S ohledem na charakter nahrávky a na okruh potencionálních posluchačů firma v marketingovém plánu předpokládá, že pro uspokojení zákazníků a minimalizaci režijních nákladů bude vhodné vydat nosiče v této struktuře:

20 5000 ks MG (= 50 % nákladu), 3000 ks CD (30 %) a 2000 ks LP (20 %). Po uplynutí 3 měsíců kontrolovala firma záznamy o prodeji, z nichž vyplynuly tyto průběžné počty prodaných nosičů: 2552 MG, CD a LP. Je původní úvaha vydavatelství o struktuře prodeje nosičů potvrzena výběrem, a tudíž správná ( = 0,05)? Jde o situaci, kde na místě testované H0 nestojí předpoklad o tvaru určitého standardizovaného rozdělení, nýbrž hypotetický předpoklad vycházející z intuitivního odhadu jisté situace.

21 2 = 443,26 f = k – c – 1 = 3 – 0 –1 = 2 Kritická hodnota
Nosič Prodáno (ks) Pravděpo-dobnost Očekávaná četnost nj pj npj = 3859·pj MG 2552 0,50 1929,5 200,83 CD 923 0,30 1157,7 47,58 LP 384 0,20 771,8 194,85 Součet 3859 1,00 443,26 2 = 443,26 f = k – c – 1 = 3 – 0 –1 = 2 Kritická hodnota  H0 se zamítá (původní marketingová úvaha vydavatele o struktuře nosičů se reálným prodejem vůbec nepotvrdila)

22 Kolmogorov - Smirnovův test
Je-li plně známo teoretické rozdělení, tzn. jeho typ i příslušné parametry, je velmi výhodným a jednoduchým testem shody Kolmogorov – Smirnovův test, který je použitelný i v případech, kdy není použitelný 2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5). Jeho předností je, že vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (skupin). Tím nedochází ke ztrátě informace obsažené ve výběru.

23 Test se používá k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), která ovšem musí být úplně specifikována včetně všech parametrů. Test se provádí pomocí testového kritéria kde Nj – jsou kumulativní četnosti empirické, Hj – kumulativní četnosti teoretické, n – četnost sledovaného souboru, max Nj – Hj – je největší rozdíl mezi kumulativními četnostmi empirickými a teoretickými.

24 Jestliže hodnota testového kritéria D překročí kritickou hodnotu D , nalezenou v tabulce pro daný rozsah výběrového souboru n a zvolenou hladinu významnosti , zamítáme nulovou hypotézu o shodě mezi empirickým a teoretickým rozdělením. Tabulka kritických hodnot D je sestavena pouze pro n  40. Pro výběry větších rozsahů se musí kritické hodnoty určit podle vztahů (pro  = 0,05 a  = 0,01).

25 Příklad Součástí biologického monitoringu je i cytogenetická analýza krve. Předložená data jsou počty aberantních buněk ve vzorcích krve, odebraných v jednom okrese. Aberantní buňka představuje buňku, v jejíž genetické informaci došlo ke změně, např. ke zlomu chromozonu. Bylo vždy měřeno 100 buněk a počty aberantních buněk jsou celá čísla. Určete typ diskrétního rozdělení.

26

27 Kritická hodnota pro Kolmogorov-Smirnovův test
Byla potvrzena nulová hypotéza o přítomnosti Poissonova rozdělení.

28

29

30 Davidův test normality
2 – test dobré shody lze užívat pro ověřování shody s libovolným typem rozdělení. Pro ověření nulové hypotézy, která říká, že náhodný výběr pochází z normálního rozdělení, lze použít Davidův test normality. Jeho testové kritérium má tvar: kde s je výběrová směrodatná odchylka.

31 Jestliže vypočtená hodnota T bude splňovat relaci
Td  T  Th, kde Td a Th jsou tabelované kritické hodnoty, nulová hypotéza o normalitě rozdělení se nezamítá. Tento test má velmi malou sílu testu, a proto se používá spíše pro rychlou informaci o přítomnosti normality rozdělení.

32 Příklad Měření hustoty Země H. Cavendishem v roce 1798 je na svou dobu pozoruhodné zvláště, když si uvědomíme, že dnešní měření přináší hodnotu blízkou, a to okolo 5,517. Určete, zda se v tomto případě jedná o soubor s normálním rozdělením.

33 3,47 < 4,39 < 4,89, xmax = 5,85 xmin = 4,88 s = 0,220946
Tabulkové hodnoty pro Davidův test (pro n = 30 a  = 0,05) Td = 3,47 Th= 4,89 Protože platí základní podmínka, tzn. 3,47 < 4,39 < 4,89, je možné potvrdit normalitu rozdělení tohoto souboru.

34


Stáhnout ppt "Testy dobré shody (testy shody rozdělení)"

Podobné prezentace


Reklamy Google