Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Testy dobré shody (testy shody rozdělení). Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož.

Podobné prezentace


Prezentace na téma: "Testy dobré shody (testy shody rozdělení). Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož."— Transkript prezentace:

1 Testy dobré shody (testy shody rozdělení)

2 Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož byl výběrový soubor pořízen, je určitého konkrétního typu. V jiných případech hledáme rozdělení, které by odpovídalo provedenému náhodnému výběru a sloužilo tak jako teoretický model. Přitom vycházíme z výběrového rozdělení, které se přirozeně od od rozdělení teoretického více či méně liší. Máme tedy důvody v některých případech porovnávat empirická rozdělení četností s rozděleními teoretickými.

3 Volba teoretického rozdělení je prováděna na základě některých věcných úvah o sledovaném jevu, popřípadě na základě odhadu typu teoretického rozdělení z grafického vyobrazení výběrového rozdělení četností. Tato volba nemusí být vždy správná, a proto je aktuální ověřit shodu empirického rozdělení rozdělení s teoretickým vhodným testem. Testy hypotézy, že náhodný výběr x 1, x 2, …, x n pochází z určitého předpokládaného rozdělení (např. normálního), se nazývají testy dobré shody. Mezi nejčastěji užívané testy dobré shody patří Pearsonův  2 – test dobré shody.

4 Tento test lze použít ve dvou nejčastěji se vyskytujících situacích:  Nulová hypotéza H 0 předpokládá, že v konečném ZS roztříděném podle nějakého kvantitativního či kvalitativního znaku do k skupin jsou podíly variant v základním souboru rovny číslům p 0,1, p 0,2, …, p 0,k.  Nulová hypotéza H 0 předpokládá, že nekonečný ZS má rozdělení určitého typu (např. normální).  V případě, že H 0 udává nejen typ rozdělení, ale i jeho parametry, mluvíme o úplně specifikovaném modelu.  V případě, že je udán pouze typ rozdělení, tak hovoříme o neúplně specifikovaném modelu.

5 Předpokládejme, že základní soubor má libovolné rozdělení s neznámou distribuční funkcí F(x). Provedeme náhodný výběr o rozsahu n a zjištěné výsledky roztřídíme do k tříd (intervalů) s četnostmi n 1, n 2, …, n k. Na základě výběrových zjištění pak chceme ověřit hypotézu, že daný náhodný výběr pochází ze základního souboru s určitým rozdělením pravděpodobností. H 0 : F(x) = F 0 (x) Předpokládáme, že F 0 (x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry.

6 Z formulace problému vyplývá, že není třeba rozlišovat jednostranné a dvoustranné alternativní hypotézy. H 1 prostě popírá platnost H 0, tzn. tvrdí, že rozdělení je jiné, než udává hypotéza H 0. H 1 : F(x)  F 0 (x) Postup při stanovení testového kritéria Pozorované hodnoty rozdělíme do k disjunktních intervalů I j =  x j, x j+1 , j = 1, …, k, přičemž -   x 1  x 2  …  x k  x k+1  . Počet pozorování, která leží v j-tém intervalu, nazýváme j-tá empirická četnost a označujeme n j.

7 Pro jednotlivé intervaly vypočteme teoretické (očekávané) četnosti np j odvozené za předpokladu platnosti nulové hypotézy (na základě distribuční funkce a parametrů daného rozdělení se stanoví pravděpodobnost p j, že hodnota náhodné veličiny X padne do j-tého intervalu). Užitím vlastnosti distribuční funkce lze pravděpodobnost p j vyjádřit pomocí F 0 (x) p j = P(x j  X  x j+1 ) = F 0 (x j+1 ) – F 0 (x j ).

8 Shodu mezi empirickým a teoretickým rozdělením se posuzuje pomocí testového kritéria kde n j jsou empirické (skutečné) četnosti v intervalu j (j = 1, 2, …, k) a np j teoretické četnosti (stanovené na základě pravděpodobnosti) v intervalu j. Vzorec testového kritéria lze snadno upravit na ekvivalentní tvar

9 Za platnosti H 0 má statistika asymptoticky  2 – rozdělení o k-1 stupních volnosti. Kritický obor pro test H 0 má tedy tvar:, kde je kritická hodnota  2 – rozdělení. Pokud, nulová hypotéza se zamítá, platí hypotéza alternativní, která tvrdí, že náhodný výběr není ze základního souboru s daným rozdělením pravděpodobností.

10 Situace, kdy hypotetická distribuční funkce je určena jednoznačně, jsou v praxi poměrně vzácné (jde o případ, kdy H 0 určuje tvar i hodnoty parametrů testovaného rozdělení). Častější jsou případy, kdy H 0 nespecifikuje teoretické rozdělení úplně, tzn. specifikuje jen tvar rozdělení, nikoliv hodnoty jeho parametrů. Počet parametrů, které nejsou H 0 specifikovány, označíme c. Mohou to být jenom některé parametry zkoumaného rozdělení, ale také parametry všechny. Tyto parametry je pak nutno z daného náhodného výběru odhadnout.

11 Testové kritérium budeme následně porovnávat s tabulkovou hodnotou   – rozdělení pro f = (k – c – 1) stupňů volnosti, kde  k je počet tříd – intervalů,  c je počet parametrů ověřované distribuční funkce, např. distribuční funkce normálního rozdělení má 2 parametry  a  2, exponenciálního rozdělení jeden parametr ). Spolehlivost   – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n. Je tedy žádoucí, aby byla splněna podmínka n > 50.

12 Pro použití   – testu je však nezbytné, aby teoretické četnosti np j byly větší než 5. Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť k je rovno počtu tříd po sloučení). Je nutno tedy hledat skupiny nějak příbuzné, věcně spolu související, které je možné následně sloučit. Jde-li o kvantitativní třídicí znak, a tedy intervalové rozdělení četností, slučují se běžně okrajové skupiny.

13 Z obecnějšího hlediska však můžeme nesplnění podmínky (velikost teoretických četností) považovat za varovný signál toho, že test provádíme při nedostatečném rozsahu výběru a že naše závěry budou možná zpochybnitelné. Je-li to podle povahy výběrového šetření reálné, dává se kvůli splnění podmínky np j  5 raději přednost zvýšení rozsahu výběru před slučováním sousedních tříd (okrajových skupin).

14 Příklad V rámci přijímacího řízení absolvují uchazeči o studium na VŠ Amthauerův test struktury inteligence. Výsledky tohoto testu se vyjadřují prostřednictvím tzv. celkového hrubého skóre. Ze studentů přijatých ke studia během 4 let byl proveden náhodný výběr 98 studentů. Ověřte předpoklad normality rozdělení pro tento výběr. Soubor je potřeba nejprve setřídit do intervalového rozdělení a stanovit základní číselné charakteristiky, které odpovídají parametrům normálního rozdělení.

15 Při sčítání teoretických četností je nutno sečíst i četnosti empirické.

16 V případě přijetí nulové hypotézy lze konstatovat, že daný výběr byl pořízen ze základního souboru s normálním rozdělením.

17

18

19 Nulovou hypotézu může také obecněji tvořit jakékoliv teoretické rozdělení pravděpodobností, které může být formulováno intuitivně, např. jako zobecněná zkušenost apod. Příklad Hudební vydavatelství připravuje k vydání zvukovou nahrávku, která vychází na 3 typech audionosičů: MG, CD, LP. S ohledem na charakter nahrávky a na okruh potencionálních posluchačů firma v marketingovém plánu předpokládá, že pro uspokojení zákazníků a minimalizaci režijních nákladů bude vhodné vydat nosiče v této struktuře:

20  5000 ks MG (= 50 % nákladu),  3000 ks CD (30 %) a  2000 ks LP (20 %). Po uplynutí 3 měsíců kontrolovala firma záznamy o prodeji, z nichž vyplynuly tyto průběžné počty prodaných nosičů: 2552 MG, 923 CD a 384 LP. Je původní úvaha vydavatelství o struktuře prodeje nosičů potvrzena výběrem, a tudíž správná (  = 0,05)? Jde o situaci, kde na místě testované H 0 nestojí předpoklad o tvaru určitého standardizovaného rozdělení, nýbrž hypotetický předpoklad vycházející z intuitivního odhadu jisté situace.

21 Nosič Prodáno (ks) Pravděpo- dobnost Očekávaná četnost njnj pjpj np j = 3859·p j MG25520,501929,5200,83 CD9230,301157,747,58 LP3840,20771,8194,85 Součet38591, ,26  2 = 443,26f = k – c – 1 = 3 – 0 –1 = 2 Kritická hodnota  H 0 se zamítá (původní marketingová úvaha vydavatele o struktuře nosičů se reálným prodejem vůbec nepotvrdila)

22 Kolmogorov - Smirnovův test Je-li plně známo teoretické rozdělení, tzn. jeho typ i příslušné parametry, je velmi výhodným a jednoduchým testem shody Kolmogorov – Smirnovův test, který je použitelný i v případech, kdy není použitelný  2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5). Jeho předností je, že vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (skupin). Tím nedochází ke ztrátě informace obsažené ve výběru.

23 Test se používá k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), která ovšem musí být úplně specifikována včetně všech parametrů. Test se provádí pomocí testového kritéria kde  N j – jsou kumulativní četnosti empirické,  H j – kumulativní četnosti teoretické,  n – četnost sledovaného souboru,  max  N j – H j  – je největší rozdíl mezi kumulativními četnostmi empirickými a teoretickými.

24 Jestliže hodnota testového kritéria D překročí kritickou hodnotu D , nalezenou v tabulce pro daný rozsah výběrového souboru n a zvolenou hladinu významnosti , zamítáme nulovou hypotézu o shodě mezi empirickým a teoretickým rozdělením. Tabulka kritických hodnot D  je sestavena pouze pro n  40. Pro výběry větších rozsahů se musí kritické hodnoty určit podle vztahů (pro  = 0,05 a  = 0,01).

25 Příklad Součástí biologického monitoringu je i cytogenetická analýza krve. Předložená data jsou počty aberantních buněk ve vzorcích krve, odebraných v jednom okrese. Aberantní buňka představuje buňku, v jejíž genetické informaci došlo ke změně, např. ke zlomu chromozonu. Bylo vždy měřeno 100 buněk a počty aberantních buněk jsou celá čísla. Určete typ diskrétního rozdělení.

26

27 Kritická hodnota pro Kolmogorov-Smirnovův test Byla potvrzena nulová hypotéza o přítomnosti Poissonova rozdělení.

28

29

30 Davidův test normality  2 – test dobré shody lze užívat pro ověřování shody s libovolným typem rozdělení. Pro ověření nulové hypotézy, která říká, že náhodný výběr pochází z normálního rozdělení, lze použít Davidův test normality. Jeho testové kritérium má tvar: kde s je výběrová směrodatná odchylka.

31 Jestliže vypočtená hodnota T bude splňovat relaci T d  T  T h, kde T d a T h jsou tabelované kritické hodnoty, nulová hypotéza o normalitě rozdělení se nezamítá. Tento test má velmi malou sílu testu, a proto se používá spíše pro rychlou informaci o přítomnosti normality rozdělení.

32 Příklad Měření hustoty Země H. Cavendishem v roce 1798 je na svou dobu pozoruhodné zvláště, když si uvědomíme, že dnešní měření přináší hodnotu blízkou, a to okolo 5,517. Určete, zda se v tomto případě jedná o soubor s normálním rozdělením.

33 x max = 5,85x min = 4,88s = 0, Tabulkové hodnoty pro Davidův test (pro n = 30 a  = 0,05) T d = 3,47T h = 4,89 Protože platí základní podmínka, tzn. 3,47 < 4,39 < 4,89, je možné potvrdit normalitu rozdělení tohoto souboru.

34


Stáhnout ppt "Testy dobré shody (testy shody rozdělení). Konstrukce některých odhadů charakteristik ZS a testů hypotéz je vázána na předpoklad, že rozdělení ZS, z něhož."

Podobné prezentace


Reklamy Google