Statistická indukce Teorie odhadu
Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat. Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS. Z toho důvodu hovoříme o odhadu parametrů. Metody odhadování parametrů: Bodový odhad – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS; nic však neříká o tom, kde leží skutečné hodnoty parametrů.
Interval spolehlivosti – neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS. P(T1 T2) = 1 - Interval T1, T2 nazýváme 100(1- )% intervalem spolehlivosti pro charakteristiku . Pravděpodobnost, tj. číslo (1-) nazýváme spolehlivostí odhadu nebo také koeficientem spolehlivosti. Pravděpodobnost se nazývá hladina významnosti (obvykle se volí hodnoty 0,01 nebo 0,05, příp. 0,1).
Spolehlivost odhadu je dána zvolenou pravděpodobností Spolehlivost odhadu je dána zvolenou pravděpodobností. Čím je tato pravděpodobnost větší, tím je i daný odhad spolehlivější. Čím více však roste spolehlivost odhadu (tj. roste 1-), tím se zvětšuje i příslušný interval spolehlivosti, který udává přesnost odhadu. Čím bude daný interval širší, tím bude odhad spolehlivější, tj. hodnota odhadované charakteristiky bude ležet s vysokou pravděpodobností uvnitř intervalu, ale odhad bude méně přesný a jeho praktická využitelnost bude malá. Závěr: mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost.
Pro intervaly spolehlivosti platí, že čím je rozsah výběru n větší, tím je interval spolehlivosti užší, čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší, čím je vyšší statistická jistota (1 - ), tím je interval spolehlivosti širší. Je proto výhodné volit takové efektivní odhady, u kterých lze docílit nízkého rozptylu již pro malé rozsahy výběru.
Spolehlivost odhadu je pravděpodobnost, s jakou se charakteristika ZS bude nacházet v intervalu vymezeném příslušnou výběrovou charakteristikou a maximální chybou. Přesnost odhadu – maximální chyba, které se při odhadu s danou spolehlivostí dopustíme. S rostoucí šířkou intervalu spolehlivosti klesá přesnost odhadu. Intervaly spolehlivosti lze udávat trojím způsobem: jsou omezeny pouze shora, jsou omezeny pouze zdola, jsou omezeny zdola i shora.
Omezíme-li interval shora i zdola, jedná se o interval dvoustranný (oboustranný). P(T1 T2) = 1 - P( T1) = P( T2) = /2 Jsou-li omezeny pouze zdola či shora, hovoří se o jednostranných intervalech. Interval omezen shora – interval pravostranný P( T2) = 1- P( T2) = Interval omezen zdola – interval levostranný P( T1) = 1- P( T1) =
Intervalový odhad průměru ZS Je potřeba vycházet z několika předpokladů: základní soubor má normální rozdělení, rozdělení ZS neznáme, ale náhodný výběr má velký rozsah, známe či neznáme rozptyl ZS 2, zda se jedná o výběr s vracením nebo bez vracení, zda půjde o interval jednostranný nebo oboustranný.
Obecně lze interval spolehlivosti pro průměr ZS popsat následujícím způsobem: se nazývá přípustná chyba odhadu. Při konstrukci intervalového odhadu vycházíme z poznatků o asymptotickém rozdělení výběrových průměrů (viz. centrální limitní věty). Odtud vyplývá, že pro dostatečně velký rozsah výběru je rozdělení výběrových průměrů přibližně normální se střední hodnotou , rozptylem 2/n a veličina U má normované normální rozdělení.
Využijeme-li definice náhodné veličiny, můžeme pak psát: O této veličině lze říci, že má při výběru z normálně rozděleného ZS normované normální rozdělení a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, které lze dobře aproximovat normovaným normálním rozdělením. Využijeme-li definice náhodné veličiny, můžeme pak psát: P(U u) = F(u) = P(U u1-) = F(u1-) = 1- P(u U u1-) = 1 - 2
V tabulkách normované normální distribuční funkce lze najít pro libovolné (0 < 1) číslo u s vlastností P(-u u u) = 1- . Při konstrukci intervalu spolehlivosti vyjdeme tedy ze vztahu: Po úpravách dostaneme výraz:
Levostranný interval Pravostranný interval Oboustranný interval (symetrický interval)
Není znám rozptyl ZS – použijeme hodnotu s2 Ke konstrukci intervalu spolehlivosti použijeme veličinu O veličině t lze říci, že při výběru z normálně rozděleného ZS má rozdělení Studentovo o (n-1) stupních volnosti a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, jež lze dobře aproximovat normovaným normálním rozdělením (jde např. o asymptotické normální rozdělení).
Konstrukce intervalu spolehlivosti dozná jen malých změn. Oboustranný interval Levostranný interval Pravostranný interval
Kdy se používají hodnoty u a kdy t? Kritické hodnoty normálního rozdělení u známe rozptyl ZS 2 známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100) Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti jde o výběr z normálního rozdělení a známe pouze rozptyl výběrový s2 rozsah výběrového souboru je malý (n < 100) soubor se řídí asymetrickým normálním rozdělením
Výraz se nazývá směrodatná odchylka souboru výběrových průměrů a je odhadnuta ze všech teoreticky možných výběrových průměrů. Meze dvoustranného intervalu spolehlivosti lze stručně zapsat: kde představuje polovinu šířky intervalu spolehlivosti a nazývá se přípustná chyba, někdy také maximální možná chyba.
Příklad Z velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad průměru = 116 mm. Intervalový odhad požadovaná spolehlivost (1-) = 0,95 kritická hodnota normálního rozdělení u0,05 = 1,96 n = 400 jde o velký soubor
Interval pravostranný u2.0,05 = u0,1 = 1,6448 = 0,3356
Snížíme počet vybraných jednotek, tzn. n = 30 Kritická hodnota t0,05(29) = 2,045 P (114,4763 < 117,5237) = 0,95 Tento interval je mnohem širší než v předchozím výpočtu ( = 0,4). Pokud bychom trvali za jinak stejných podmínek (při pevném rozsahu výběru) na zúžení intervalu spolehlivosti, klesala by zřejmě spolehlivost odhadu.
V praxi se většinou 2 předem odhaduje, musíme jej tedy považovat za konstantu, ale ostatní veličiny lze předem zvolit (n, , ). Z toho vyplývá, že v praxi je možno vzorec pro výpočet přípustné chyby využít k následujícím účelům: ke stanovení šířky intervalu při určité žádané spolehlivosti a daném rozsahu výběru, ke stanovení rozsahu výběru, který by zajistil požadovanou přesnost a spolehlivost, k výpočtu spolehlivosti při určité požadované šířce intervalu spolehlivosti (ta zde vlastně znamená přesnost odhadu v daném rozsahu výběru).
Stanovení rozsahu souboru Jak velký musí být rozsah výběrového souboru, abychom ze zjištěných dat mohli provést intervalový odhad průměru s předem danou přesností? Přesnost odhadu je charakterizována přípustnou chybou odhadu . Pro stanovení minimálního rozsahu výběru lze použít vzorce přípustné chyby odhadu, z něhož snadnou úpravou dostaneme za předpokladu, že známe rozptyl ZS 2
Neznáme-li rozptyl ZS, musíme provést tzv. dvoufázový náhodný výběr. 1) Předvýběr – zkusmo provedeme menší náhodný výběr o rozsahu m, z něhož vypočteme rozptyl a nalezneme t(m-1). Požadovaný rozsah výběrového souboru pak vypočteme jako
Příklad – vyjdeme z předchozího zadání 2) Druhá fáze Je-li m n není již nutné provádět další šetření, protože předvýběr již dává dostatečně přesný odhad. Je-li m n je nutno doplnit předvýběr o n-m jednotek na požadovaný rozsah n. Výběrový soubor o n jednotkách pak již dává dostatečně přesný odhad. Příklad – vyjdeme z předchozího zadání Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? Vyjdeme z předpokladů o předvýběru 30 jednotek. s = 4,081 t0,05(29) = 2,045
Určení spolehlivosti odhadu Pro zajištění požadované spolehlivosti je potřeba rozšířit výběr o 40 jednotek (při zvolené šířce intervalu. Určení spolehlivosti odhadu Pokud nelze doplnit rozsah výběru, pak je možné zjistit, jak spolehlivý je daný odhad při předem zvolené přípustné chybě (šířce intervalu).
Příklad – vyjdeme z původního zadání Jaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 1mm a výběr nelze dále rozšířit? s = 4,081 n = 30 Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, tzn. ke stanovení pravděpodobnosti použijeme distribuční funkci normovaného normálního rozdělení. P(-1,34< u 1,34) = F(1,34) – F(-1,34) = 2F(1,34) –1= = 2 · 0,9099 – 1 = 0,8198
Výběr bez vracení Je možné srovnat následující výsledky: P = 0,95 n = 30 = 1,5237 P = 0,95 n = 70 = 1 P = 0,8198 n = 30 = 1 Výběr bez vracení Uvedená odmocnina se nazývá konečnostní násobitel, který je vždy menší než jedna.
Stanovení rozsahu výběru Vztah pro výpočet přípustné chyby lze použít k již uvedeným účelům. Stanovení rozsahu výběru Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti
Příklad Z velké zásilky součástek o rozsahu 400 jednotek jsme jich náhodným výběrem pro kontrolu jakosti vybrali 30 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad průměru = 116 mm Intervalový odhad požadovaná spolehlivost (1-) = 0,95 kritická hodnota Studentova rozdělení t0,05 (29) = 2,045 n = 30 N = 400 jde o výběr bez vracení
Šířku intervalu chceme snížit na velikost 1 mm Šířku intervalu chceme snížit na velikost 1 mm. Kolik jednotek výběru k tomu bude potřeba?
Jakou spolehlivost zaručí výběr 30 jednotek při požadované chybě 1 mm? Na základě znalosti distribuční funkce normovaného normálního rozdělení je možné spolehlivost daného odhadu určit jako P(-1,4 < u 1,4) = F(1,4) – F(-1,4) = 2F(1,4) – 1 = = 2 · 0,9192 – 1 = 0,8384