Statistická indukce Teorie odhadu
Intervalový odhad rozptylu ZS Konstrukce intervalu spolehlivosti pro rozptyl závisí na předpokladech: výběr pochází ze ZS s normálním rozdělením, známe parametr , neznáme parametr (častější případ). Konstrukce intervalu spolehlivosti se opírá o veličinu, která má 2 – rozdělení o (n-1) stupních volnosti. Interval spolehlivosti bude vycházet z veličiny: Tato veličina (ný) má také 2 – rozdělení o (n-1) stupních volnosti.
Takových čísel by se ovšem mohlo určit nekonečně mnoho. Při odvození intervalu spolehlivosti vyjdeme ze vztahu: Čísla c1 a c2 je možno nalézt v tabulkách kritických hodnot 2 – rozdělení pro (n-1) stupeň volnosti. Takových čísel by se ovšem mohlo určit nekonečně mnoho. Uvažují se tedy takové intervaly spolehlivosti, aby byla splněna podmínka:
První část výrazu lze upravit takto: Z předchozích vztahů tedy vyplývá, že c1 představuje kritickou hodnotu a c2 kritickou hodnotu . Úpravou prvního vztahu dostaneme dvoustranný interval spolehlivosti, který vzhledem k hodnotě s2 není symetrický.
Jednostranné intervaly Levostranný Pravostranný
Z intervalů pro rozptyl lze snadno odvodit intervaly spolehlivosti pro směrodatnou odchylku . Dvoustranný interval Levostranný interval Pravostranný interval
Pokud výběrový soubor je velkého rozsahu (n 120), lze využít toho, že směrodatná odchylka s má přibližně rozdělení . Interval spolehlivosti pro směrodatnou odchylku je pak přibližně určen vztahem: u ke kritická hodnota normovaného normálního rozdělení
Příklad Z velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro variabilitu tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad rozptylu 2 = 16,654561 Bodový odhad směrodatné odchylky = 4,081 Intervalový odhad požadovaná spolehlivost (1-) = 0,95
Intervalový odhad parametru p () alternativního rozdělení (intervalový odhad relativní četnosti ZS) Jedná se o odhad pravděpodobnosti výskytu určitého jevu, resp. podílu jednotek s určitou vlastností v konečném základním souboru. Bodovým odhadem je výběrová relativní četnost fi = m/n, kde n je rozsah výběrového souboru a m počet jednotek s určitou vlastností. Tento výběrový podíl je nestranným odhadem parametru p.
Při konstrukci intervalu spolehlivosti pro parametr p je nutno rozlišovat, zda pracujeme s malými nebo velkými výběry. Při malých rozsazích vycházíme z toho, že výběrová absolutní četnost m má při výběrech s vracením binomické rozdělení a při výběrech bez vracení rozdělení hypergeometrické. V praxi obvykle určujeme krajní hodnoty pomocí tabulek (95% intervaly spolehlivosti). Jestliže se jedná o výběrový soubor velkého rozsahu, lze rozdělení výběrové relativní četnosti m/n aproximovat normálním rozdělením se střední hodnotu p a směrodatnou odchylkou .
Normální aproximaci lze použít za předpokladu, že Konstrukce intervalu spolehlivosti pro odhad relativní četnosti ZS je podobná jako u intervalu spolehlivosti pro průměr, tzn. fi . Vyjdeme ze vztahu:
Po úpravách lze dvoustranný interval zapsat takto: Z uvedeného zápisu lze odvodit intervaly jednostranné, a to interval levostranný nebo interval pravostranný
V případě výběru bez vracení je potřeba opět rozšířit výpočet přípustné chyby o konečnostní násobitel. Tzn. Vzorec pro výpočet přípustné chyby lze stejně jako u průměru použít ke stanovení: vlastního intervalu, požadovaného rozsahu výběru, k výpočtu spolehlivosti odhadu.
Vypočtené intervaly spolehlivosti jsou intervaly přibližné Vypočtené intervaly spolehlivosti jsou intervaly přibližné. Je to především dáno tím, že normálním rozdělením aproximujeme rozdělení diskrétní. Nejsprávnější proto je použít při nahrazování nějakého diskrétního rozdělení rozdělením spojitým tzv. opravu na spojitost. Pro výběr s opakováním a opravou na spojitost lze interval spolehlivosti pro parametr p zapsat takto:
Neparametrický odhad mediánu ZS Při řešení praktických úloh se však obvykle spokojíme s jednodušším výpočtem, protože rozdíly, které vznikají při obou postupech, jsou velmi malé. Neparametrický odhad mediánu ZS Předpokladem použití tohoto postupu neparametrického odhadu je spojitost náhodné veličiny. Náhodný výběr uspořádáme do řady vzestupným způsobem podle velikosti (tzv. variační řada). V tabulce je uvedeno pro rozsah n náhodného výběru takové číslo k, že medián ZS je pokryt intervalem P (xk M xn-k+1) 1 - .
Příklad U 100 pojištěných aut bylo zjištěno, že 18 aut je starších než 7 let. Chceme stanovit 95% interval spolehlivosti pro podíl aut starších 7 let v základním souboru.
P(-1,3 < u 1,3) = F(1,3) – F(-1,3) = 2F(1,3) – 1= Jak velký výběrový soubor bychom potřebovali v případě, že požadujeme velikost přípustné chyby pouze 5 %? Jakou spolehlivost zaručuje výběr 100 respondentů s přípustnou chybou 5 %? P(-1,3 < u 1,3) = F(1,3) – F(-1,3) = 2F(1,3) – 1= = 2 · 0,9032 – 1 = 0,8064
Příklad Z celkového počtu 500 000 pojištěnců byl zjišťován u 100 z nich jejich věk, kdy 45 respondentů bylo starších 40 let. Chceme stanovit 95% interval spolehlivosti pro podíl pojištěnců starších 40 let.
Jak velký výběrový soubor bychom potřebovali v případě, že požadujeme velikost přípustné chyby pouze 5 %?
P(-1 < u 1) = F(1) – F(-1) = 2F(1) – 1= = 2 · 0,8413 – 1 = 0,6826 Jakou spolehlivost zaručuje výběr 100 respondentů s přípustnou chybou 5 %? P(-1 < u 1) = F(1) – F(-1) = 2F(1) – 1= = 2 · 0,8413 – 1 = 0,6826
Příklad Máme k dispozici následující data. V jakých mezích se s pravděpodobností 0,95 pohybuje medián ZS? Pro určení intervalového odhadu mediánu je potřeba seřadit zadané hodnoty podle velikosti. V tabulkách je potřeba nalézt číslo k k = 2 P (xk M xn-k+1) = 1 - P (x2 M x11-2+1) = 0,95 P (3,1 M 22,2) = 0,95