Základy statistické indukce Pro stat.data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat.veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm.průměr) vykazují vlastnosti pravděpodobnostních rozdělení.
Základy statistické indukce BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm.průměr či medián) je z dat získaný bodový odhad pro neznámý parametr q v pravděpodobnostním modelu pro sledovanou veličinu (např. pro střední hodnotu v normálním rozdělení). Je to odhad nestranný E(Tn)= q.
Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost Hod kostkou – sledujeme relativní četnost padnutí 6 1 5 6 4 2 3 … 0,00 0,33 0,25 0,20 0,17 0,14 0,13 0,11 0,10 0,18
Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost (zde π=0,15) Dotáza-ný č. 1 2 3 4 5 … 498 499 500 nezam.? (1-ano) rel.čet. nezam. 0,25 0,20 0,155 0,154 0,156
Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):
Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. průměr → střední hodnotě (zde EX=3,5) Pořadí hodu 1 2 3 4 5 … 98 99 100 Hozeno Průměr 2.000 2.500 2.250 2.800 3.622 3.636 3.630
Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):
Základy statistické indukce Zákony velkých čísel (pokr.-četnosti průměrů):
Základy statistické indukce Centrální limitní věty (CLV) Popisují asymptotické (tj. v limitě, v praxi pro „dostatečně velký“ počet stat. dat) chování testových charakteristik Tn jakožto náhodných veličin. Např.
Důsledky ZVČ a CLV Čím větší výběr, tím větší pravděpodobnost, že je aritmetický průměr blízko stř.hodnoty. Čím větší výběr, tím větší pravděpodobnost, že je výběrový rozptyl blízko rozptylu. Čím větší výběr, tím větší pravděpodobnost, že je výběrová směr.odch. blízko směr.odch. Čím větší výběr, tím větší pravděpodobnost, že je relativní četnost blízko pravděpodobnosti.
Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR q JEHO BODOVÝ ODHAD Tn π = P(A) p = relativní četnost jevu A μ (střední hodnota) aritmetický průměr σ2 (rozptyl) výběrový rozptyl s2 =M2·n/(n-1)
Intervaly spolehlivosti = intervalové odhady neznámého parametru (odhad pro , , 2,…), odvozují se z příslušné CLV spolehlivost = 1– = pravděpodobnost, že neznámá hodnota parametru je intervalem pokryta; nejčastěji volba 1– = 0,95 (95% I.S.)
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ při známém σ: Pro střední hodnotu μ při neznámém σ: kde n-1= počet stupňů volnosti (DF)
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ - vzorce:
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): Př. Dle věku osmi náhodně vybraných čtenářů dětského časopisu odhadněte střední věk čtenářů tohoto časopisu. Věky popořadě: 12, 14, 15, 12, 15, 14, 12, 15.
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): průměrný věk=109/8=13,625 M2= 1499/8–13,6252=1,734 s2=1,734·8/7=1,982 s=1,982=1,408 t 0,975 (7)=2,365 dolní mez=13,625–2,365·1,408/√8=12,448 horní mez=13,625+2,365·1,408/√8=14,802
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu): dolní mez: 13,625-1,177= =12,448; horní mez: 13,625+1,177= =14,802
Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (odpověď): S 95% spolehlivostí je střední věk čtenářů daného časopisu z rozmezí 12,448 až 14,802 roku. Zpřesnění odhadu (tj. zúžení IS)? a) zvýšit n (=změna dat); b) snížit spolehlivost (data stejná); c) snížit variabilitu (=změna populace).
Oboustranné intervaly spolehlivosti Ilustrace vlivu zvýšení n (viz ZVČ):
Oboustranné intervaly spolehlivosti Pro neznámý rozptyl σ2: Pro pravděpodobnost π:
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (vzorec):
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. Dle odpovědí 12 dotazovaných, zda jsou nezaměstnaní, odhadněte s 90% spolehlivostí podíl nezaměstnaných v dané populaci. Data: mezi 12 tázanými byli 3 nezaměstnaní
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): n=12; p=3/12=0,250; u0,95=1,645 dolní mez = = 0,250 –1/24 –1,645·(0,25·0,75/11) = = 0,250 – 0,256 = -0,006; horní mez = 0,250 + 0,256 = 0,506
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Odpověď: S 90% spolehlivostí tvoří ne-zaměstnaní 0 % až 50,6 % populace (?) Zde nutné zpřesnění odhadu (zúžení IS): a) zvýšením n (mnohem víc tázaných); b) snížit spolehlivost.
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. pokračování (obvyklý problém): V úloze s nezaměstnaností odhadněte předem potřebný počet tázaných k tomu, aby celková šířka výsledného intervalu spolehlivosti nepřesáhla 10 %.
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Předpoklady: n … nyní neznáme; p … zřejmě bude opět cca 0,250 kvantil bude opět u0,95=1,645
Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Chceme, aby výsledný IS měl tvar: 0,25–0,05=0,20 (dolní mez) až 0,25+0,05=0,30 (horní mez) – tak je celková šířka IS právě 10 %; tudíž musí platit: 1/(2n)+1,645·[0,25·0,75/(n-1)] = 0,05
Oboustranné intervaly spolehlivosti Pro zjednodušení předpokládejme, že 1/(2n)=0 (n bude velké), řešíme pak: 1,645·[0,25·0,75/(n-1)] = 0,05 |:1,645 [0,1875/(n-1)] = 0,0304 | 2 0,1875/(n-1) = 0,0009 |·(n-1) 0,1875 = 0,0009·(n-1) |:0,0009 203 = n-1 |+1 n = 204 (=odhad rozsahu průzkumu)
Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle „oboustranného“ vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme výrazem 1-α. Příklad: Odhadněte horní hranici nezaměstnanosti. Řešení: Určujeme p+1/(2n)+u1-α√[p(1-p)/(n-1)]. (Konkrétní úlohy viz Sbírka úloh.)