Základy statistické indukce

Základy statistické indukce
Pro stat.data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat.veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm.průměr) vykazují vlastnosti pravděpodobnostních rozdělení.

BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm.průměr či medián) je z dat získaný bodový odhad pro neznámý parametr q v pravděpodobnostním modelu pro sledovanou veličinu (např. pro střední hodnotu v normálním rozdělení). Je to odhad nestranný  E(Tn)= q.

Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR q JEHO BODOVÝ ODHAD Tn π = P(A) p = relativní četnost jevu A μ (střední hodnota) aritmetický průměr σ2 (rozptyl) výběrový rozptyl s2 =M2·n/(n-1)

Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost Hod kostkou – sledujeme relativní četnost padnutí 6 1 5 6 4 2 3 … 0,00 0,33 0,25 0,20 0,17 0,14 0,13 0,11 0,10 0,18

Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost (zde π=0,15) Dotáza-ný č. 1 2 3 4 5 … 498 499 500 nezam.? (1-ano) rel.čet. nezam. 0,25 0,20 0,155 0,154 0,156

Zákony velkých čísel (pokračování ilustrace):

Zákony velkých čísel (chování bodových odhadů): Např. průměr → střední hodnotě (zde EX=3,5) Pořadí hodu 1 2 3 4 5 … 98 99 100 Hozeno Průměr 2.000 2.500 2.250 2.800 3.622 3.636 3.630

Zákony velkých čísel (pokračování ilustrace):

Zákony velkých čísel (pokr.-četnosti průměrů):

Centrální limitní věty (CLV) Popisují asymptotické (tj. v limitě, v praxi pro „dostatečně velký“ počet stat. dat) chování testových charakteristik Tn jakožto náhodných veličin. Např _ Tn = (x−μ) / (σ/√n) → U ~ N(0,1)

Intervaly spolehlivosti
= intervalové odhady neznámého parametru (odhad pro , , 2,…), odvozují se z příslušné CLV spolehlivost = 1– = pravděpodobnost, že neznámá hodnota parametru je intervalem pokryta; nejčastěji volba 1– = 0,95 (95% I.S.)

Oboustranné intervaly spolehlivosti
Pro střední hodnotu μ při známém σ: _ x ± u1-α/2 σ/√n Pro střední hodnotu μ při neznámém σ: _ x ± t1-α/2 (n-1) s/√n kde n-1= počet stupňů volnosti (DF)

Pro střední hodnotu μ - vzorce:

Pro střední hodnotu μ („ručně“): Př. Dle věku osmi náhodně vybraných čtenářů dětského časopisu odhadněte střední věk čtenářů tohoto časopisu. Věky popořadě: 12, 14, 15, 12, 15, 14, 12, 15.

Pro střední hodnotu μ („ručně“): průměrný věk=109/8=13,625 M2= 1499/8–13,6252=1,734 s2=1,734·8/7=1,982 s=1,982=1,408 t 0,975 (7)=2,365 dolní mez=13,625–2,365·1,408/√8=12,448 horní mez=13,625+2,365·1,408/√8=14,802

Pro střední hodnotu μ (pomocí Excelu):

Pro střední hodnotu μ (pomocí Excelu): dolní mez: 13,625-1,177= =12,448; horní mez: 13,625+1,177= =14,802

Pro střední hodnotu μ (odpověď): S 95% spolehlivostí je střední věk čtenářů daného časopisu z rozmezí 12,448 až 14,802 roku. Zpřesnění odhadu (tj. zúžení IS)? a) zvýšit n (=změna dat); b) snížit spolehlivost (data stejná); c) snížit variabilitu (=změna populace).

Ilustrace vlivu zvýšení n (viz ZVČ):

Pro neznámý rozptyl σ2: (n-1)s2/א2α/2(n-1) ; (n-1)s2/א21-α/2(n-1) Pro pravděpodobnost π: p-1/(2n)-u1-α/2√[p(1-p)/(n-1)] ; p+1/(2n)+u1-α/2√[p(1-p)/(n-1)]

Pro pravděpodobnost π (vzorec):

Pro pravděpodobnost π (ručně): Př. Dle odpovědí 12 dotazovaných, zda jsou nezaměstnaní, odhadněte s 90% spolehlivostí podíl nezaměstnaných v dané populaci. Data: mezi 12 tázanými byli 3 nezaměstnaní

Pro pravděpodobnost π (ručně): n=12; p=3/12=0,250; u0,95=1,645 dolní mez = = 0,250 –1/24 –1,645·(0,25·0,75/11) = = 0,250 – 0,256 = -0,006; horní mez = 0, ,256 = 0,506

Pro pravděpodobnost π (ručně): Odpověď: S 90% spolehlivostí tvoří ne-zaměstnaní 0 % až 50,6 % populace (?) Zde nutné zpřesnění odhadu (zúžení IS): a) zvýšením n (mnohem víc tázaných); b) snížit spolehlivost.

Pro pravděpodobnost π (ručně): Př. pokračování (obvyklý problém): V úloze s nezaměstnaností odhadněte předem potřebný počet tázaných k tomu, aby celková šířka výsledného intervalu spolehlivosti nepřesáhla 10 %.

Pro pravděpodobnost π (ručně): Předpoklady: n … nyní neznáme; p … zřejmě bude opět cca 0,250 kvantil bude opět u0,95=1,645

Pro pravděpodobnost π (ručně): Chceme, aby výsledný IS měl tvar: 0,25–0,05=0,20 (dolní mez) až 0,25+0,05=0,30 (horní mez) – tak je celková šířka IS právě 10 %; tudíž musí platit: 1/(2n)+1,645·[0,25·0,75/(n-1)] = 0,05

Pro zjednodušení předpokládejme, že 1/(2n)=0 (n bude velké), řešíme pak: 1,645·[0,25·0,75/(n-1)] = 0,05 |:1,645 [0,1875/(n-1)] = 0, | 2 0,1875/(n-1) = 0, |·(n-1) 0,1875 = 0,0009·(n-1) |:0,0009 203 = n |+1 n = (=odhad rozsahu průzkumu)

Jednostranné intervaly spolehlivosti
 hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle „oboustranného“ vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme výrazem 1-α. Příklad: Odhadněte horní hranici nezaměstnanosti. Řešení: Určujeme p+1/(2n)+u1-α√[p(1-p)/(n-1)]. (Konkrétní úlohy viz Sbírka úloh.)

Základy statistické indukce

Podobné prezentace

Prezentace na téma: "Základy statistické indukce"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Základy statistické indukce

Podobné prezentace

Prezentace na téma: "Základy statistické indukce"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář