Základy statistické indukce

Slides:



Advertisements
Podobné prezentace
Statistická indukce Teorie odhadu.
Advertisements

Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Testování statistických hypotéz
Limitní věty.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Cvičení 6 – 25. října 2010 Heteroskedasticita
Získávání informací Získání informací o reálném systému
Pravděpodobnost a statistika opakování základních pojmů
Testování hypotéz přednáška.
Tloušťková struktura porostu
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Odhady odhady bodové a intervalové odhady
Diskrétní rozdělení Karel Zvára 1.
Statistická analýza únavových zkoušek
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Základy statistické indukce Základní soubor, náhodný výběr Základní statistický soubor (stručněji základní soubor) je statistický soubor, z něhož pořizujeme.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Mgr. Marcela Sandnerová Pojem charakteristiky variability Variabilita (proměnlivost)  Odlišnost hodnot příslušného znaku Čím větší je variabilita sledovaného.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Normální rozdělení a ověření normality dat
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
PSY717 – statistická analýza dat
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
Matematická statistika 1.přednáška. Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
STATISTIKA I.. náhodný pokus –neznáme předem výsledek –můžeme libovolněkrát opakovat –př. hod kostkou, vybrání náhodné osoby, … náhodný jev –výsledek.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
Etapy stat.šetření Plán šetření Sběr dat
Stručný přehled modelových rozložení I.
Některá rozdělení náhodných veličin
Spojitá náhodná veličina
Induktivní statistika - úvod
Testování hypotéz párový test
Induktivní statistika
Induktivní statistika
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Odhady parametrů základního souboru
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Základy statistické indukce
Spojitá a kategoriální data Základní popisné statistiky
Parametry polohy Modus Medián
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Základy statistické indukce Pro stat.data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat.veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm.průměr) vykazují vlastnosti pravděpodobnostních rozdělení.

Základy statistické indukce BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm.průměr či medián) je z dat získaný bodový odhad pro neznámý parametr q v pravděpodobnostním modelu pro sledovanou veličinu (např. pro střední hodnotu  v normálním rozdělení). Je to odhad nestranný  E(Tn)= q.

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost Hod kostkou – sledujeme relativní četnost padnutí 6 1 5 6 4 2 3 … 0,00 0,33 0,25 0,20 0,17 0,14 0,13 0,11 0,10 0,18

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost (zde π=0,15) Dotáza-ný č. 1 2 3 4 5 … 498 499 500 nezam.? (1-ano) rel.čet. nezam. 0,25 0,20 0,155 0,154 0,156

Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. průměr → střední hodnotě (zde EX=3,5) Pořadí hodu 1 2 3 4 5 … 98 99 100 Hozeno Průměr 2.000 2.500 2.250 2.800 3.622 3.636 3.630

Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):

Základy statistické indukce Zákony velkých čísel (pokr.-četnosti průměrů):

Základy statistické indukce Centrální limitní věty (CLV) Popisují asymptotické (tj. v limitě, v praxi pro „dostatečně velký“ počet stat. dat) chování testových charakteristik Tn jakožto náhodných veličin. Např.

Důsledky ZVČ a CLV Čím větší výběr, tím větší pravděpodobnost, že je aritmetický průměr blízko stř.hodnoty. Čím větší výběr, tím větší pravděpodobnost, že je výběrový rozptyl blízko rozptylu. Čím větší výběr, tím větší pravděpodobnost, že je výběrová směr.odch. blízko směr.odch. Čím větší výběr, tím větší pravděpodobnost, že je relativní četnost blízko pravděpodobnosti.

Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR q JEHO BODOVÝ ODHAD Tn π = P(A) p = relativní četnost jevu A μ (střední hodnota) aritmetický průměr σ2 (rozptyl) výběrový rozptyl s2 =M2·n/(n-1)

Intervaly spolehlivosti = intervalové odhady neznámého parametru (odhad pro , , 2,…), odvozují se z příslušné CLV spolehlivost = 1– = pravděpodobnost, že neznámá hodnota parametru je intervalem pokryta; nejčastěji volba 1– = 0,95 (95% I.S.)

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ při známém σ: Pro střední hodnotu μ při neznámém σ: kde n-1= počet stupňů volnosti (DF)

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ - vzorce:

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): Př. Dle věku osmi náhodně vybraných čtenářů dětského časopisu odhadněte střední věk čtenářů tohoto časopisu. Věky popořadě: 12, 14, 15, 12, 15, 14, 12, 15.

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): průměrný věk=109/8=13,625 M2= 1499/8–13,6252=1,734 s2=1,734·8/7=1,982 s=1,982=1,408 t 0,975 (7)=2,365 dolní mez=13,625–2,365·1,408/√8=12,448 horní mez=13,625+2,365·1,408/√8=14,802

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu): dolní mez: 13,625-1,177= =12,448; horní mez: 13,625+1,177= =14,802

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (odpověď): S 95% spolehlivostí je střední věk čtenářů daného časopisu z rozmezí 12,448 až 14,802 roku. Zpřesnění odhadu (tj. zúžení IS)? a) zvýšit n (=změna dat); b) snížit spolehlivost (data stejná); c) snížit variabilitu (=změna populace).

Oboustranné intervaly spolehlivosti Ilustrace vlivu zvýšení n (viz ZVČ):

Oboustranné intervaly spolehlivosti Pro neznámý rozptyl σ2: Pro pravděpodobnost π:

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (vzorec):

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. Dle odpovědí 12 dotazovaných, zda jsou nezaměstnaní, odhadněte s 90% spolehlivostí podíl nezaměstnaných v dané populaci. Data: mezi 12 tázanými byli 3 nezaměstnaní

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): n=12; p=3/12=0,250; u0,95=1,645 dolní mez = = 0,250 –1/24 –1,645·(0,25·0,75/11) = = 0,250 – 0,256 = -0,006; horní mez = 0,250 + 0,256 = 0,506

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Odpověď: S 90% spolehlivostí tvoří ne-zaměstnaní 0 % až 50,6 % populace (?) Zde nutné zpřesnění odhadu (zúžení IS): a) zvýšením n (mnohem víc tázaných); b) snížit spolehlivost.

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. pokračování (obvyklý problém): V úloze s nezaměstnaností odhadněte předem potřebný počet tázaných k tomu, aby celková šířka výsledného intervalu spolehlivosti nepřesáhla 10 %.

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Předpoklady: n … nyní neznáme; p … zřejmě bude opět cca 0,250 kvantil bude opět u0,95=1,645

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Chceme, aby výsledný IS měl tvar: 0,25–0,05=0,20 (dolní mez) až 0,25+0,05=0,30 (horní mez) – tak je celková šířka IS právě 10 %; tudíž musí platit: 1/(2n)+1,645·[0,25·0,75/(n-1)] = 0,05

Oboustranné intervaly spolehlivosti Pro zjednodušení předpokládejme, že 1/(2n)=0 (n bude velké), řešíme pak: 1,645·[0,25·0,75/(n-1)] = 0,05 |:1,645 [0,1875/(n-1)] = 0,0304 | 2 0,1875/(n-1) = 0,0009 |·(n-1) 0,1875 = 0,0009·(n-1) |:0,0009 203 = n-1 |+1 n = 204 (=odhad rozsahu průzkumu)

Jednostranné intervaly spolehlivosti  hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle „oboustranného“ vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme výrazem 1-α. Příklad: Odhadněte horní hranici nezaměstnanosti. Řešení: Určujeme p+1/(2n)+u1-α√[p(1-p)/(n-1)]. (Konkrétní úlohy viz Sbírka úloh.)