Základy statistické indukce

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů řízení jakosti. Kontrolní tabulky Vývojové diagramy Histogramy Diagramy příčin a následků Paretovy diagramy Bodové diagramy Regulační.
Advertisements

Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Výukový materiál zpracovaný v rámci projektu EU peníze školám Registrační číslo projektu:CZ.1.07/1.4.00/ Šablona:III/2 Inovace a zkvalitnění výuky.
EMM101 Ekonomicko-matematické metody č. 10 Prof. RNDr. Jaroslav Ramík, CSc.
© Institut biostatistiky a analýz SPEKTRÁLNÍ ANALÝZA Č ASOVÝCH Ř AD prof. Ing. Jiří Holčík, CSc.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Tercie Rovnice Rovnice – lineární rovnice postup na konkrétním příkladu.
STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet.
Práce se spojnicovým diagramem Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika.
Statistika Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
Úvod do testování hypotéz
Seminář o stavebním spoření
POČET PRAVDĚPODOBNOSTI
Testování hypotéz Testování hypotéz o rozdílu průměrů
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Náhodná veličina je veličina, která při opakování náhodného pokusu mění své hodnoty v závislosti na náhodě Náhodné veličiny označujeme X, Y, Z, ... hodnoty.
Interpolace funkčních závislostí
Základy statistické indukce
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
Řešení nerovnic Lineární nerovnice
STATISTICKÉ METODY V GEOGRAFII
Testování hypotéz Testování hypotéz o rozdílu průměrů
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
Jednotné principy klasifikace na GJKT
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Výukový materiál zpracován v rámci projektu
Regrese – jednoduchá regrese
Číslo projektu: CZ.1.07/1.4.00/ Název DUM:
PSY117 Statistická analýza dat v psychologii Přednáška
Molekulová fyzika 3. prezentace.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
Rozšířené modely časových řad
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Řešení nerovnic Lineární nerovnice
Opakování: Parametrické testy.
Spojité VELIČINY Vyšetřování normality dat
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
Optimální pořadí násobení matic
Počítačová grafika III Monte Carlo estimátory – Cvičení
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
Číslo projektu CZ.1.07/1.5.00/ Název projektu Pro žáky naší školy více – Na míru píšeme učebnice VY_32_INOVACE_VJ29 Excel – funkce Počet období.
XII. Binomické rozložení
Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Úvod do praktické fyziky
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Číslo projektu: CZ.1.07/1.4.00/ Název DUM:
Cauchyho rozdělení spojité náhodné veličiny
Běžná pravděpodobnostní rozdělení
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Náhodný jev, náhodná proměnná
Centrální limitní věta
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Více náhodných veličin
… jak přesně počítat s nepřesnými čísly
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Základy statistické indukce Pro stat.data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat.veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm.průměr) vykazují vlastnosti pravděpodobnostních rozdělení.

Základy statistické indukce BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm.průměr či medián) je z dat získaný bodový odhad pro neznámý parametr q v pravděpodobnostním modelu pro sledovanou veličinu (např. pro střední hodnotu v normálním rozdělení). Je to odhad nestranný  E(Tn)= q.

Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR q JEHO BODOVÝ ODHAD Tn π = P(A) p = relativní četnost jevu A μ (střední hodnota) aritmetický průměr σ2 (rozptyl) výběrový rozptyl s2 =M2·n/(n-1)

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost Hod kostkou – sledujeme relativní četnost padnutí 6 1 5 6 4 2 3 … 0,00 0,33 0,25 0,20 0,17 0,14 0,13 0,11 0,10 0,18

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. rel.čet. → pravděpodobnost (zde π=0,15) Dotáza-ný č. 1 2 3 4 5 … 498 499 500 nezam.? (1-ano) rel.čet. nezam. 0,25 0,20 0,155 0,154 0,156

Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):

Základy statistické indukce Zákony velkých čísel (chování bodových odhadů): Např. průměr → střední hodnotě (zde EX=3,5) Pořadí hodu 1 2 3 4 5 … 98 99 100 Hozeno Průměr 2.000 2.500 2.250 2.800 3.622 3.636 3.630

Základy statistické indukce Zákony velkých čísel (pokračování ilustrace):

Základy statistické indukce Zákony velkých čísel (pokr.-četnosti průměrů):

Základy statistické indukce Centrální limitní věty (CLV) Popisují asymptotické (tj. v limitě, v praxi pro „dostatečně velký“ počet stat. dat) chování testových charakteristik Tn jakožto náhodných veličin. Např. _ Tn = (x−μ) / (σ/√n) → U ~ N(0,1)

Intervaly spolehlivosti = intervalové odhady neznámého parametru (odhad pro , , 2,…), odvozují se z příslušné CLV spolehlivost = 1– = pravděpodobnost, že neznámá hodnota parametru je intervalem pokryta; nejčastěji volba 1– = 0,95 (95% I.S.)

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ při známém σ: _ x ± u1-α/2 σ/√n Pro střední hodnotu μ při neznámém σ: _ x ± t1-α/2 (n-1) s/√n kde n-1= počet stupňů volnosti (DF)

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ - vzorce:

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): Př. Dle věku osmi náhodně vybraných čtenářů dětského časopisu odhadněte střední věk čtenářů tohoto časopisu. Věky popořadě: 12, 14, 15, 12, 15, 14, 12, 15.

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ („ručně“): průměrný věk=109/8=13,625 M2= 1499/8–13,6252=1,734 s2=1,734·8/7=1,982 s=1,982=1,408 t 0,975 (7)=2,365 dolní mez=13,625–2,365·1,408/√8=12,448 horní mez=13,625+2,365·1,408/√8=14,802

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu):

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (pomocí Excelu): dolní mez: 13,625-1,177= =12,448; horní mez: 13,625+1,177= =14,802

Oboustranné intervaly spolehlivosti Pro střední hodnotu μ (odpověď): S 95% spolehlivostí je střední věk čtenářů daného časopisu z rozmezí 12,448 až 14,802 roku. Zpřesnění odhadu (tj. zúžení IS)? a) zvýšit n (=změna dat); b) snížit spolehlivost (data stejná); c) snížit variabilitu (=změna populace).

Oboustranné intervaly spolehlivosti Ilustrace vlivu zvýšení n (viz ZVČ):

Oboustranné intervaly spolehlivosti Pro neznámý rozptyl σ2: (n-1)s2/א2α/2(n-1) ; (n-1)s2/א21-α/2(n-1) Pro pravděpodobnost π: p-1/(2n)-u1-α/2√[p(1-p)/(n-1)] ; p+1/(2n)+u1-α/2√[p(1-p)/(n-1)]

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (vzorec):

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. Dle odpovědí 12 dotazovaných, zda jsou nezaměstnaní, odhadněte s 90% spolehlivostí podíl nezaměstnaných v dané populaci. Data: mezi 12 tázanými byli 3 nezaměstnaní

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): n=12; p=3/12=0,250; u0,95=1,645 dolní mez = = 0,250 –1/24 –1,645·(0,25·0,75/11) = = 0,250 – 0,256 = -0,006; horní mez = 0,250 + 0,256 = 0,506

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Odpověď: S 90% spolehlivostí tvoří ne-zaměstnaní 0 % až 50,6 % populace (?) Zde nutné zpřesnění odhadu (zúžení IS): a) zvýšením n (mnohem víc tázaných); b) snížit spolehlivost.

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Př. pokračování (obvyklý problém): V úloze s nezaměstnaností odhadněte předem potřebný počet tázaných k tomu, aby celková šířka výsledného intervalu spolehlivosti nepřesáhla 10 %.

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Předpoklady: n … nyní neznáme; p … zřejmě bude opět cca 0,250 kvantil bude opět u0,95=1,645

Oboustranné intervaly spolehlivosti Pro pravděpodobnost π (ručně): Chceme, aby výsledný IS měl tvar: 0,25–0,05=0,20 (dolní mez) až 0,25+0,05=0,30 (horní mez) – tak je celková šířka IS právě 10 %; tudíž musí platit: 1/(2n)+1,645·[0,25·0,75/(n-1)] = 0,05

Oboustranné intervaly spolehlivosti Pro zjednodušení předpokládejme, že 1/(2n)=0 (n bude velké), řešíme pak: 1,645·[0,25·0,75/(n-1)] = 0,05 |:1,645 [0,1875/(n-1)] = 0,0304 | 2 0,1875/(n-1) = 0,0009 |·(n-1) 0,1875 = 0,0009·(n-1) |:0,0009 203 = n-1 |+1 n = 204 (=odhad rozsahu průzkumu)

Jednostranné intervaly spolehlivosti  hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle „oboustranného“ vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme výrazem 1-α. Příklad: Odhadněte horní hranici nezaměstnanosti. Řešení: Určujeme p+1/(2n)+u1-α√[p(1-p)/(n-1)]. (Konkrétní úlohy viz Sbírka úloh.)