Matematická statistika 1.přednáška. Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistická indukce Teorie odhadu.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Testování statistických hypotéz
Limitní věty.
Statistické metody v ochraně kulturního dědictví
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
t-rozdělení, jeho použití
Testování hypotéz přednáška.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Odhady odhady bodové a intervalové odhady
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
Jednovýběrový a párový t - test
INDUKTIVNÍ STATISTIKA
Etapy stat.šetření Plán šetření Sběr dat
Spojitá náhodná veličina
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Odhady parametrů základního souboru
Induktivní statistika
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Pravděpodobnost a výběry – 1. část
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Matematická statistika 1.přednáška

Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme informace Tyto informace zevšeobecníme na celý základní soubor Riziko omylu je tím větší, čím větší je variabilita dat a malá reprezentativnost výběrových dat Výběrová data pořízena náhodným výběrem

Náhodný výběr Každá jednotka základního souboru má stejnou pravděpodobnost, že bude vybrána Techniky výběru: Losování (předem pořízení úplného seznamu jednotek základního souboru)-pracné Výběr za pomoci náhodných čísel Systematický výběr – vybereme každou j-tou jednotku.(první je volena náhodně)

Druhy náhodného výběru Prostý náhodný výběr- vybíráme přímo statistické jednotky ze základního souboru, který není nijak tříděn Oblastní (stratifikovaný) výběr- základní soubor se předem rozdělí do několika skupin (oblastí) a v každé skupině se provede náhodný výběr. Oblasti uvnitř homogenní Vícestupňový výběr(v případě rozmístění jednotek základního souboru ne velkém území)

Statistiky Statistika je funkcí náhodných veličin, které tvoří náhodný výběr Výběrový úhrn Výběrový průměr Výběrový druhý centrální moment Výběrový rozptyl, výběrová směrodatná odchylka

Výběrová rozdělení NV pochází z A(π), pak NV pochází z Po(λ), pak NV pochází z N(µ,σ 2 ), pak Normované veličiny

Asymptotická výběrová rozdělení Z centrální limitní věty víme, že při dostatečně velkém počtu nezávislých pokusů konverguje binomické rozdělení normálnímu rozdělení Pochází-li výběr z A(π), pak náhodné veličiny mají asymptotické normované normální rozdělení, kde p je výběrový podíl

Teorie odhadu Bodový odhad Odhadujeme parametry rozdělení (π, µ) Bodový odhad-vhodně vybraná výběrová statistika (je tím lepší, čím blíže je skutečné hodnotě odhadovaného parametru) Chceme, aby s rostoucím rozsahem výběru rostla pravděpodobnost, že odhad je blízko skutečnosti (konzistence odhadu) Chceme, aby nedocházelo k systematickému podhodnocování nebo přeceňování odhadovaného parametru (nevychýlený odhad) Nejvhodnější ze všech odhadů je ta statistika, která má nejmenší rozptyl (vydatnost odhadu)

Bodové odhady NV z libovolného rozdělení se střední hodnotou µ a rozptylem σ 2,pak je nezkresleným odhadem µ je nezkresleným odhadem σ 2

Intervalové odhady-oboustranné intervaly Chceme najít interval, v němž leží odhadovaná hodnota parametru Φ s předem danou pravděpodobností 1-α Hledám A a B tak, aby a ……koeficient spolehlivosti Blízký 1, ale čím vyšší, tím širší interval 90%, 95%, 99% A,B jednoznačně určeno tak, aby

Intervaly spolehlivosti pro µ 1) při známém σ 2

Intervaly spolehlivosti pro µ bodový odhad µ ….přípustná chyba Délka intervalu 2x přípustná chyba Střed tohoto intervalu

Intervaly spolehlivosti pro µ 2) při neznámém σ α/2% kvantil rozdělení t(Studentova) o n-1 stupních volnosti s……. výběrová směrodatná odchylka

Příklad 1 Jistá firma se zaměřila na měření množství jisté látky ve svých výrobcích. Výsledky ze vzorku výrobků jsou uvedeny v tabulce Pro posouzení dodržení norem na 95% hladině spolehlivosti odhadněte v jakých mezích bude střední obsah sledované látky ve výrobcích v celé produkci firmy, předpokládáme-li, že rozptyl veličiny „obsah sledované látky ve výrobku“ má v celé produkci hodnotu 0,8mg 2. Obsah látky v mg Počet výrobků

Řešení příkladu 1 Máme tabulku rozdělení četností. můžeme konstatovat, že střední obsah sledované látky ve výrobku v celé produkci firmy bude s pravděpodobností 95% v intervalu (21,89;22,59)

Příklad 2 Jistá firma se zaměřila na měření množství jisté látky ve svých výrobcích. Výsledky ze vzorku výrobků jsou uvedeny v tabulce Pro posouzení dodržení norem na 95% hladině spolehlivosti odhadněte v jakých mezích bude střední obsah sledované látky ve výrobcích v celé produkci firmy. Obsah látky v mg Počet výrobků

Řešení příkladu 2 Nemáme informaci o rozptylu základního souboru Výběrový rozptyl

Jednostranné intervaly Zajímá nás jen jedna mez Pravostranný interval spolehlivosti Levostranný interval spolehlivosti Hranice jednostranných intervalů nejsou totožné s hranicemi oboustranného intervalu spolehlivosti

Jednostranné intervaly pro µ Pravostranný interval při známém σ 2 Levostranný interval při známém σ 2 Pravostranný interval při neznámém σ 2 Levostranný interval při známém σ 2

Příklad 3 Jistá firma se zaměřila na měření množství jisté látky ve svých výrobcích. Výsledky ze vzorku výrobků jsou uvedeny v tabulce Pro posouzení dodržení norem Odhadněte, jaké množství středního obsahu sledované látky ve výrobku v celé produkci firmy nebude překročeno s 95% pravděpodobností. Obsah látky v mg Počet výrobků

řešení Chci spočítat pravostranný interval Rozptyl základního souboru neznám S pravděpodobností 95 % střední hodnota obsahu sledované látky ve výrobku v celé produkci firmy nepřekročí hodnotu 22,57mg.

Oboustranný Interval pro π Intervalové odhady na základě velkých výběrů z A(π) Druhý centrovaný moment veličin mající A(π) p(výběrový podíl) bodový odhad π

Jednostranné intervaly pro π Pravostranný interval Levostranný interval

Příklad 4 Jistá firma se zaměřila na měření množství jisté látky ve svých výrobcích. Výsledky ze vzorku výrobků jsou uvedeny v tabulce Pro posouzení dodržení norem Odhadněte, v jakých mezích se bude s pravděpodobností 95% pohybovat podíl(procento) výrobků, které mají obsah sledované látky do 22mg(včetně) v celé produkci firmy Obsah látky v mg Počet výrobků

řešení Hledáme oboustranný interval pro π Výběrový podíl Podíl výrobků s obsahem sledované látky do 22mg včetně se s pravděpodobností 95% bude pohybovat mezi 38% a 82%

Příklad 5 Firma při výrobě určitého druhu výrobků dosahovala 5% zmetkovosti. Po změně dodavatele jedné suroviny potřebné k výrobě tohoto druhu výrobků se firma chce přesvědčit, zda nedošlo ke změně kvality těchto výrobků a proto provedla šetření u výstupní kontroly. Ta odhalila, že mezi 250 kontrolovanými výrobky bylo 16 zmetků. Rozhodněte s pravděpodobností 95%, zda došlo ke změně kvality výrobků.

řešení Na základě výběrového šetření můžeme zjistit v jakých mezích se s pravděpodobností 95% pohybuje procento zmetků. A pokud v tomto intervalu spolehlivosti bude ležet i 5% zmetkovost, která byla před změnou dodavatele, nedošlo ke změně kvality výrobků. V opačném případě došlo.

řešení Výběrový podíl S 95% pravděpodobností se procento zmetků ve výrobě pohybuje mezi 3,2 % a 9,6 %. Protože tento interval obsahuje 5%, nedošlo ke změně kvality výrobků

Teorie hypotéz Statistická hypotéza- tvrzení (domněnka) 1) o charakteristice (parametru) základního souboru -parametrické testy 2) o typu rozdělení- neparametrické testy Testovaná hypotéza – nulová hypotéza H 0 Alternativní hypotéza H 1 – popírá nulovou hypotézu Test statistické hypotézy-postup, kterým na základě výběrových dat ověřujeme platnost dané stat. hypotézy Testujeme, zda H 0 zamítáme, či ji nelze zamítnout

Parametrické testy Nulová hypotéza Alternativní hypotéza oboustranná alternativa Pravostranná alternativa Levostranná alternativa K testu použijeme statistiku (testové kritérium), které má při platnosti H 0 známé rozdělení pravděpodobnosti

Obor přijetí, kritický obor Prostor statistiky rozdělíme na dva disjunktní obory V……obor přijetí W…….kritický obor- tvoří ho takové hodnoty testového kritéria, které jsou při platnosti H 0 extrémní(málo pravděpodobné) extrémně nízké a extrémně vysoké hodnoty extrémně vysoké hodnoty extrémně nízké hodnoty H 0 zamítáme, když testové kritérium padne do W H 0 nelze zamítnout, když testové kritérium padne do V

Důsledky rozhodnutí rozhodnutí dle dat skutečnost H0H0 H1H1 H0H0 Správné rozhodnutí Chyba 1. druhu H1H1 Chyba 2. druhu Správné rozhodnutí

Hladina významnosti, síla testu P(H 1 /H 0 )=α hladina významnosti P(t leží v W/platí H 0 ) Tuto chybu předem volíme P(H 0 /H 1 )=β 1- β síla testu –s jakou pravděpodobností zamítáme H 0, když H 1 platí Obě chyby spolu souvisí Α určíme předem a vybereme testové kritérium, pro které je síla testu maximální

Postup při testování 1) formulace hypotéz 2) Volba hladiny významnosti 3) Výběr a výpočet testového kritéria z výběrových dat 4) určení oboru přijetí a kritického oboru 5) rozhodnutí t patří W zamítáme H 0 t nepatří W nelze zamítnout H 0

P-hodnota P-hodnota: nejnižší hladina významnosti, na které zamítáme H 0 Pokud p-hodnota je obsah plochy pod funkcí hustoty pravděpodobnosti testové statistiky napravo od hodnoty testové statistiky p-hodnota =1-F(.)

P-hodnota Pokud p-hodnota je obsah plochy pod funkcí hustoty pravděpodobnosti nalevo od hodnoty testové statistiky P-hodnota =F(.) Pokud p-hodnota je obsah plochy pod funkcí hustoty pravděpodobnosti nalevo od hodnoty testové statistiky P-hodnota =2min(F(.), 1-F(.)) α>p …….H 0 zamítáme α<p …….H 0 nelze zamítnout

Hypotézy o parametru binomického rozdělení

Příklad 5 Firma při výrobě určitého druhu výrobků dosahovala 5% zmetkovosti. Po změně dodavatele jedné suroviny potřebné k výrobě tohoto druhu výrobků se firma chce přesvědčit, zda nedošlo ke změně kvality těchto výrobků a proto provedla šetření u výstupní kontroly. Ta odhalila, že mezi 250 kontrolovanými výrobky bylo 16 zmetků. Rozhodněte s pravděpodobností 95%, zda došlo ke změně kvality výrobků.

Řešení α= 0,05 Na 5% hladině významnosti test neprokázal, že by došlo ke změně kvality výrobků

Test hypotézy o střední hodnotě 1) σ 2 známe

Test hypotézy o střední hodnotě 1) σ 2 neznáme

Příklad 6 Výrobce jistého typu myček nádobí tvrdí, že průměrná spotřeba vody provozu těchto myček na jedno mytí je 20 litrů vody. Na 5% hladině významnosti ověřte, zda tento údaj výrobce není podhodnocený. Předpokládejme, že náhodná veličina „spotřeba vody na jeden mycí program“ má normální rozdělení a u dvaceti myček tohoto typu byly zjištěny následující údaje o spotřebě vody Spotřeba vody na jedno mytí(l) 19,520,521,522 Počet myček25103

řešení Rozptyl základního souboru neznáme Test na 5% hladině významnosti prokázal, že spotřeba vody u tohoto typu myček je vyšší než udává výrobce

Párový test Předpokládáme dva závislé výběry náhodných veličin X,Y Vytvoříme novou veličinu

příklad7 Pro posouzení účinnosti školení na výkon dělníků bylo náhodně vybráno 8 dělníků a jejich pracovní výkony(měřeny počtem vyrobených výrobků za měsíc) jsou uvedeny v tabulce dělníkVýkon před školením Výkon po školení Rozdíl d K.L M.H S.S J.B L.N B.G D.V O.P

Prokázal náhodný výběr, že školení zlepšilo výkon dělníků?(α=0,05) Řešení Test prokázal statisticky významný rozdíl ve výkonech dělníků před a po školení