MATEMATICKÁ STATISTIKA

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Statistická indukce Teorie odhadu.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování parametrických hypotéz
Testování statistických hypotéz
Matematické metody vyhodnocování experimentů
Statistické metody v ochraně kulturního dědictví
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
t-rozdělení, jeho použití
CHYBY MĚŘENÍ.
Testování hypotéz přednáška.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
Základy ekonometrie Cvičení září 2010.
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Odhady odhady bodové a intervalové odhady
Data s diskrétním rozdělením
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Pohled z ptačí perspektivy
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Inferenční statistika - úvod
Matematická statistika 1.přednáška. Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
INDUKTIVNÍ STATISTIKA
Spojitá náhodná veličina
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Odhady parametrů základního souboru
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Úvod do induktivní statistiky
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

MATEMATICKÁ STATISTIKA 4. Seminář MATEMATICKÁ STATISTIKA Bodové a intervalové odhady, testování hypotéz pro jeden soubor, testování hypotéz pro dva soubory

Bodové a intervalové odhady est G = g, nám říká, že statistika g je odhadem charakteristiky základního souboru G. Například: Z dodávky 10 000 součástek vybereme náhodně 200, zjistíme jejich průměrnou hmotnost 0,35 kg a těchto 0,35 kg prohlásíme za odhad průměrné hmotnosti součástek v celém základním souboru. Tento odhad jedním číslem se nazývá bodový odhad. x1, x2, x3, x4, ……………………………………………………………...xn-1, xn x200,, x201, …,x400

Chceme tedy, aby střední hodnota výběrové statistiky byla rovna odhadované charakteristice. Jestliže platí E(g) = G, nazýváme výběrovou statistiku g nezkresleným (nevychýleným, nestranným) odhadem charakteristiky základního souboru. Nestrannost tedy znamená, jestliže při opakovaných výběrech kolísá odhad kolem teoretické hodnoty symetricky na obě strany, odhad je nestranný. Jestliže při rostoucím rozsahu výběru zkreslení E(g) – G mizí, tj. jestliže mluvíme o asymptoticky nezkresleném odhadu. Jestliže rozptyl odhadů při opakovaných výběrech je malý, mluvíme o vydatnosti nebo eficienci. Dále požadujeme, aby odhad byl konzistentní, tj. aby se odhad g pro rostoucí rozsah výběru blížil odhadované charakteristice základního souboru, tj. aby pro libovolně malé ε > 0 platilo ,tedy s rostoucím počtem pozorování se odhad blíží k teoretické hodnotě s pravděpodobností 1.

Intervaly spolehlivosti mohou být zkonstruovány buď jako jednostranné nebo dvoustranné. U jednostranných intervalů je udána buď jen horní mez Gh, nebo dolní mez Gd. V případě, že je udána pouze horní mez Gh, mluvíme o intervalu pravostranném. Je-li udána pouze dolní mez, jde o konfidenční interval levostranný. Jsou-li konečně udány obě meze, konstruujeme interval dvoustranný. Stanovíme-li tedy 95%, resp. 99% interval spolehlivosti na základě výběrových dat, pokryje tento interval s pravděpodobností rovnou 95 %, resp. 99 % skutečnou hodnotu odhadované charakteristiky základního souboru při opakovaném použití pokusu a celé procedury.

Příklad využití konfidenčních intervalů: Intervaly spolehlivosti pro střední hodnotu při neznámé směrodatné odchylce – jednovýběrový t-interval nebo t-interval.

Příklad: Má být zřízeno nové vlakové spojení mezi Prahou a Ostravou. V průběhu jednoho roku byl v náhodně vybrané dny zjišťován počet cestujících na trase Praha-Ostrava. Ze 30 shromážděných dat byly vypočteny aritmetický průměr a výběrová směrodatná odchylka . Určete 99% interval spolehlivosti pro střední hodnotu počtu cestujících.

Odhad relativní četnosti základního souboru Předpokládejme, že máme náhodný výběr o rozsahu n ze základního souboru s podílem p nebo ekvivalentně z alternativního rozdělení s parametrem p. Nestranný odhad podílu p, ze kterého vyjdeme při konstrukci intervalu spolehlivosti je výběrový podíl . Normovaná náhodná veličina má přibližně normované normální rozdělení. Tudíž pro U platí Pro oboustranný interval spolehlivosti pak platí vztah pro pravostranný a pro levostranný Interval spolehlivosti pro podíl p základního souboru nebo parametr p alternativního rozdělení nazveme jednovýběrový interval nebo krátce interval pro p.

Postup pro sestrojení jednovýběrového intervalu pro podíl p Předpoklady: Počet úspěchů x a počet neúspěchů n–x je roven alespoň 5 1. Pro koeficient spolehlivosti ,v tabulce najděte kvantil pro 2. Interval spolehlivosti pro p je ,kde n je rozsah výběru a je výběrový podíl vypočtený ze zkoumané realizace náhodného výběru. Příklad: Výpočet intervalu spolehlivosti pro podíl Při kontrole záručního listu určitého druhu masové konzervy ve skladech produktů masného průmyslu bylo náhodně vybráno 320 konzerv a zjištěno, že 59 jich má prošlou záruční lhůtu. Chceme stanovit 95% interval spolehlivosti pro odhad procenta konzerv s prošlou záruční lhůtou ve skladech daného podniku.

Testování hypotéz Předpoklad, který jsme vyslovili o určité charakteristice či tvaru rozdělení v základním souboru, nazýváme nulovou hypotézou (někdy též testovanou hypotézou) a značíme ji H0. Hypotézu o konkrétní hodnotě průměru v základním souboru, kterou jsme uvedli jako příklad, bychom zapsali H0: µ= µ0. Proti této nulové hypotéze stavíme jinou hypotézu, tzv. hypotézu alternativní H1, která nějakým způsobem popírá konstatování, formulované nulovou hypotézou. Např. proti uvedené nulové hypotéze můžeme vymezit alternativní hypotézy ve formě a) b) c)

Etapy testovacího postupu I. Formulace hypotézy I.I Volba hladiny významnosti (je to pravděpodobnost, že se dopustíme chyby prvního druhu) II. Volba testového kritéria (základ pro rozhodnutí, zda nulová hypotéza by měla být zamítnuta) III. Sestrojení kritického oboru (množina hodnot testové statistiky, která vede k přijetí či zamítnutí hypotézy) IV. Výpočet hodnoty testového kritéria V. Formulace závěrů testu

Obor zamítnutí nulové hypotézy pro danou hladinu významnosti α je určen tak, aby (tj. pravděpodobnost, že testová statistika nabude hodnoty z kritického oboru za platnosti nulové hypotézy, je rovna α ). Pravděpodobnost chyby prvního druhu α je tedy definována předchozím vztahem. Pravděpodobnost chyby druhého druhu β je pak poznámka: doplňkem oboru zamítnutí je a značí obor přijetí nulové hypotézy H0.

Test hypotézy o střední hodnotě při známém rozptylu Skutečná hladina významnosti α je rovna pro normální rozdělení a je pouze přibližně rovna α pro výběry z jiných než normálních rozdělení.

Příklad: Chceme testem prokázat, že průměrná hmotnost dodávaných odlitků je větší než 336 kg. Nulovou hypotézu tedy lze formulovat H0: μ = 336, proti jednostranné alternativní hypotéze H1: μ > 336. Za účelem ověření nulové hypotézy jsme provedli náhodný výběr 144 dodaných odlitků a zjistili jsme jejich průměrnou hmotnost = 344 kg a směrodatnou odchylku s = 52 kg. Test provedeme na hladině významnosti α = 0,05. Řešení: Při jednostranném testu a dané hladině významnosti je kritický obor dán množinou hodnot vyšších než 1,64. Protože hodnota testového kritéria 1.85 > 1.64, zamítáme nulovou hypotézu ve prospěch alternativní hypotézy na 5% hladině významnosti. Můžeme tedy s 5% rizikem omylu tvrdit, že průměrná hmotnost přejímaných odlitků je vyšší než 336.

Podstata P-hodnoty Jestliže zamítněte H0; jinak nezamítejte H0 P-hodnota může být interpretována jako pozorovaná hladina významnosti testu hypotézy. Ilustrujeme si to na příkladu. Uvažujeme pravostranný test založený na testové statistice, která má normované normální rozdělení. Předpokládejme, že hodnota testové statistiky je 1.88. Pak P-hodnota testu hypotézy je 0.0301, jak je znázorněno na následujícím obrázku. Jak vidíme z předchozího obrázku, nulová hypotéza by měla být zamítnuta na hladině významnosti α=0.05, ale neměla by být zamítnuta na hladině α=0.01. Ve skutečnosti, jak je zřejmé z obrázku, P-hodnota je přesně nejmenší hladina významnosti, na které by nulová hypotéza měla být zamítnuta. Jestliže zamítněte H0; jinak nezamítejte H0

Test hypotézy o rozptylu (pro jeden soubor) Nulová hypotéza Alternativní hypotéza: V případě dvoustranného testu V případě jednostranných testů: nebo Testová statistika:

Příklad:

Test hypotézy o shodě dvou středních hodnot

Příklad:

Test hypotézy o shodě dvou rozptylů

Příklad:

Děkuji za pozornost