Statistická indukce Teorie odhadu.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

VÝPOČET OC.
Statistika.
Statistická indukce Teorie odhadu.
Výpočet zásoby porostu na zkusných plochách při požadované přesnosti
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
Testování statistických hypotéz
Limitní věty.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Objem dřeva porostu (=porostní zásoba, hmota)
t-rozdělení, jeho použití
Popisná statistika - pokračování
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
Testování hypotéz přednáška.
Tloušťková struktura porostu
1 Národní informační středisko pro podporu jakosti.
Obsah statistiky Jana Zvárová
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Odhady odhady bodové a intervalové odhady
Diskrétní rozdělení Karel Zvára 1.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Experimentální fyzika I. 2
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Odhady odhady bodové a intervalové odhady
Spojitá náhodná veličina
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Odhady parametrů základního souboru
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Statistika a výpočetní technika
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Autor: Honnerová Helena
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Statistická indukce Teorie odhadu

Intervalový odhad rozptylu ZS Konstrukce intervalu spolehlivosti pro rozptyl závisí na předpokladech: výběr pochází ze ZS s normálním rozdělením, známe parametr , neznáme parametr  (častější případ). Konstrukce intervalu spolehlivosti se opírá o veličinu, která má 2 – rozdělení o (n-1) stupních volnosti. Interval spolehlivosti bude vycházet z veličiny: Tato veličina  (ný) má také 2 – rozdělení o (n-1) stupních volnosti.

Takových čísel by se ovšem mohlo určit nekonečně mnoho. Při odvození intervalu spolehlivosti vyjdeme ze vztahu: Čísla c1 a c2 je možno nalézt v tabulkách kritických hodnot 2 – rozdělení pro (n-1) stupeň volnosti. Takových čísel by se ovšem mohlo určit nekonečně mnoho. Uvažují se tedy takové intervaly spolehlivosti, aby byla splněna podmínka:

První část výrazu lze upravit takto: Z předchozích vztahů tedy vyplývá, že c1 představuje kritickou hodnotu a c2 kritickou hodnotu . Úpravou prvního vztahu dostaneme dvoustranný interval spolehlivosti, který vzhledem k hodnotě s2 není symetrický.

Jednostranné intervaly Levostranný Pravostranný

Z intervalů pro rozptyl lze snadno odvodit intervaly spolehlivosti pro směrodatnou odchylku . Dvoustranný interval Levostranný interval Pravostranný interval

Pokud výběrový soubor je velkého rozsahu (n  120), lze využít toho, že směrodatná odchylka s má přibližně rozdělení . Interval spolehlivosti pro směrodatnou odchylku je pak přibližně určen vztahem: u ke kritická hodnota normovaného normálního rozdělení

Příklad Z velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro variabilitu tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad rozptylu 2 = 16,654561 Bodový odhad směrodatné odchylky  = 4,081 Intervalový odhad požadovaná spolehlivost (1-) = 0,95

Intervalový odhad parametru p () alternativního rozdělení (intervalový odhad relativní četnosti ZS) Jedná se o odhad pravděpodobnosti výskytu určitého jevu, resp. podílu jednotek s určitou vlastností v konečném základním souboru. Bodovým odhadem je výběrová relativní četnost fi = m/n, kde n je rozsah výběrového souboru a m počet jednotek s určitou vlastností. Tento výběrový podíl je nestranným odhadem parametru p.

Při konstrukci intervalu spolehlivosti pro parametr p je nutno rozlišovat, zda pracujeme s malými nebo velkými výběry. Při malých rozsazích vycházíme z toho, že výběrová absolutní četnost m má při výběrech s vracením binomické rozdělení a při výběrech bez vracení rozdělení hypergeometrické. V praxi obvykle určujeme krajní hodnoty pomocí tabulek (95% intervaly spolehlivosti). Jestliže se jedná o výběrový soubor velkého rozsahu, lze rozdělení výběrové relativní četnosti m/n aproximovat normálním rozdělením se střední hodnotu p a směrodatnou odchylkou .

Normální aproximaci lze použít za předpokladu, že Konstrukce intervalu spolehlivosti pro odhad relativní četnosti ZS je podobná jako u intervalu spolehlivosti pro průměr, tzn. fi  . Vyjdeme ze vztahu:

Po úpravách lze dvoustranný interval zapsat takto: Z uvedeného zápisu lze odvodit intervaly jednostranné, a to interval levostranný nebo interval pravostranný

V případě výběru bez vracení je potřeba opět rozšířit výpočet přípustné chyby o konečnostní násobitel. Tzn. Vzorec pro výpočet přípustné chyby lze stejně jako u průměru použít ke stanovení: vlastního intervalu, požadovaného rozsahu výběru, k výpočtu spolehlivosti odhadu.

Vypočtené intervaly spolehlivosti jsou intervaly přibližné Vypočtené intervaly spolehlivosti jsou intervaly přibližné. Je to především dáno tím, že normálním rozdělením aproximujeme rozdělení diskrétní. Nejsprávnější proto je použít při nahrazování nějakého diskrétního rozdělení rozdělením spojitým tzv. opravu na spojitost. Pro výběr s opakováním a opravou na spojitost lze interval spolehlivosti pro parametr p zapsat takto:

Neparametrický odhad mediánu ZS Při řešení praktických úloh se však obvykle spokojíme s jednodušším výpočtem, protože rozdíly, které vznikají při obou postupech, jsou velmi malé. Neparametrický odhad mediánu ZS Předpokladem použití tohoto postupu neparametrického odhadu je spojitost náhodné veličiny. Náhodný výběr uspořádáme do řady vzestupným způsobem podle velikosti (tzv. variační řada). V tabulce je uvedeno pro rozsah n náhodného výběru takové číslo k, že medián ZS je pokryt intervalem P (xk  M  xn-k+1)  1 - .

Příklad U 100 pojištěných aut bylo zjištěno, že 18 aut je starších než 7 let. Chceme stanovit 95% interval spolehlivosti pro podíl aut starších 7 let v základním souboru.

P(-1,3 < u  1,3) = F(1,3) – F(-1,3) = 2F(1,3) – 1= Jak velký výběrový soubor bychom potřebovali v případě, že požadujeme velikost přípustné chyby pouze 5 %? Jakou spolehlivost zaručuje výběr 100 respondentů s přípustnou chybou 5 %? P(-1,3 < u  1,3) = F(1,3) – F(-1,3) = 2F(1,3) – 1= = 2 · 0,9032 – 1 = 0,8064

Příklad Z celkového počtu 500 000 pojištěnců byl zjišťován u 100 z nich jejich věk, kdy 45 respondentů bylo starších 40 let. Chceme stanovit 95% interval spolehlivosti pro podíl pojištěnců starších 40 let.

Jak velký výběrový soubor bychom potřebovali v případě, že požadujeme velikost přípustné chyby pouze 5 %?

P(-1 < u  1) = F(1) – F(-1) = 2F(1) – 1= = 2 · 0,8413 – 1 = 0,6826 Jakou spolehlivost zaručuje výběr 100 respondentů s přípustnou chybou 5 %? P(-1 < u  1) = F(1) – F(-1) = 2F(1) – 1= = 2 · 0,8413 – 1 = 0,6826

Příklad Máme k dispozici následující data. V jakých mezích se s pravděpodobností 0,95 pohybuje medián ZS? Pro určení intervalového odhadu mediánu je potřeba seřadit zadané hodnoty podle velikosti. V tabulkách je potřeba nalézt číslo k  k = 2 P (xk  M  xn-k+1) = 1 -  P (x2  M  x11-2+1) = 0,95 P (3,1  M  22,2) = 0,95