Statistická indukce Teorie odhadu.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

VÝPOČET OC.
Statistická indukce Teorie odhadu.
Výpočet zásoby porostu na zkusných plochách při požadované přesnosti
Testování statistických hypotéz
Matematické metody vyhodnocování experimentů
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Hodnocení způsobilosti měřících systémů
Cvičení 6 – 25. října 2010 Heteroskedasticita
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
t-rozdělení, jeho použití
ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU
CHYBY MĚŘENÍ.
Testování hypotéz přednáška.
1 Národní informační středisko pro podporu jakosti.
Náhodná proměnná Rozdělení.
Příklad přejímací kontroly A Příklad uvádí, jak ovlivní střední hodnota a směrodatná odchylka pravděpodobnost chyby (vadného výrobku). Ptáme se, kolik.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Základy ekonometrie Cvičení října 2010.
Odhady parametrů základního souboru
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Odhady odhady bodové a intervalové odhady
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy statistické indukce Základní soubor, náhodný výběr Základní statistický soubor (stručněji základní soubor) je statistický soubor, z něhož pořizujeme.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Metrologie   Přednáška č. 5 Nejistoty měření.
MATEMATICKÁ STATISTIKA
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Hodnocení přesnosti měření a vytyčování
PSY717 – statistická analýza dat
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Matematická statistika 1.přednáška. Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
Spojitá náhodná veličina
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Odhady parametrů základního souboru
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
příklad: hody hrací kostkou
Statistika a výpočetní technika
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Statistická indukce Teorie odhadu

Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp Úlohou teorie odhadu je určení typu rozdělení sledovaného znaku, resp. některých charakteristik a to na základě výběrových dat. Hodnoty parametrů nelze stanovit nikdy přesně, na základě výběrových dat lze získat pouze přibližné hodnoty parametrů v ZS. Z toho důvodu hovoříme o odhadu parametrů. Metody odhadování parametrů: Bodový odhad – na základě zjištěných hodnot výběrového souboru vypočteme předem stanoveným způsobem jedno číslo, které považujeme za odhad parametru ZS; nic však neříká o tom, kde leží skutečné hodnoty parametrů.

Interval spolehlivosti – neznámou hodnotu parametru odhadneme tak, že uvedeme interval, který s předem danou pravděpodobností obsahuje danou hodnotu parametru ZS. P(T1    T2) = 1 -  Interval T1, T2 nazýváme 100(1- )% intervalem spolehlivosti pro charakteristiku . Pravděpodobnost, tj. číslo (1-) nazýváme spolehlivostí odhadu nebo také koeficientem spolehlivosti. Pravděpodobnost  se nazývá hladina významnosti (obvykle se volí hodnoty 0,01 nebo 0,05, příp. 0,1).

Spolehlivost odhadu je dána zvolenou pravděpodobností Spolehlivost odhadu je dána zvolenou pravděpodobností. Čím je tato pravděpodobnost větší, tím je i daný odhad spolehlivější. Čím více však roste spolehlivost odhadu (tj. roste 1-), tím se zvětšuje i příslušný interval spolehlivosti, který udává přesnost odhadu. Čím bude daný interval širší, tím bude odhad spolehlivější, tj. hodnota odhadované charakteristiky bude ležet s vysokou pravděpodobností uvnitř intervalu, ale odhad bude méně přesný a jeho praktická využitelnost bude malá. Závěr: mezi přesností a spolehlivostí odhadu při daném rozsahu výběru existuje nepřímá úměrnost.

Pro intervaly spolehlivosti platí, že čím je rozsah výběru n větší, tím je interval spolehlivosti užší, čím je odhad přesnější a má menší rozptyl, tím je interval spolehlivosti užší, čím je vyšší statistická jistota (1 - ), tím je interval spolehlivosti širší. Je proto výhodné volit takové efektivní odhady, u kterých lze docílit nízkého rozptylu již pro malé rozsahy výběru.

Spolehlivost odhadu je pravděpodobnost, s jakou se charakteristika ZS bude nacházet v intervalu vymezeném příslušnou výběrovou charakteristikou a maximální chybou. Přesnost odhadu – maximální chyba, které se při odhadu s danou spolehlivostí dopustíme. S rostoucí šířkou intervalu spolehlivosti klesá přesnost odhadu. Intervaly spolehlivosti lze udávat trojím způsobem: jsou omezeny pouze shora, jsou omezeny pouze zdola, jsou omezeny zdola i shora.

Omezíme-li interval shora i zdola, jedná se o interval dvoustranný (oboustranný). P(T1    T2) = 1 -  P(  T1) = P(  T2) = /2 Jsou-li omezeny pouze zdola či shora, hovoří se o jednostranných intervalech. Interval omezen shora – interval pravostranný P(  T2) = 1-  P(  T2) =  Interval omezen zdola – interval levostranný P(  T1) = 1-  P(  T1) = 

Intervalový odhad průměru ZS Je potřeba vycházet z několika předpokladů: základní soubor má normální rozdělení, rozdělení ZS neznáme, ale náhodný výběr má velký rozsah, známe či neznáme rozptyl ZS 2, zda se jedná o výběr s vracením nebo bez vracení, zda půjde o interval jednostranný nebo oboustranný.

Obecně lze interval spolehlivosti pro průměr ZS popsat následujícím způsobem:  se nazývá přípustná chyba odhadu. Při konstrukci intervalového odhadu vycházíme z poznatků o asymptotickém rozdělení výběrových průměrů (viz. centrální limitní věty). Odtud vyplývá, že pro dostatečně velký rozsah výběru je rozdělení výběrových průměrů přibližně normální se střední hodnotou , rozptylem 2/n a veličina U má normované normální rozdělení.

Využijeme-li definice náhodné veličiny, můžeme pak psát: O této veličině lze říci, že má při výběru z normálně rozděleného ZS normované normální rozdělení a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, které lze dobře aproximovat normovaným normálním rozdělením. Využijeme-li definice náhodné veličiny, můžeme pak psát: P(U  u) = F(u) =  P(U  u1-) = F(u1-) = 1-  P(u  U  u1-) = 1 - 2

V tabulkách normované normální distribuční funkce lze najít pro libovolné (0 <   1) číslo u s vlastností P(-u u u) = 1- . Při konstrukci intervalu spolehlivosti vyjdeme tedy ze vztahu: Po úpravách dostaneme výraz:

Levostranný interval Pravostranný interval Oboustranný interval (symetrický interval)

Není znám rozptyl ZS – použijeme hodnotu s2 Ke konstrukci intervalu spolehlivosti použijeme veličinu O veličině t lze říci, že při výběru z normálně rozděleného ZS má rozdělení Studentovo o (n-1) stupních volnosti a při výběru velkého rozsahu z jakéhokoliv rozdělení ZS má rozdělení, jež lze dobře aproximovat normovaným normálním rozdělením (jde např. o asymptotické normální rozdělení).

Konstrukce intervalu spolehlivosti dozná jen malých změn. Oboustranný interval Levostranný interval Pravostranný interval

Kdy se používají hodnoty u a kdy t? Kritické hodnoty normálního rozdělení u známe rozptyl ZS 2 známe výběrový rozptyl s2 a rozsah výběrového souboru je velký (n > 100) Kritické hodnoty Studentova t-rozdělení o (n-1) stupni volnosti jde o výběr z normálního rozdělení a známe pouze rozptyl výběrový s2 rozsah výběrového souboru je malý (n < 100) soubor se řídí asymetrickým normálním rozdělením

Výraz se nazývá směrodatná odchylka souboru výběrových průměrů a je odhadnuta ze všech teoreticky možných výběrových průměrů. Meze dvoustranného intervalu spolehlivosti lze stručně zapsat: kde  představuje polovinu šířky intervalu spolehlivosti a nazývá se přípustná chyba, někdy také maximální možná chyba.

Příklad Z velké zásilky součástek jsme jich náhodným výběrem vybrali 400 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad průměru  = 116 mm. Intervalový odhad požadovaná spolehlivost (1-) = 0,95 kritická hodnota normálního rozdělení u0,05 = 1,96 n = 400  jde o velký soubor

Interval pravostranný  u2.0,05 = u0,1 = 1,6448  = 0,3356

Snížíme počet vybraných jednotek, tzn. n = 30 Kritická hodnota t0,05(29) = 2,045 P (114,4763 <   117,5237) = 0,95 Tento interval je mnohem širší než v předchozím výpočtu ( = 0,4). Pokud bychom trvali za jinak stejných podmínek (při pevném rozsahu výběru) na zúžení intervalu spolehlivosti, klesala by zřejmě spolehlivost odhadu.

V praxi se většinou 2 předem odhaduje, musíme jej tedy považovat za konstantu, ale ostatní veličiny lze předem zvolit (n, , ). Z toho vyplývá, že v praxi je možno vzorec pro výpočet přípustné chyby využít k následujícím účelům: ke stanovení šířky intervalu při určité žádané spolehlivosti a daném rozsahu výběru, ke stanovení rozsahu výběru, který by zajistil požadovanou přesnost a spolehlivost, k výpočtu spolehlivosti při určité požadované šířce intervalu spolehlivosti (ta zde vlastně znamená přesnost odhadu v daném rozsahu výběru).

Stanovení rozsahu souboru Jak velký musí být rozsah výběrového souboru, abychom ze zjištěných dat mohli provést intervalový odhad průměru  s předem danou přesností? Přesnost odhadu je charakterizována přípustnou chybou odhadu . Pro stanovení minimálního rozsahu výběru lze použít vzorce přípustné chyby odhadu, z něhož snadnou úpravou dostaneme za předpokladu, že známe rozptyl ZS 2

Neznáme-li rozptyl ZS, musíme provést tzv. dvoufázový náhodný výběr. 1) Předvýběr – zkusmo provedeme menší náhodný výběr o rozsahu m, z něhož vypočteme rozptyl a nalezneme t(m-1). Požadovaný rozsah výběrového souboru pak vypočteme jako

Příklad – vyjdeme z předchozího zadání 2) Druhá fáze Je-li m  n  není již nutné provádět další šetření, protože předvýběr již dává dostatečně přesný odhad. Je-li m  n  je nutno doplnit předvýběr o n-m jednotek na požadovaný rozsah n. Výběrový soubor o n jednotkách pak již dává dostatečně přesný odhad. Příklad – vyjdeme z předchozího zadání Požadujeme spolehlivost 95 % a přípustnou chybu odhadu 1 mm. Kolik jednotek je potřeba vybrat? Vyjdeme z předpokladů o předvýběru 30 jednotek. s = 4,081 t0,05(29) = 2,045

Určení spolehlivosti odhadu Pro zajištění požadované spolehlivosti je potřeba rozšířit výběr o 40 jednotek (při zvolené šířce intervalu. Určení spolehlivosti odhadu Pokud nelze doplnit rozsah výběru, pak je možné zjistit, jak spolehlivý je daný odhad při předem zvolené přípustné chybě (šířce intervalu).

Příklad – vyjdeme z původního zadání Jaká bude spolehlivost odhadu, pokud požadujeme šířku intervalu 1mm a výběr nelze dále rozšířit? s = 4,081 n = 30 Rozdělení t lze za obecných podmínek aproximovat normálním rozdělením, tzn. ke stanovení pravděpodobnosti použijeme distribuční funkci normovaného normálního rozdělení. P(-1,34< u  1,34) = F(1,34) – F(-1,34) = 2F(1,34) –1= = 2 · 0,9099 – 1 = 0,8198

Výběr bez vracení Je možné srovnat následující výsledky: P = 0,95 n = 30  = 1,5237 P = 0,95 n = 70  = 1 P = 0,8198 n = 30  = 1 Výběr bez vracení Uvedená odmocnina se nazývá konečnostní násobitel, který je vždy menší než jedna.

Stanovení rozsahu výběru Vztah pro výpočet přípustné chyby lze použít k již uvedeným účelům. Stanovení rozsahu výběru Výpočet spolehlivosti při určité požadované šířce intervalu spolehlivosti

Příklad Z velké zásilky součástek o rozsahu 400 jednotek jsme jich náhodným výběrem pro kontrolu jakosti vybrali 30 a zjistili pro některý jejich rozměr průměr 116 mm a výběrovou směrodatnou odchylku 4,081 mm. Na základě těchto údajů chceme stanovit 95% dvoustranný interval spolehlivosti pro průměr tohoto rozměru přejímaných součástek v celé zásilce. Bodový odhad průměru  = 116 mm Intervalový odhad požadovaná spolehlivost (1-) = 0,95 kritická hodnota Studentova rozdělení t0,05 (29) = 2,045 n = 30 N = 400  jde o výběr bez vracení

Šířku intervalu chceme snížit na velikost 1 mm Šířku intervalu chceme snížit na velikost 1 mm. Kolik jednotek výběru k tomu bude potřeba?

Jakou spolehlivost zaručí výběr 30 jednotek při požadované chybě 1 mm? Na základě znalosti distribuční funkce normovaného normálního rozdělení je možné spolehlivost daného odhadu určit jako P(-1,4 < u  1,4) = F(1,4) – F(-1,4) = 2F(1,4) – 1 = = 2 · 0,9192 – 1 = 0,8384