Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 S TATISTICKÁ I NDUKCE

3 Populace a výběr Bodové odhady Intervalové odhady jednovýběrové Intervalové odhady dvouvýběrové

4 S TATISTICKÁ INDUKCE Základní soubor – všechny jednotky Charakteristiky se značí písmeny řecké abecedy: μ, σ, σ 2, π, (N) Výběrový soubor – vybrané jednotky (náhodný výběr) Charakteristiky se značí písmeny latinské abecedy:,s, s 2, p, (n)

5 S TATISTICKÁ INDUKCE Proč nelze změřit základní soubor?? 1. Pokud je základní soubor pouze hypotetický, ani jej nemůžeme jako celek sledovat. 2. Pokud je při měření sledovaný prvek zničen (např. trhací zkouška, zničení vzorku při analýze), zničili bychom veškerou produkci, která tvoří základní soubor. 3. Pokud je zkouška prvku příliš časově či finančně nákladná nebo je rozsah základního souboru příliš velký (všichni obyvatelé ČR) a nemůžeme si dovolit měřit všechny prvky, alespoň ne často.

6 S TATISTICKÁ INDUKCE Vlastnosti výběru 1. Všechny prvky základního souboru by měly mít stejnou pravděpodobnost, že budou zařazeny do výběru. 2. Výběr má být homogenní, tj. všechny prvky mají pocházet ze stejného základního souboru. 3. Jednotlivé prvky výběru mají být nezávislé. Nesmí vznikat chyba vzájemným ovlivňováním vzorků nebo chyba závislá na pořadí měření (na čase) aj. Příklad: při odběru vzorků nesmí měnit stav vzorkovacího zařízení (např. znečisťování odebíraného vzorku zbytky vzorku předchozího). Nesmí se měnit podmínky během odběru (vliv může mít např. postupná změna teploty, změna vlhkosti, když během vzorkování prší).

7 S TATISTICKÁ INDUKCE Metody výběru Náhodný výběr je výběr, při kterém má každý prvek stejnou pravděpodobnost být vybrán. Nejlépe odpovídá potřebám statistické indukce. Náhodnost výběru lze dosáhnout losováním, výběrem podle tabulek náhodných čísel či generátoru náhodných čísel. U základních souborů, kde prvky jsou uspořádány náhodně, lze postupovat pří výběru systematicky. Příklad: Každý desátý člověk vycházející z obchodu.

8 S TATISTICKÁ INDUKCE Metody výběru Anketa Oslovíme určitou část populace. Obvykle pomocí dotazníků. Pozor, jen část oslovených odpovídá a jen část dotazníků se vrátí zcela vyplněných. Odpovědi nemusejí být pravdivé (internetové ankety).

9 S TATISTICKÁ INDUKCE Metody výběru Metoda základního masivu Pokud se základní soubor skládá z několika velkých jednotek a z většího počtu malých (např. velké a malé podniky, města a obce), zaměříme průzkum jen na velké jednotky a malé vynecháme. Snížíme pracnost průzkumu, ale nedozvíme se nic o celé specifické skupině prvků souboru.

10 S TATISTICKÁ INDUKCE Metody výběru Záměrný (úsudkový) výběr Odborníci vytvoří schéma výběru, které by mělo uměle zajistit to, že zastoupení jednotek ve výběru odpovídá zastoupení v základním souboru. Používá ČSÚ. Výsledek může být příliš subjektivně zatížen.

11 B ODOVÝ ODHAD Odhad charakteristiky základního souboru pomocí charakteristiky výběrového souboru. Střední hodnota rozdělení E(X) (nejčastěji aritmetický průměr μ) je odhadována výběrovým průměrem. Rozptyl rozdělení D(X) (nejčastěji σ 2 ) je odhadován výběrovým rozptylem s 2. Směrodatná odchylka základního souboru σ je odhadována výběrovou směrodatnou odchylkou s. Populační poměr π (podíl hodnot se sledovanou vlastností) odhadujeme výběrovým poměrem p. Medián základního souboru je odhadován mediánem výběru, stejně tak ostatní kvantily. Modus základního souboru odhadujeme modem pro výběr, tj. nejčetnější hodnotou ve výběru.

12 B ODOVÝ ODHAD Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Odhadněte průměrnou hmotnost, rozptyl a směrodatnou odchylku pro celou populaci. Řešení: Známe výběrové charakteristiky = 2870 g s = 1072 g Bodově odhadneme populační charakteristiky μ = 2870 g σ = 1072 g σ 2 = =

13 B ODOVÝ ODHAD Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr

14 B ODOVÝ ODHAD Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Řešení: Pro libovolný výběr lze vypočítat průměr. Průměry se liší. Pokud bychom vypočetli průměry pro velký počet výběrů, zjistili bychom, že některé hodnoty se opakují častěji, jiné třeba jen jednou.

15 B ODOVÝ ODHAD Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Histogram aritmetických průměrů (nikoliv tedy původních věků) by mohl vypadat takto: Pozn.: Celkem bylo pořízeno 500 různých výběrů a tedy spočteno 500 průměrů.

16 B ODOVÝ ODHAD Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Závěr: nejen samotný ukazatel (v našem případě věk), ale i vypočtená charakteristika má určité rozdělení.

17 I NTERVALOVÝ ODHAD Protože bodový odhad se mění od výběru k výběru, je vhodnější používat spíše intervalový odhad. Charakteristiky se neodhaduje jedním číslem, ale intervalem, ve kterém se s určitou pravděpodobností charakteristika základního souboru nachází. oboustranný interval P (T d < μ < T h ) = 1-α, kde T d je dolní mez a T h je horní mez jednostranný interval omezený zdola (levostranný) P (T d < μ ) = 1-α, jednostranný interval omezený shora (pravostranný). P ( μ < T h ) = 1-α.

18 I NTERVAL SPOLEHLIVOSTI PRO S TŘEDNÍ HODNOTU μ Má-li základní soubor normální rozdělení, má statistika t Studentovo rozdělení s n-1 stupni volnosti. … výběrový průměr s … výběrová směrodatná odchylka n … rozsah výběru t (n-1)... Studentovo rozdělení s n-1 stupni volnosti Hustota pravděpodobnosti f(x) Studentova rozdělení

19 I NTERVAL SPOLEHLIVOSTI PRO S TŘEDNÍ HODNOTU μ Střední hodnota μ se bude s pravděpodobností (1-α )· 100 % nacházet v uvedeném intervalu a s pravděpodobností 100 · α % mimo interval. α je tzv. hladina spolehlivosti. Je to pravděpodobnost, že se střední hodnota, bude nacházet mimo vypočtený interval.

20 Řešení: známe výběrové charakteristiky = 2870 g, s = 1072 g, n = 17, α = 0,05, t 0,975 (16)=2,12. S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2324; 3427). I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte 95% interval spolehlivosti pro střední hodnotu hmotnosti.

21 Řešení: α = 0,01 S pravděpodobností 99 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2116; 3635). S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2324; 3427). I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte 99% interval spolehlivosti pro střední hodnotu hmotnosti.

22 I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Čím vyšší je hladina spolehlivosti α, tím užší je interval spolehlivosti. Čím větší jistota, že hodnota padne do odhadnutého intervalu, tím je interval širší. 100% interval spolehlivosti je bohužel (-∞; ∞). α = 0,1 90% interval spolehlivosti α = 0,01 99% interval spolehlivosti

23 I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Střední hodnota μ bude s pravděpodobností (1-α )· 100 % menší než horní mez intervalu a s pravděpodobností 100 · α % větší než tato hodnota. Jednostranný interval omezený shora (pravostranný).

24 I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Střední hodnota μ bude s pravděpodobností (1-α )· 100 % větší než dolní mez intervalu a s pravděpodobností 100 · α % menší než tato hodnota. Jednostranný interval omezený zdola (levostranný).

25 Řešení: počítáme levostranný interval spolehlivosti ( α = 0,1), t 0,9 (16)=1,33. S pravděpodobností 90 % neklesne střední hodnota hmotnosti novorozenců pod hodnotu 2528 g. I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte pod jakou hodnotu neklesne s pravděpodobností 90 % střední hodnota hmotnosti novorozenců.

26 V programu MS Excel je nutno mít zdrojová data uspořádaná do sloupce. Nestačí tedy znát průměr a výběrovou sm. odchylku. Data - Analýza – Analýza dat – Popisná statistika I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ 26 Volba „Hladina spolehlivosti pro stř. hodnotu“ vypočte chybu odhadu. Zadává se hladina spolehlivosti v procentech. Volba „Celkový přehled“ vypočte popisné charakteristiky souboru.

27 Data - Analýza – Analýza dat – Popisná statistika I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ 27 Meze intervalu spolehlivosti je nutno dopočítat: Dolní mez = stř. hodnota – hl.spol. (95%) Horní mez = stř. hodnota + hl.spol. (95%) Meze intervalu spolehlivosti je nutno dopočítat: Dolní mez = stř. hodnota – hl.spol. (95%) Horní mez = stř. hodnota + hl.spol. (95%)

28 Při výpočtu jednostranného intervalu, je nutno v MS Excel hladinu spolehlivosti upravit na 100∙(1-2*α). 95% jednostranný interval => zadáme 90% 99% jednostranný interval => zadáme 98% 90% jednostranný interval => zadáme 80% I NTERVAL SPOLEHLIVOSTI PRO STŘEDNÍ HODNOTU μ 28

29 I NTERVAL SPOLEHLIVOSTI PRO ROZPTYL σ 2 Má-li základní soubor normální rozdělení, má statistika z chí-kvadrát rozdělení s n-1 stupni volnosti. s … výběrová směrodatná odchylka n … rozsah výběru Hustota pravděpodobnosti f(x) chí-kvadrát rozdělení

30 I NTERVAL SPOLEHLIVOSTI PRO ROZPTYL σ 2 Populační rozptyl σ 2 se bude s pravděpodobností (1-α )· 100 % nacházet v uvedeném intervalu a s pravděpodobností 100 · α % mimo interval. Pozor! Chi-kvadrát není souměrné rozdělení, proto se obě meze intervalu počítají s jiným kvantilem. χ 2 0,025 (n-1)χ 2 0,975 (n-1)

31 I NTERVAL SPOLEHLIVOSTI PRO ROZPTYL σ 2 Populační rozptyl σ 2 bude s pravděpodobností (1-α )· 100 % menší než horní mez intervalu a s pravděpodobností 100 · α % větší než tato hodnota. Jednostranný interval omezený shora (pravostranný). χ 2 0,95 (n-1)

32 I NTERVAL SPOLEHLIVOSTI PRO ROZPTYL σ 2 Populační rozptyl σ 2 bude s pravděpodobností (1-α)·100 % větší než dolní mez intervalu a s pravděpodobností 100·α % menší než tato hodnota. Jednostranný interval omezený zdola (levostranný). χ 2 0,05 (n-1)

33 Oboustranný interval spolehlivosti Jednostranný interval omezený shora Jednostranný interval omezený zdola I NTERVAL SPOLEHLIVOSTI PRO POMĚR π

34 Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kariéra prezidenta Václava Klause zřejmě nemusí skončit s odchodem z prezidentského křesla. Podle průzkumu Lidových novin si totiž 55 procent Čechů přeje jeho setrvání na tuzemské politické scéně - ať už v rámci již existujících stran, nebo v čele zcela nového politického uskupení. Naopak jeho odchod si přeje 44 procent lidí. Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55% ± 4%, tedy aby se dalo hovořit o nadpoloviční většině? I NTERVAL SPOLEHLIVOSTI PRO POMĚR π

35 Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? I NTERVAL SPOLEHLIVOSTI PRO POMĚR π Řešení: V tomto případě známe následující parametry: p = 0,55 Δ = 0,04 (delta je chyba odhadu) n = ? α = 0,05 (pokud není výslovně udáno, volí se 0,05)

36 Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? I NTERVAL SPOLEHLIVOSTI PRO POMĚR π K tomu, aby odhad byl v intervalu 55 %±4%, je nutno dotázat se nejméně 595 osob!

37 Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? I NTERVAL SPOLEHLIVOSTI PRO POMĚR π 10 osob (0,24 < π < 0,86) 100 osob(0,45 < π < 0,65) 500 osob(0,51 < π < 0,59) 1000 osob(0,52 < π < 0,58) Pozor na výsledky anket v médiích a na internetu. Často chybí informace o počtu respondentů a anketa tak může poskytovat velmi zkreslující závěry!

38 Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? I NTERVAL SPOLEHLIVOSTI PRO POMĚR π K tomu, aby odhad byl v intervalu 55 %± 4% s hladinou spolehlivosti 0,01, je nutno dotázat se nejméně 1026 osob!

39 I NTERVALOVÝ ODHAD Intervalový odhad je velice užitečný nástroj po porovnání populačních charakteristik dvou výběrů pocházejících z nezávislých základních souborů s normálním rozdělením.

40 Interval spolehlivosti pro podíl dvou populačních rozptylů σ 2 1 a σ 2 2. kde s 1 2 je výběrový rozptyl prvního výběru, s 2 2 je výběrový rozptyl druhého výběru, n je rozsah prvního výběru, m je rozsah druhého výběru, F 1-α (n-1;m-1) je kvantil F rozdělení. Pokud interval zahrnuje i hodnotu jedna, pak jsou oba populační rozptyly shodné! I NTERVAL SPOLEHLIVOSTI PRO PODÍL ROZPTYLŮ σ 2 1 /σ 2 2

41 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ 1 a μ 2 za podmínky rovnosti populační rozptylů σ 2 1 = σ 2 2. kde s 1 2 je výběrový rozptyl prvního výběru, s 2 2 je výběrový rozptyl druhého výběru, jsou výběrové průměry, n je rozsah prvního výběru, m je rozsah druhého výběru. Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné! I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2

42 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ 1 a μ 2 za podmínky rovnosti populační rozptylů σ 2 1 = σ 2 2. Pokud platí n = m je vzorec jednodušší: Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné! I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2

43 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ 1 a μ 2 za podmínky libovolných populačních rozptylů σ 2 1 ≠ σ 2 2. Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné! I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2

44 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ 1 a μ 2 za podmínky libovolných populačních rozptylů σ 2 1 ≠ σ 2 2. Pokud platí n = m je vzorec jednodušší: Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné! I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2

45 Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s 1 = 840 g, s 2 = 875 g, n = 17, m = 20 To, že se oba výběrové průměry liší neznamená, že se liší i průměry populační μ 1 = μ 2. Pokud se intervaly spolehlivosti pro populační průměry překrývají, pak jsou obě střední hodnoty stejné a platí μ 1 = μ 2. I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2 Příklad: V Mostě byla zjištěna hmotnost 17 novorozenců s průměrnou hmotností 2870 g a výběrovou směrodatnou odchylkou 840 g. V Chomutově bylo sledováno 20 novorozenců, s průměrnou hmotností g a směrodatnou odchylkou 875 g. Jsou za předpokladu normálního rozdělení obou základních souborů průměrné hmotnosti v obou městech stejné? Zjistěte s použitím hladiny spolehlivosti 0,05.

46 Pro sestrojení intervalu spolehlivosti pro rozdíl průměrů je potřeba vědět, zda se populační rozptyly rovnají nebo ne. I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2 Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s 1 = 840 g, s 2 = 875 g, n = 17, m = 20 Nejdříve bude sestrojen 95% interval spolehlivosti pro podíl rozptylů. Protože je interval v rozmezí (0,3558; 2,4841), lze usoudit, že jsou populační rozptyly shodné. Interval obsahuje i hodnotu jedna.

47 Populační rozptyly jsou shodné, proto I NTERVAL SPOLEHLIVOSTI PRO ROZDÍL STŘEDNÍCH HODNOTU μ 1 – μ 2 Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s 1 = 840 g, s 2 = 875 g, n = 17, m = 20 S pravděpodobnostní 95 % se bude rozdíl středních hodnot hmotností pohybovat v intervalu (-900; 250). Interval obsahuje i hodnotu nula. Rozdíl mezi středními hodnotami tedy není významný. Průměrná porodní hmotnost v Mostě a Chomutově je stejná.

48 R OBUSTNÍ ODHAD Robustní odhady se používají pokud: Výběrový soubor nemá normální rozdělení. Soubor má malý rozsah. V souboru jsou odlehlá měření.

49 R OBUSTNÍ ODHAD Bodový odhad střední hodnoty základního souboru lze provádět robustním způsobem pomocí: mediánu, useknutého průměru, modu. Ke každé charakteristice lze dopočítat rozptyl nebo směrodatnou odchylku.

50 R OBUSTNÍ ODHAD Intervalový odhad střední hodnoty pro malé soubory (n = 2) kde je pro normální rozdělení Pro 95% interval platí T 0,05 = 12,71.

51 R OBUSTNÍ ODHAD Intervalový odhad střední hodnoty pro malé soubory (n = 3). Osvědčuje se použít jako bodový odhad průměr ze dvou bližších hodnot, než medián ze všech tří. kde je pro normální rozdělení Pro 95% interval platí T‘ 0,05 = 4,3.

52 R OBUSTNÍ ODHAD Bodový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20). Jako bodový odhad střední hodnoty se používá pivotová polosuma PL = 0,5·(x D + x H ). Hodnoty dolního pivotu x D a horního pivotu x H jsou vybrané kvantily jejichž indexy H a D jsou určeny dle toho, které I bude celé číslo. Dolní pivot je I-procentní kvantil x D = x I, horní pivot je (n+1-I) procentní kvantil x H = x n+1-H.

53 R OBUSTNÍ ODHAD Intervalový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20). Výpočet je založen na pivotové polosumě P L Kvantily T L rozdělení t L,1-α/2 jsou uvedeny v samostatné tabulce a R L je odhad rozptylu, tzv. pivotové rozpětí R L = x H - x D.

54 R OBUSTNÍ ODHAD

55 Populace a výběr Náhodný výběr Bodový odhad Intervalový odhad Hladina spolehlivosti Oboustranný interval spolehlivosti Jednostranný interval spolehlivosti Chyba odhadu Robustní odhad 55 S TATISTICKÁ I NDUKCE D ŮLEŽITÉ POJMY – 4. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google