Statistika Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW: http://most.ujep.cz/~popelka
Statistická Indukce
Statistická indukce Populace a výběr Bodové odhady Intervalové odhady jednovýběrové Intervalové odhady dvouvýběrové
Statistická indukce Základní soubor – všechny jednotky Charakteristiky se značí písmeny řecké abecedy: μ, σ, σ2, π, (N) Výběrový soubor – vybrané jednotky (náhodný výběr) Charakteristiky se značí písmeny latinské abecedy: ,s, s2, p, (n)
Statistická indukce Proč nelze změřit základní soubor?? 1. Pokud je základní soubor pouze hypotetický, ani jej nemůžeme jako celek sledovat. 2. Pokud je při měření sledovaný prvek zničen (např. trhací zkouška, zničení vzorku při analýze), zničili bychom veškerou produkci, která tvoří základní soubor. 3. Pokud je zkouška prvku příliš časově či finančně nákladná nebo je rozsah základního souboru příliš velký (všichni obyvatelé ČR) a nemůžeme si dovolit měřit všechny prvky, alespoň ne často.
? Statistická indukce Vlastnosti výběru 1. Všechny prvky základního souboru by měly mít stejnou pravděpodobnost, že budou zařazeny do výběru. 2. Výběr má být homogenní, tj. všechny prvky mají pocházet ze stejného základního souboru. 3. Jednotlivé prvky výběru mají být nezávislé. Nesmí vznikat chyba vzájemným ovlivňováním vzorků nebo chyba závislá na pořadí měření (na čase) aj. Příklad: při odběru vzorků nesmí měnit stav vzorkovacího zařízení (např. znečisťování odebíraného vzorku zbytky vzorku předchozího). Nesmí se měnit podmínky během odběru (vliv může mít např. postupná změna teploty, změna vlhkosti, když během vzorkování prší). ?
? Statistická indukce Metody výběru Náhodný výběr je výběr, při kterém má každý prvek stejnou pravděpodobnost být vybrán. Nejlépe odpovídá potřebám statistické indukce. Náhodnost výběru lze dosáhnout losováním, výběrem podle tabulek náhodných čísel či generátoru náhodných čísel. U základních souborů, kde prvky jsou uspořádány náhodně, lze postupovat pří výběru systematicky. Příklad: Každý desátý člověk vycházející z obchodu. ?
Statistická indukce Metody výběru Anketa Oslovíme určitou část populace. Obvykle pomocí dotazníků. Pozor, jen část oslovených odpovídá a jen část dotazníků se vrátí zcela vyplněných. Odpovědi nemusejí být pravdivé (internetové ankety).
Statistická indukce Metody výběru Metoda základního masivu Pokud se základní soubor skládá z několika velkých jednotek a z většího počtu malých (např. velké a malé podniky, města a obce), zaměříme průzkum jen na velké jednotky a malé vynecháme. Snížíme pracnost průzkumu, ale nedozvíme se nic o celé specifické skupině prvků souboru.
Statistická indukce Metody výběru Záměrný (úsudkový) výběr Odborníci vytvoří schéma výběru, které by mělo uměle zajistit to, že zastoupení jednotek ve výběru odpovídá zastoupení v základním souboru. Používá ČSÚ. Výsledek může být příliš subjektivně zatížen.
Bodový odhad Odhad charakteristiky základního souboru pomocí charakteristiky výběrového souboru. Střední hodnota rozdělení E(X) (nejčastěji aritmetický průměr μ) je odhadována výběrovým průměrem . Rozptyl rozdělení D(X) (nejčastěji σ2 ) je odhadován výběrovým rozptylem s2. Směrodatná odchylka základního souboru σ je odhadována výběrovou směrodatnou odchylkou s. Populační poměr π (podíl hodnot se sledovanou vlastností) odhadujeme výběrovým poměrem p. Medián základního souboru je odhadován mediánem výběru, stejně tak ostatní kvantily. Modus základního souboru odhadujeme modem pro výběr, tj. nejčetnější hodnotou ve výběru.
? Bodový odhad μ = 2870 g σ = 1072 g σ2= 10722 = 1 150 108 Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Odhadněte průměrnou hmotnost, rozptyl a směrodatnou odchylku pro celou populaci. Řešení: Známe výběrové charakteristiky = 2870 g s = 1072 g Bodově odhadneme populační charakteristiky μ = 2870 g σ = 1072 g σ2= 10722 = 1 150 108
Bodový odhad ? Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. 43 22 53 53 28 43 26 38 28 50 22 35 36 36 37 29 28 46 51 23 39 27 19 44 25 22 21 33 23 21 36 47 39 56 49 49 38 26 24 25 34 36 59 35 33 39 49 35 58 29 23 35 28 29 26 31 40 22 44 37 49 19 37 23 21 42 24 29 51 18 55 22 22 56 52 33 45 51 33 38 49 51 37 19 46 34 19 45 46 43 41 28 31 19 21 50 60 47 44 30 40 52 39 39 18 39 24 34 50 27 46 28 48 55 31 54 49 43 27 39 54 54 52 44 26 29 29 26 59 51 23 33 50 34 54 41 33 44 47 24 30 44 20 35 46 31 20 52 21 56 32 22 42 26 50 43 20 23 28 23 27 34 32 54 53 28 25
Bodový odhad ? Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Řešení: Pro libovolný výběr lze vypočítat průměr. Průměry se liší. Pokud bychom vypočetli průměry pro velký počet výběrů, zjistili bychom, že některé hodnoty se opakují častěji, jiné třeba jen jednou.
Bodový odhad ? Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Histogram aritmetických průměrů (nikoliv tedy původních věků) by mohl vypadat takto: Pozn.: Celkem bylo pořízeno 500 různých výběrů a tedy spočteno 500 průměrů.
Bodový odhad ? Příklad: Věk pacientů malé nemocnice. Vyberte tři až pět hodnot a na základě Vašeho výběru odhadněte populační průměr. Závěr: nejen samotný ukazatel (v našem případě věk), ale i vypočtená charakteristika má určité rozdělení. Pokud má základní soubor normální rozdělení N(μ;σ2), pak má výběrový průměr také normální rozdělení N(μ;σ2/n).
Intervalový odhad Protože bodový odhad se mění od výběru k výběru, je vhodnější používat spíše intervalový odhad. Charakteristiky se neodhaduje jedním číslem, ale intervalem, ve kterém se s určitou pravděpodobností charakteristika základního souboru nachází. oboustranný interval P (Td < μ < Th) = 1-α , kde Td je dolní mez a Th je horní mez jednostranný interval omezený zdola (levostranný) P (Td < μ) = 1-α , jednostranný interval omezený shora (pravostranný). P (μ < Th) = 1-α .
Interval spolehlivosti pro Střední hodnotu μ Má-li základní soubor normální rozdělení, má statistika t Studentovo rozdělení s n-1 stupni volnosti. … výběrový průměr s … výběrová směrodatná odchylka n … rozsah výběru t (n-1) ... Studentovo rozdělení s n-1 stupni volnosti Hustota pravděpodobnosti f(x) Studentova rozdělení
Interval spolehlivosti pro Střední hodnotu μ Střední hodnota μ se bude s pravděpodobností (1-α)·100 % nacházet v uvedeném intervalu a s pravděpodobností 100·α % mimo interval. α je tzv. hladina spolehlivosti. Je to pravděpodobnost, že se střední hodnota, bude nacházet mimo vypočtený interval.
Interval spolehlivosti pro střední hodnotu μ ? Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte 95% interval spolehlivosti pro střední hodnotu hmotnosti. Řešení: známe výběrové charakteristiky = 2870 g, s = 1072 g, n = 17, α = 0,05, t0,975(16)=2,12. S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2324; 3427).
Interval spolehlivosti pro střední hodnotu μ ? Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte 99% interval spolehlivosti pro střední hodnotu hmotnosti. Řešení: α = 0,01 S pravděpodobností 99 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2116; 3635). S pravděpodobností 95 % se střední hodnota hmotnosti novorozenců nachází v intervalu (2324; 3427).
Interval spolehlivosti pro střední hodnotu μ Čím vyšší je hladina spolehlivosti α, tím užší je interval spolehlivosti. Čím větší jistota, že hodnota padne do odhadnutého intervalu, tím je interval širší. 100% interval spolehlivosti je bohužel (-∞; ∞). α = 0,1 90% interval spolehlivosti α = 0,01 99% interval spolehlivosti
Interval spolehlivosti pro střední hodnotu μ Střední hodnota μ bude s pravděpodobností (1-α)·100 % menší než horní mez intervalu a s pravděpodobností 100·α % větší než tato hodnota. Jednostranný interval omezený shora (pravostranný).
Interval spolehlivosti pro střední hodnotu μ Střední hodnota μ bude s pravděpodobností (1-α)·100 % větší než dolní mez intervalu a s pravděpodobností 100·α % menší než tato hodnota. Jednostranný interval omezený zdola (levostranný).
Interval spolehlivosti pro střední hodnotu μ ? Příklad: Náhodným výběrem byla zjištěna hmotnost 17 novorozenců. Průměr byl 2870 g a výběrová směrodatná odchylka 1072 g. Za předpokladu normálního rozdělení základního souboru stanovte pod jakou hodnotu neklesne s pravděpodobností 90 % střední hodnota hmotnosti novorozenců. Řešení: počítáme levostranný interval spolehlivosti (α = 0,1), t0,9(16)=1,33. S pravděpodobností 90 % neklesne střední hodnota hmotnosti novorozenců pod hodnotu 2528 g.
Interval spolehlivosti pro střední hodnotu μ V programu MS Excel je nutno mít zdrojová data uspořádaná do sloupce. Nestačí tedy znát průměr a výběrovou sm. odchylku. Data - Analýza – Analýza dat – Popisná statistika Volba „Celkový přehled“ vypočte popisné charakteristiky souboru. Volba „Hladina spolehlivosti pro stř. hodnotu“ vypočte chybu odhadu. Zadává se hladina spolehlivosti v procentech.
Interval spolehlivosti pro střední hodnotu μ Data - Analýza – Analýza dat – Popisná statistika Meze intervalu spolehlivosti je nutno dopočítat: Dolní mez = stř. hodnota – hl.spol. (95%) Horní mez = stř. hodnota + hl.spol. (95%)
Interval spolehlivosti pro střední hodnotu μ Při výpočtu jednostranného intervalu, je nutno v MS Excel hladinu spolehlivosti upravit na 100∙(1-2*α). 95% jednostranný interval => zadáme 90% 99% jednostranný interval => zadáme 98% 90% jednostranný interval => zadáme 80%
Interval spolehlivosti pro rozptyl σ2 Má-li základní soubor normální rozdělení, má statistika z chí-kvadrát rozdělení s n-1 stupni volnosti. s … výběrová směrodatná odchylka n … rozsah výběru Hustota pravděpodobnosti f(x) chí-kvadrát rozdělení
Interval spolehlivosti pro rozptyl σ2 Populační rozptyl σ2 se bude s pravděpodobností (1-α)·100 % nacházet v uvedeném intervalu a s pravděpodobností 100·α % mimo interval. Pozor! Chi-kvadrát není souměrné rozdělení, proto se obě meze intervalu počítají s jiným kvantilem. χ20,025(n-1) χ20,975(n-1)
Interval spolehlivosti pro rozptyl σ2 Populační rozptyl σ2 bude s pravděpodobností (1-α)·100 % menší než horní mez intervalu a s pravděpodobností 100·α % větší než tato hodnota. Jednostranný interval omezený shora (pravostranný). χ20,95(n-1)
Interval spolehlivosti pro rozptyl σ2 Populační rozptyl σ2 bude s pravděpodobností (1-α)·100 % větší než dolní mez intervalu a s pravděpodobností 100·α % menší než tato hodnota. Jednostranný interval omezený zdola (levostranný). χ20,05(n-1)
Interval spolehlivosti pro poměr π Oboustranný interval spolehlivosti Jednostranný interval omezený shora Jednostranný interval omezený zdola
Interval spolehlivosti pro poměr π ? Příklad: www.idnes.cz 24.8.2011 Více než polovina Čechů chce, aby Klaus zůstal v politice Kariéra prezidenta Václava Klause zřejmě nemusí skončit s odchodem z prezidentského křesla. Podle průzkumu Lidových novin si totiž 55 procent Čechů přeje jeho setrvání na tuzemské politické scéně - ať už v rámci již existujících stran, nebo v čele zcela nového politického uskupení. Naopak jeho odchod si přeje 44 procent lidí. Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55% ± 4%, tedy aby se dalo hovořit o nadpoloviční většině?
Interval spolehlivosti pro poměr π ? Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? Řešení: V tomto případě známe následující parametry: p = 0,55 Δ = 0,04 (delta je chyba odhadu) n = ? α = 0,05 (pokud není výslovně udáno, volí se 0,05)
Interval spolehlivosti pro poměr π ? Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? K tomu, aby odhad byl v intervalu 55 %±4%, je nutno dotázat se nejméně 595 osob!
Interval spolehlivosti pro poměr π ? Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? 10 osob (0,24 < π < 0,86) 100 osob (0,45 < π < 0,65) 500 osob (0,51 < π < 0,59) 1000 osob (0,52 < π < 0,58) Pozor na výsledky anket v médiích a na internetu. Často chybí informace o počtu respondentů a anketa tak může poskytovat velmi zkreslující závěry!
Interval spolehlivosti pro poměr π ? Příklad: Více než polovina Čechů chce, aby Klaus zůstal v politice Kolik lidí by muselo být dotázáno, aby odhad byl v intervalu 55 % ± 4 % ? K tomu, aby odhad byl v intervalu 55 %± 4% s hladinou spolehlivosti 0,01, je nutno dotázat se nejméně 1026 osob!
Intervalový odhad Intervalový odhad je velice užitečný nástroj po porovnání populačních charakteristik dvou výběrů pocházejících z nezávislých základních souborů s normálním rozdělením.
Interval spolehlivosti pro podíl rozptylů σ21/σ22 Interval spolehlivosti pro podíl dvou populačních rozptylů σ21 a σ22. kde s12 je výběrový rozptyl prvního výběru, s22 je výběrový rozptyl druhého výběru, n je rozsah prvního výběru, m je rozsah druhého výběru, F1-α (n-1;m-1) je kvantil F rozdělení. Pokud interval zahrnuje i hodnotu jedna, pak jsou oba populační rozptyly shodné!
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za podmínky rovnosti populační rozptylů σ21 = σ22 . kde s12 je výběrový rozptyl prvního výběru, s22 je výběrový rozptyl druhého výběru, jsou výběrové průměry, n je rozsah prvního výběru, m je rozsah druhého výběru. Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné!
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za podmínky rovnosti populační rozptylů σ21 = σ22 . Pokud platí n = m je vzorec jednodušší: Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné!
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za podmínky libovolných populačních rozptylů σ21≠ σ22 . Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné!
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Interval spolehlivosti pro rozdíl dvou populačních průměrů μ1 a μ2 za podmínky libovolných populačních rozptylů σ21≠ σ22 . Pokud platí n = m je vzorec jednodušší: Pokud interval zahrnuje i hodnotu nula, pak jsou oba populační průměry shodné!
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 ? Příklad: V Mostě byla zjištěna hmotnost 17 novorozenců s průměrnou hmotností 2870 g a výběrovou směrodatnou odchylkou 840 g. V Chomutově bylo sledováno 20 novorozenců, s průměrnou hmotností 3 105 g a směrodatnou odchylkou 875 g. Jsou za předpokladu normálního rozdělení obou základních souborů průměrné hmotnosti v obou městech stejné? Zjistěte s použitím hladiny spolehlivosti 0,05. Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20 To, že se oba výběrové průměry liší neznamená, že se liší i průměry populační μ1 = μ2. Pokud se intervaly spolehlivosti pro populační průměry překrývají, pak jsou obě střední hodnoty stejné a platí μ1 = μ2.
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20 Pro sestrojení intervalu spolehlivosti pro rozdíl průměrů je potřeba vědět, zda se populační rozptyly rovnají nebo ne. Nejdříve bude sestrojen 95% interval spolehlivosti pro podíl rozptylů. Protože je interval v rozmezí (0,3558; 2,4841), lze usoudit, že jsou populační rozptyly shodné. Interval obsahuje i hodnotu jedna.
Interval spolehlivosti pro rozdíl středních hodnotu μ1 – μ2 Řešení: známe výběrové charakteristiky = 2870 g, = 3105 g, s1 = 840 g, s2 = 875 g, n = 17, m = 20 Populační rozptyly jsou shodné, proto S pravděpodobnostní 95 % se bude rozdíl středních hodnot hmotností pohybovat v intervalu (-900; 250). Interval obsahuje i hodnotu nula. Rozdíl mezi středními hodnotami tedy není významný. Průměrná porodní hmotnost v Mostě a Chomutově je stejná.
Robustní odhad Robustní odhady se používají pokud: Výběrový soubor nemá normální rozdělení. Soubor má malý rozsah. V souboru jsou odlehlá měření. Reálná data jsou často špičatá a zešikmená. Výzkum má omezené možnosti sběru dat – laboratorní pokusy, pozorování živé přírody. V datech jsou odlehlé hodnoty, které není možné ze souboru odstranit.
Robustní odhad Bodový odhad střední hodnoty základního souboru lze provádět robustním způsobem pomocí: mediánu, useknutého průměru, modu. Ke každé charakteristice lze dopočítat rozptyl nebo směrodatnou odchylku.
Robustní odhad Intervalový odhad střední hodnoty pro malé soubory (n = 2) kde je pro normální rozdělení Pro 95% interval platí T0,05 = 12,71.
Robustní odhad Intervalový odhad střední hodnoty pro malé soubory (n = 3). Osvědčuje se použít jako bodový odhad průměr ze dvou bližších hodnot, než medián ze všech tří. kde je pro normální rozdělení Pro 95% interval platí T‘0,05 = 4,3.
Robustní odhad Bodový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20). Jako bodový odhad střední hodnoty se používá pivotová polosuma PL = 0,5·(xD + xH). Hodnoty dolního pivotu xD a horního pivotu xH jsou vybrané kvantily jejichž indexy H a D jsou určeny dle toho, které I bude celé číslo . Dolní pivot je I-procentní kvantil xD = xI , horní pivot je (n+1-I) procentní kvantil xH = xn+1-H .
Robustní odhad Intervalový odhad střední hodnoty pro malé soubory (4 ≤ n ≤ 20). Výpočet je založen na pivotové polosumě PL Kvantily TL rozdělení tL,1-α/2 jsou uvedeny v samostatné tabulce a RL je odhad rozptylu, tzv. pivotové rozpětí RL = xH - xD.
Robustní odhad
Statistická Indukce Důležité pojmy – 4. přednáška Populace a výběr Náhodný výběr Bodový odhad Intervalový odhad Hladina spolehlivosti Oboustranný interval spolehlivosti Jednostranný interval spolehlivosti Chyba odhadu Robustní odhad