Matematická statistika I. Jestliže má jednotlivec rád čísla, pokládá se to za neurozu. Celá společnost se ale sklání před statistickými čísly. Alfred Paul Schmidt Statistika je jako naivní stará dáma. Podle toho, jak se jí otážeme, tak odpoví. Helmut Müller
Japonci jedí velmi málo tuků a mají mnohem méně infarktů než Britové a Američani. Na druhé straně Francouzi jedí mnoho tuků a také mají mnohem méně infarktů než Britové a Američani. Japonci velmi málo červeného vína a a mají mnohem méně infarktů než Britové a Američani. Italové pijí mnoho červeného vína a také mají mnohem méně infarktů než Britové a Američani. Závěr: Jezte a pijte co chcete, zabíjí Vás angličtina. Pokrok vědy vedl k tomu, že bylo možno podávat látku v pilulkách. Filozofii objedná si student a obdrží hezkou modrou pilulku. Literaturu objedná si druhý a dostane roztomilou růžovou pilulku. Statistiku objedná si další a farmaceut přikutálí obrovskou hnědou piluli. Co to má znamenat? ptá se student. Víte, statistika byla vždycky trochu těžší k zažití, odvětí prodavač.
Ing. Pavla Hošková, Ph.D. Katedra statistiky PEF 3. patro, dveře č. 419 tel.: 224 382 392 e-mail: hoskova@pef.czu.cz konzultační hodiny: úterý 11 – 13 hod.
Předmět MS I. je zakončen zápočtem. Podmínky pro udělení zápočtu: řádná účast na cvičení (s tolerancí 3 absencí) 2 kontrolní testy Pro udělení zápočtu je potřeba z každého testu získat alespoň 60 % bodů (60 % u prvého testu a 60 % u druhého testu). Hodnocení se započítává 1/3 do známky předmětu MS II., který je zařazen do ZS III. ročníku a je ukončen zkouškou. Testy nelze psát opakovaně (tzn. opravit si hodnocení).
Pokud se někdo nebude schopen z vážných důvodů dostavit na test v daném termínu (delší nemoc apod.), může si napsat test v náhradním termínu po individuální domluvě (nejpozději do zápočtového týdne). V případě, že student nezíská potřebný počet bodů, má možnost si test v termínu, který bude dopředu vyhlášen, opravit a to ve dvou možných termínech. Pokud ani poté student nezíská potřebný počet bodů, nebude mu zápočet z daného předmětu přiznán (zapsán). Důležitou pomůckou pro práci na cvičeních je kalkulačka – bez kalkulačky je student na cvičení zbytečný, protože opisovat umí každý!!!!!!!
Doporučená literatura Práce na cvičeních: Prášilová, Svatošová: Cvičení ze statistiky. PEF ČZU Literatura pro přednášky: Kába, Svatošová: Matematická statistika I. PEF ČZU Kába, Svatošová, Prášilová: Zdroje a zpracování sociálních a ekonomických dat (učební texty). PEF ČZU Hindls, Hronová, Seger: Statistika pro ekonomy. Professional Publishing Hendl: Přehled statistických metod zpracování dat. Portál a další statistická literatura
Stručný obsah předmětu Základní statistické pojmy, výpočet statistických charakteristik Metody statistické indukce – podstata náhodného výběru, teorie odhadu, testování statistických hypotéz Regresní a korelační analýza
Základní statistické pojmy
Co je statistika? číselné údaje o hromadných jevech (jevy vyskytující se u velkého množství prvků) praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů teoretická disciplina zabývající se metodami sloužícími k popisu odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy
Statistická jednotka – elementární jednotka statistického pozorování (např. rostliny, zvířata, osoby, věci, události) Statistický znak – vlastnost statistických jednotek Statistický soubor – množina všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky jednorozměrné – jeden statistický znak dvourozměrné – dva statistické znaky u každé jednotky vícerozměrné – více jak dva statistické znaky
Základní soubor – soubor všech jednotek se sledovaným znakem Cenzus – metoda sběru dat, v níž se do zkoumání zahrnují všechny jednotky populace (např. sčítání lidu, v zemědělství) Výběrový soubor – ze základního souboru se určitým způsobem vyberou pouze některé jednotky Rozsah souboru – počet statistických jednotek, obsažených v daném souboru
Statistické znaky kvantitativní kvalitativní měřitelné pořadové alternativní množné nespojité spojité
Statistická práce – 3 etapy etapa statistického zjišťování (šetření) etapa statistického zpracování zjištěných údajů (dat) etapa statistického vyhodnocování (analýzy) Statistické zjišťování - získávání statistických údajů Je nutno stanovit: cíl zjišťování, kdo, kdy a jakým způsobem bude zjišťování provádět,
rozhodnou dobu nebo rozhodný okamžik, dobu zjišťování (lhůta, v níž musí být zjišťování provedeno), rozsah zjišťování (zjišťování vyčerpávající či výběrové). Vyčerpávající (úplné) – prověří se všechny jednotky v souboru (soupis hospodářského zvířectva, sčítání lidu, agrocenzus apod.). Výběrové (neúplné, dílčí) – zjišťování nejsou podrobeny všechny statistické jednotky, ale pouze určitá část celého souboru, sledují se pouze vybrané statistické znaky.
Způsoby zjišťování statistických údajů přímé pozorování (vážení, měření, sčítání apod.) dotaz – metoda expediční (sčítací komisaři) – metoda korespondenční výkaznictví – předem navržený a schválený formulář – státní, rezortní, podnikové (základní zdroj informací o stavu NH na různých úrovních)
zvláštní statistické šetření – v případech, že některé jevy, které zjišťujeme, nejsou evidovány nebo že občas je nutno zjistit stav přímým měřením, sečtením nebo zhodnocením - soupisy (cenzy) – sepisuje se stav, který je zjištěn přímo na místě - znalecký odhad - anketa - výběrová šetření apod.
Statistické zpracování tabelování, třídění, výpočet statistických charakteristik, grafické znázorňování výsledků, odhady, testování apod. Nutno provádět kontrolu vstupních dat a to z hlediska formálního – přezkoušení správnosti početních úkonů logického – zda hodnoty jsou reálné početního Statistické vyhodnocování – rozbor získaných výsledků, slovní vyhodnocení, formulace závěrů
Elementární zpracování statistických údajů
Cílem analýzy statistických dat je přehledně zpřístupnit data graficky, tabulkově a výpočtem různých statistických charakteristik tak, aby byly dobře patrné jejich statistické vlastnosti a umožnilo se také srovnání různých podskupin dat a kategorií, které jsou předem dány nebo je výzkumník vytváří v průběhu analýzy dat. Před vlastní analýzou je potřeba provést podrobnější kontrolu dat, zvláště se zaměřením na diagnostiku chyb v údajích a to pomocí grafického znázornění. Graf může prozradit např. špatně zapsané nebo naměřené údaje, pomáhá odhalit přítomnost odlehlých hodnot, které mohou zcela zkreslit výsledky další analýzy.
Statistické grafy spojnicové (polygon četností) – prosté rozdělení četností sloupcové (histogram) – intervalové rozdělení četností bodové výsečové – pro relativní četnosti krabicové (boxplot) grafy STEM-and-Leaf (lodyha s listy)
Při popisu a analýze toho, co graf zobrazujeme, si všímáme nejdříve základní konfigurace a pak deviací od tohoto vztahu. Hodnotíme: zhuštění – kde se nalézá místo nebo místa nejvyšší četnosti hodnot, shluky – existuje jeden nebo více shluků dat v grafu, mezery – jsou v grafu intervaly nebo oblasti bez hodnot, odlehlé hodnoty – existují v grafu údaje podstatně rozdílné od zbytku dat, tvar rozdělení – lze popsat jednoduše tvar rozdělení dat?
Třídění rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů uspořádání údajů do přehledné formy včetně jejich zhuštění jednostupňové – podle obměn jednoho znaku vícestupňové – podle obměn více znaků najednou
Prosté rozdělení četností nespojité statistické znaky údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek Četnosti lze vyjádřit různým způsobem: absolutní četnost ni – skutečný počet jednotek; udává, kolikrát se která hodnota znaku v souboru vyskytuje; jejich součet je roven rozsahu souboru
relativní četnost fi – pro porovnávání různých rozdělení, nejčastěji se vyjadřuje v % kumulativní četnost – absolutní (Ni), relativní (Fi) podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3
Intervalové rozdělení četností znak spojitý nebo diskrétní s velkým počtem obměn Je nutno řídit se několika pravidly: počet intervalů musí být takový, aby vynikly podstatné a charakteristické rysy souboru stanovení počtu intervalů Sturgesovo pravidlo
délka intervalu – spíše stejná R = variační rozpětí (R = xmax – xmin) - extrémní hodnota – otevřené intervaly Při zařazování jednotlivých hodnot znaku do intervalů musí být jednoznačně určeno, kam kterou jednotku zařadit.
Příklad Máme k dispozici údaje o výdajích (Kč) vybraných domácností. Uvedená data je potřeba setřídit do přehlednější formy. Sice jde o znak diskrétní, ale nabývá velkého počtu obměn. Proto bude vhodné uspořádat daný soubor do intervalového rozdělení četností.
Nejprve určíme počet intervalů. Zde je potřeba zvážit, jaký počet intervalů požadujeme. Vhodnější bude zvolení 6 intervalů. Dále určíme šířku intervalu. Vzhledem k hodnotě, která vychází, je optimální zaokrouhlovat na celá čísla, v tomto případě na hodnotu 2000. Následně je důležité správně určit počátek prvního intervalu (blízko nejmenší hodnoty).
V případě použití Sturgesova pravidla je počet intervalů zhruba stejný.
Příklad Sledujeme věk pojištěnce a stáří auta u 100 klientů pojišťovny. Chceme provést základní analýzu dat.
Věk pojištěnce
Stáří auta
Základní statistické charakteristiky
Rozlišujeme charakteristiky: polohy (úrovně), variability (rozptýlenosti, měnlivosti), šikmosti (asymetrie), špičatosti. Charakteristiky polohy (střední hodnoty) průměry – počítají se ze všech hodnot souboru, ostatní střední hodnoty – jsou založeny pouze na některých vybraných hodnotách souboru.
Mohou být vyjádřeny ve formě: prosté – není provedeno třídění, vážené – bylo provedeno třídění. Průměr aritmetický – nejčastější geometrický – časové řady, indexní analýza harmonický – indexní analýza chronologický – časové řady
Prostý aritmetický průměr Vážený aritmetický průměr
Vlastnosti aritmetického průměru Součet jednotlivých odchylek od průměru je nulový. Aritmetický průměr konstanty je opěr roven konstantě. Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. Násobíme-li jednotlivé hodnoty konstantou, je touto konstantou násoben i průměr. Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.
Je-li statistický soubor rozdělen do dílčích podsouborů, v nichž známe dílčí průměry a počty pozorování n1, n2, …, nk, pak průměr celkového souboru je váženým aritmetickým průměrem těchto dílčích průměrů, kde vahami jsou četnosti těchto podsouborů. Platí tedy
Příklad Zajímá nás průměrný věk pojištěných aut. Vzhledem k provedenému třídění (prosté rozdělení četností) je nutno použít vážené formy aritmetického průměru.
Průměrný věk auta je 3,99 roku, tzn. zhruba 4 roky.
Výpočet aritmetického průměru z intervalového rozdělení četností - vždy se použije vzorec pro váženou formu, je potřeba zastoupit interval jednou hodnotou, je-li interval uzavřený, potom se předpokládá, že průměr v každém intervalu je roven jeho středu a jednotlivé intervaly nahrazujeme jejich středy, dopouštíme se však chyby, jejíž maximum je rovno polovině délky intervalu, pokud interval není uzavřen (dolní nebo horní), pak v takovém případě se interval považuje za stejně široký jako bezprostředně následující (předcházející) interval.
Příklad Zajímá nás průměrná výše měsíčních výdajů sledovaných domácností.
Určení středu intervalu Je možné určit jako průměr dolní a horní meze v rámci jednoho intervalu nebo v případě stejně širokých intervalů jako průměr dvou po sobě jdoucích mezí. Univerzální způsob Použitelné pouze tehdy, jestliže všechny intervaly mají stejnou šířku.
Harmonický průměr Geometrický průměr
Ostatní střední hodnoty Medián prostřední hodnota řady pozorování, uspořádané podle velikosti rozsah souboru je vyjádřen lichým číslem – mediánem bude hodnota s pořadovým číslem rozsah souboru je vyjádřen sudým číslem – mediánem je průměr dvou prostředních hodnot je málo citlivý k odlehlým hodnotám Modus - nejčetnější hodnota znaku
Aritmetický průměr se má používat: jestliže data jsou získána minimálně v intervalovém měřítku (tzn. průměr neužíváme pro údaje kategoriální), jestliže je rozdělení symetrické, jestliže chceme použít statistické testy. Medián se má použít: jestliže data jsou získána minimálně v ordinálním měřítku (pořadové znaky), jestliže chceme znát střed rozdělení dat, jestliže data mohou obsahovat odlehlé hodnoty, jestliže rozdělení dat je silně zešikmené.
Modus se má použít: jestliže rozdělení má více vrcholů, jestliže chceme získat o rozdělení jenom základní přehled, jestliže se slovem „průměrně“ míní nejčastější hodnota, nalézá uplatnění především u kategoriálních dat. V případě, že data jsou symetricky rozdělená, všechny uvedené charakteristiky jsou přibližně stejné.
Příklad – výsledky zkoušky z TP 2006/2007 Výsledky (známky) jsou následující: 1, 3, 3, 2, 4, 2, 3, 4, 1, 3, …………. Vhodnější je uspořádat výsledky do tabulky prostého rozdělení četností. xi ni fi Ni Fi 1 18 0,0878 2 49 0,2390 67 0,3268 3 72 0,3512 139 0,6780 4 60 0,2927 199 0,9707 neúčast 6 0,0293 205 Celkem X
Průměrná známka z předmětu Forma prostá Forma vážená Modus
Závěry zkoušky se celkem zúčastnilo 199 studentů, 6 studentů, tj. 2,93 % se ke zkoušce nedostavilo, 35,12 % studentů získalo známku dobře, 67 studentů, tj. 32,68 % studentů II. ročníku získalo známku výborně nebo velmi dobře, podle grafu rozdělení četností jde o soubor jednovrcholový s mírnou levostrannou asymetrií a relativně souměrný okolo hlavního vrcholu, průměrná známka z tohoto předmětu 2,87 nejčastější obdrženou známkou byla 3