Úvod do pravděpodobnosti a statistiky (UVMATST)
Úloha statistiky „Statistika je věda, která se zabývá kvantitativní stránkou hromadných jevů.“ V současnosti jsme zahlceni množstvím informací, které jsou často v číselné podobě. Snaha vyznat se v tom množství údajů nás vede k tomu, abychom je nahradili pouze několika čísly a přitom uchovali (a dokonce i odhalili) ty informace, jež byly v původních číslech ukryty.
Příklad 1: Věk nezaměstnaných mužů starších 49 let (výběr z CPS-Current Population Survey, USA 1989) 67 53 62 66 53 64 51 63 62 60 66 60 61 56 55 54 55 61 64 63 64 56 63 57 68 67 61 64 66 63 65 61 64 64 64 66 61 64 63 67 60 68 53 68 68 52 62 60 67 57 60 68 63 54 67 61 68 61 68 61 67 61 62 52 61 61 66 61 67 62 65 66 49 66 56 61 62 67 68 56 61 68 61 67 63 60 65 66 60 67 64 56 68 58 63 68 61 68 59 56 68 66 61 58 50 67 55 62 68 60 66 62 68 60 49 63 68 68 52 51 59 65 67 63 63 66 67 57 58 65 66 63 57 67 66 59 67 61 60 63 58 61 53 67 66 65 61 64 61 66 62 60 50 57 60 68 68 65 68 65 65 62 67 68 67 68 60 66 67 62 62 65 55 57 65 64 64 64 57 59 56 68 59 67 54 58 65 57 61 66 52 68 63 54 68 57 68 68 57 64 68 63 67 62 64 67 63 65 61 65 58 58 68 55 63 57 67 62 62 67 58 51 53 60 59 63 58 68 49 65 55 64 58 61 49 62 62 63 58 59 67 54 68 67 64 58 65 66 64 67 60 54 67 68 66 66 53 65 66 55 65 57 57 63 66 62 68 60 62 53 63 68 62 68 65 59 64 65 54 49 64 60 68 61 68 57 65 55 58 68 62 62 60 68 60 62 62 64 65 58 67 51 64 67 66 62 49 63 68 57 62 66 64 61 68 54 65 60 68 54 66 68 66 61 60 63 65 67 66 68 67 55 55 59 60 62 64 65 66 68 64 67 65 49 51 57 65 65 66 65 64 64 62 56 59 62 63 61 66 64 63 67 62 57 58 68 51 64 64 67 66 54 65 49 64 67 67 67 68 68 60 60 68 65 66 59 65 60 62 65 67 62 65 56 58 68 66 63 62 62 53 66 67 62 58 62 68 65 63 66 63 65 65 65 65 57 59 61 66 63 66 64 57 59 64 64 65 67 65 55 49 63 66 68 66 60 64 62 59 63 64 67 50 60 64 58 65 64 59 64 67 62 60 65 67 61 65 64 67 58 65 66 65 67 56 65 67 58 62 63 67 51 65 67 68 68 61 62 68 65 57 67 67 65 64 58 50 68 63 68 60 67 66 49 61 61 64 68 61 66 Tato data na první pohled neříkají nic. Obsahují nepřehledné množství údajů. Je potřeba použít některých statistických metod, abychom tato čísla nahradili pouze několika, přitom však neztratili některé cenné informace v nich obsažené.
Cíl kurzu Cílem tohoto kurzu bude představit základní metody, jež se uplatňují při statistickém zpracování dat a upozornit na jejich případná úskalí.
Základní pojmy statistické jednotky – jsou předmětem našeho zkoumání (osoby, předměty, výrobky,…) statistický soubor – tvoří jej statistické jednotky rozsah souboru – počet statistických jednotek ve statistickém souboru Vždy nutné jasně vymezit, které prvky do statistického souboru patří a které nikoliv!
Základní pojmy statistický znak – určitá vlastnost statistické jednotky, která nás při statistickém šetření zajímá. Stat. znak musí být zjistitelný u každé jednotky ze statistického souboru! Příklady stat. znaků pro osoby: věk, pohlaví, tělesná výška, výše platu, vzdělání, barva očí, …
Základní dělení statistických znaků kvantitativní (číselný) znak – hodnota znaku má podobu čísla (věk, tělesná výška, výše platu, …) kvalitativní (slovní) znak – hodnota znaku se vyjadřuje slovně (pohlaví, vzdělání, barva očí, …)
Další dělení statistických znaků nominální (názvový) znak – jeho hodnoty není možné (nemá smysl) seřadit (pohlaví, barva očí, …) ordinální (pořadový) znak – jeho hodnoty je možné seřadit (věk, tělesná výška, výše platu, ale i vzdělání, …) Je jasné, že každý číselný znak je pořadový, existují však slovní znaky, které mohou být pořadové (například různé škály typu: nesouhlasím, částečně nesouhlasím, neutrální postoj, částečně souhlasím, souhlasím, apod.)
Četnosti četnost – ke každé obměně (hodnotě) statistického znaku je možné uvést kolikrát se ve statistickém souboru vyskytla rozdělení četností – vznikne tehdy, pokud pro každou z hodnot určitého statistického znaku uvedu její četnost
Rozdělení četností statistický znak hodnoty statistického znaku počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností 10 15 23 28 četnosti
Grafické znázornění četností histogram (sloupcový diagram) polygon četností
Intervalové rozdělení četností Počet kilometrů bez nehod 1 - 50 50 - 200 200 - 500 500 - Počet řidičů 5 12 48 10 Jaký počet intervalů je optimální? příliš mnoho – informace je „roztřištěná“ příliš málo – informace se ztrácí
Histogramy pro věk nezaměstnaných mužů (CPS – 1989)
Optimální počet intervalů Sturgesovo pravidlo: k = 1 + 3,3 · log n, kde k je počet intervalů a n je rozsah souboru. V našem případě je n = 500 (výběr CPS představovalo 500 nezaměstnaných mužů), k = 1 + 3,3 · log 500 = 9,9, tj. podle Sturgesova pravidla je optimální počet intervalů 10.
Absolutní a relativní četnosti absolutní četnost – četnost tak, jak jsme o ni doposud mluvili se nazývá někdy absolutní relativní četnost – absolutní četnost vztáhnutá na rozsah souboru
Absolutní a relativní četnosti počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností (absolutní četnost) 10 15 23 28 relativní četnost 0,109 0,163 0,25 … relativní četnost (v %) 10,9 16,3 25
Statistické charakteristiky úrovně Skupinu dat se budeme snažit nahradit jedinou hodnou, která by měla vyjadřovat typickou hodnotu oné skupiny. aritmetický průměr modus medián
Aritmetický průměr Zavedeme označení: x – statistický znak, n – rozsah souboru, x1 … xn – hodnoty statistického znaku u prvního až n-tého prvku statistického souboru. Aritmetický průměr se určí podle vzorce
Vážený aritmetický průměr Upravíme a doplníme značení: x1 … xk – různé hodnoty (možné obměny) statistického znaku n1 … nk – četnosti těchto obměn Vážený aritmetický průměr se určí podle vzorce
Modus je hodnota statistického znaku s největší četností (nejčastěji se vyskytující hodnotu statistického znaku v souboru). značí se
Medián je prostřední hodnota statistického znaku, jsou-li všechny hodnoty x1 … xn uspořádány podle velikosti značí se
Medián Příklad 1: Jsou dány hodnoty 2, 8, 7, 5, 6, 5, 3. Po seřazení máme 2, 3, 5, 5, 6, 7, 8, vidíme, že uprostřed leží číslo 5. Medián je 5. Příklad 2: Jsou dány hodnoty 11, 18, 13, 12, 19, 15, 12, 21. Po seřazení máme 11, 12, 12, 13,| 15, 18, 19, 21, vidíme, že přímo uprostřed neleží žádná hodnota, ale nejblíže jsou dvě hodnoty 13 a 15. Medián pak definujeme jako jejich aritmetický průměr (13 + 15) : 2 = 14.
Určení mediánu z tabulky četností Označíme-li n rozsah souboru a z pořadové číslo mediánu, platí jednoduchý vztah: Příklady: pro n = 7 je po dosazení: 3,5 z 4,5, z toho plyne, že z = 4 a tedy medián je 4. hodnota v pořadí mezi 7 hodnotami. pro n = 8 je po dosazení: 4 z 5, z toho plyne, že z = 4 nebo z = 5, medián je průměrem ze 4. a 5. hodnoty v pořadí mezi 8 hodnotami.
Některé vlastnosti statistických charakteristik úrovně Příklad: V tabulce jsou uvedeny platy ve skupině 25 osob. Příjem (v tisících Kč) 13 18 20 25 40 60 100 četnost 12 1 5 3 2 kumulativní četnost 21 23 24 aritmetický průměr je 23 560 Kč medián je 18 000 Kč modus je 13 000 Kč
Některé vlastnosti statistických charakteristik úrovně aritmetický průměr nemusí se vyskytovat mezi hodnotami má na něj vliv extrémní hodnota (zvláště při malém rozsahu souboru), pokud se plat 100 000 Kč sníží na 60 000 Kč i průměr podstatně klesne na 21 960 Kč zakrývá existenci extrémů – je někdy zbytečně vysoký nebo nízký podprůměrný plat má 18 osob, tj. nemusí ležet přibližně uprostřed aritmetický průměr se proto vždy má doplnit údajem o variabilitě (viz dále), případně mediánem
Některé vlastnosti statistických charakteristik úrovně medián většinou se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota (sníží-li se plat 100 tisíc na 60 tisíc medián se nezmění), protože je to prostřední hodnota, „je mu jedno, co se děje na kraji“ jeho hodnota je spjata s jedinou hodnotou ze stat. souboru, takže kdyby náš člověk s 18 000 Kč dostal jen 15 000 Kč, stále by to byl medián medián je velice vhodný do situací, kdy pracujeme s veličinami porovnatelnými, ale těžko se nalézá stupnice pro jejich rigorózní změření (např. ohodnocení statečnosti, adaptability, úrovně znalostí)
Některé vlastnosti statistických charakteristik úrovně modus vždy se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota
Kdy je lze použít? aritmetický průměr – pouze pro číselné znaky, nelze pro slovní medián – pouze pro pořadové znaky (ty mohou být i číselné i slovní), nelze pro názvové modus – použitelný je vždy, i pro slovní, i pro číselné.