Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Úvod do pravděpodobnosti a statistiky
(UVMATST)
2
Úloha statistiky „Statistika je věda, která se zabývá kvantitativní stránkou hromadných jevů.“ V současnosti jsme zahlceni množstvím informací, které jsou často v číselné podobě. Snaha vyznat se v tom množství údajů nás vede k tomu, abychom je nahradili pouze několika čísly a přitom uchovali (a dokonce i odhalili) ty informace, jež byly v původních číslech ukryty.
3
Příklad 1: Věk nezaměstnaných mužů starších 49 let (výběr z CPS-Current Population Survey, USA 1989)
Tato data na první pohled neříkají nic. Obsahují nepřehledné množství údajů. Je potřeba použít některých statistických metod, abychom tato čísla nahradili pouze několika, přitom však neztratili některé cenné informace v nich obsažené.
4
Cíl kurzu Cílem tohoto kurzu bude představit základní metody, jež se uplatňují při statistickém zpracování dat a upozornit na jejich případná úskalí.
5
Základní pojmy statistické jednotky – jsou předmětem našeho zkoumání (osoby, předměty, výrobky,…) statistický soubor – tvoří jej statistické jednotky rozsah souboru – počet statistických jednotek ve statistickém souboru Vždy nutné jasně vymezit, které prvky do statistického souboru patří a které nikoliv!
6
Základní pojmy statistický znak – určitá vlastnost statistické jednotky, která nás při statistickém šetření zajímá. Stat. znak musí být zjistitelný u každé jednotky ze statistického souboru! Příklady stat. znaků pro osoby: věk, pohlaví, tělesná výška, výše platu, vzdělání, barva očí, …
7
Základní dělení statistických znaků
kvantitativní (číselný) znak – hodnota znaku má podobu čísla (věk, tělesná výška, výše platu, …) kvalitativní (slovní) znak – hodnota znaku se vyjadřuje slovně (pohlaví, vzdělání, barva očí, …)
8
Další dělení statistických znaků
nominální (názvový) znak – jeho hodnoty není možné (nemá smysl) seřadit (pohlaví, barva očí, …) ordinální (pořadový) znak – jeho hodnoty je možné seřadit (věk, tělesná výška, výše platu, ale i vzdělání, …) Je jasné, že každý číselný znak je pořadový, existují však slovní znaky, které mohou být pořadové (například různé škály typu: nesouhlasím, částečně nesouhlasím, neutrální postoj, částečně souhlasím, souhlasím, apod.)
9
Četnosti četnost – ke každé obměně (hodnotě) statistického znaku je možné uvést kolikrát se ve statistickém souboru vyskytla rozdělení četností – vznikne tehdy, pokud pro každou z hodnot určitého statistického znaku uvedu její četnost
10
Rozdělení četností statistický znak hodnoty statistického znaku
počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností 10 15 23 28 četnosti
11
Grafické znázornění četností
histogram (sloupcový diagram) polygon četností
12
Intervalové rozdělení četností
Počet kilometrů bez nehod 1 - 50 500 - Počet řidičů 5 12 48 10 Jaký počet intervalů je optimální? příliš mnoho – informace je „roztřištěná“ příliš málo – informace se ztrácí
13
Histogramy pro věk nezaměstnaných mužů (CPS – 1989)
14
Optimální počet intervalů
Sturgesovo pravidlo: k = 1 + 3,3 · log n, kde k je počet intervalů a n je rozsah souboru. V našem případě je n = 500 (výběr CPS představovalo 500 nezaměstnaných mužů), k = 1 + 3,3 · log 500 = 9,9, tj. podle Sturgesova pravidla je optimální počet intervalů 10.
15
Absolutní a relativní četnosti
absolutní četnost – četnost tak, jak jsme o ni doposud mluvili se nazývá někdy absolutní relativní četnost – absolutní četnost vztáhnutá na rozsah souboru
16
Absolutní a relativní četnosti
počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností (absolutní četnost) 10 15 23 28 relativní četnost 0,109 0,163 0,25 … relativní četnost (v %) 10,9 16,3 25
17
Statistické charakteristiky úrovně
Skupinu dat se budeme snažit nahradit jedinou hodnou, která by měla vyjadřovat typickou hodnotu oné skupiny. aritmetický průměr modus medián
18
Aritmetický průměr Zavedeme označení:
x – statistický znak, n – rozsah souboru, x1 … xn – hodnoty statistického znaku u prvního až n-tého prvku statistického souboru. Aritmetický průměr se určí podle vzorce
19
Vážený aritmetický průměr
Upravíme a doplníme značení: x1 … xk – různé hodnoty (možné obměny) statistického znaku n1 … nk – četnosti těchto obměn Vážený aritmetický průměr se určí podle vzorce
20
Modus je hodnota statistického znaku s největší četností (nejčastěji se vyskytující hodnotu statistického znaku v souboru). značí se
21
Medián je prostřední hodnota statistického znaku, jsou-li všechny hodnoty x1 … xn uspořádány podle velikosti značí se
22
Medián Příklad 1: Jsou dány hodnoty 2, 8, 7, 5, 6, 5, 3. Po seřazení máme 2, 3, 5, 5, 6, 7, 8, vidíme, že uprostřed leží číslo 5. Medián je 5. Příklad 2: Jsou dány hodnoty 11, 18, 13, 12, 19, 15, 12, 21. Po seřazení máme 11, 12, 12, 13,| 15, 18, 19, 21, vidíme, že přímo uprostřed neleží žádná hodnota, ale nejblíže jsou dvě hodnoty 13 a 15. Medián pak definujeme jako jejich aritmetický průměr ( ) : 2 = 14.
23
Určení mediánu z tabulky četností
Označíme-li n rozsah souboru a z pořadové číslo mediánu, platí jednoduchý vztah: Příklady: pro n = 7 je po dosazení: 3,5 z 4,5, z toho plyne, že z = 4 a tedy medián je 4. hodnota v pořadí mezi 7 hodnotami. pro n = 8 je po dosazení: 4 z 5, z toho plyne, že z = 4 nebo z = 5, medián je průměrem ze 4. a 5. hodnoty v pořadí mezi 8 hodnotami.
24
Některé vlastnosti statistických charakteristik úrovně
Příklad: V tabulce jsou uvedeny platy ve skupině 25 osob. Příjem (v tisících Kč) 13 18 20 25 40 60 100 četnost 12 1 5 3 2 kumulativní četnost 21 23 24 aritmetický průměr je Kč medián je Kč modus je Kč
25
Některé vlastnosti statistických charakteristik úrovně
aritmetický průměr nemusí se vyskytovat mezi hodnotami má na něj vliv extrémní hodnota (zvláště při malém rozsahu souboru), pokud se plat 100 000 Kč sníží na 60 000 Kč i průměr podstatně klesne na 21 960 Kč zakrývá existenci extrémů – je někdy zbytečně vysoký nebo nízký podprůměrný plat má 18 osob, tj. nemusí ležet přibližně uprostřed aritmetický průměr se proto vždy má doplnit údajem o variabilitě (viz dále), případně mediánem
26
Některé vlastnosti statistických charakteristik úrovně
medián většinou se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota (sníží-li se plat 100 tisíc na 60 tisíc medián se nezmění), protože je to prostřední hodnota, „je mu jedno, co se děje na kraji“ jeho hodnota je spjata s jedinou hodnotou ze stat. souboru, takže kdyby náš člověk s Kč dostal jen Kč, stále by to byl medián medián je velice vhodný do situací, kdy pracujeme s veličinami porovnatelnými, ale těžko se nalézá stupnice pro jejich rigorózní změření (např. ohodnocení statečnosti, adaptability, úrovně znalostí)
27
Některé vlastnosti statistických charakteristik úrovně
modus vždy se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota
28
Kdy je lze použít? aritmetický průměr – pouze pro číselné znaky, nelze pro slovní medián – pouze pro pořadové znaky (ty mohou být i číselné i slovní), nelze pro názvové modus – použitelný je vždy, i pro slovní, i pro číselné.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.