Základy statistiky Základní pojmy
Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako část matematiky - zpracování shromážděných údajů a rozbor výsledků jako vědní obor - metody získávání a vyhodnocování dat Základní pojmy
Základy statistiky Statistické údaje (data) jsou údaje o hromadných jevech (tj. o jevech vyskytujících se a sledovaných ne jednotlivě, ale hromadně) Na základě statistických údajů jsou vyvozovány zákonitosti pro hromadné jevy Př.: demografické údaje o obyvatelstvu (počty, příjmy, zaměstnání,... ), údaje o firmách (objem výroby, vlastnosti výrobků,... ) Základní pojmy
Základy statistiky Statistický soubor je množina všech objektů statistického pozorování (žáci jedné školy, obyvatelé ČR, chemické továrny kraje Vysočina apod.) Počet prvků stat. souboru = rozsah souboru; značí se většinou n. Prvky stat. souboru = stat. jednotky (lidé, výrobky, čas. období aj.) Základní pojmy
Základy statistiky Pro každé statistické zkoumání je potřeba přesně určit věcné, prostorové a časové vymezení statistických jednotek tj. co, kde a kdy budeme zkoumat. Všechny stat. jednotky vyhovující věcnému, prostorovému a časovému vymezení tvoří základní statistický soubor. Statistické zjišťování může být - úplné (zaměřené na všechny stat. jednotky základního souboru) - výběrové (zaměřené pouze na část stat. jednotek – tzv. výběrové soubory) Základní pojmy
Základy statistiky Statistický znak je společná vlastnost prvků statistického souboru (stat. jednotek), jejíž proměnnost se statisticky zkoumá; značí se většinou X. Hodnoty znaku se značí x 1, x 2,..., X n. Př.: demografický průzkum – znaky: věk, zaměstnání, měsíční příjem aj. Statistické znaky dělíme na a) kvantitativní (jejich hodnotu lze vyjádřit číslem) b) kvalitativní (hodnota vyjádřena slovně) Základní pojmy
Základy statistiky Zkoumáme statistický soubor s rozsahem n prvků. Sledujeme statistický znak X, který může nabývat k různých hodnot (většinou je k < n, některé hodnoty se pak opakují). Zjištěné hodnoty pro jednotlivé prvky jsou x 1, x 2,..., x n. Počet prvků se stejnou hodnotou x j znaku X se nazývá absolutní četnost hodnoty x j a značí se n j (j=1,2,…,k).Musí platit Základní pojmy Relativní četnost hodnoty xj (označená pj) je podíl absolutní četnosti této hodnoty nj a rozsahu souboru n, tj. Musí platit Relativní četnost se často vyjadřuje v % (p j.100). Abs. četnost se většinou označuje jen „četnost“.
Základy statistiky Př.: V 10 rodinách byl zjišťován počet dětí mladších 15 let. Byly zjištěny tyto údaje: sledovaný znak X... počet dětí ml. 15 let x j... hodnoty znaku X, zde 4 různé hodnoty: x 1 =0, x 2 =1, x 3 =2, x 4 =3. četnost např. hodnoty x 3 (2 děti) je n 3 =3 relat. četnost této hodnoty je p 3 =0,3 Můžeme zpracovat tzv. „tabulku rozdělení četností“ Rodina 1Rodina 2Rodina 3Rodina 4Rodina 5Rodina 6Rodina 7Rodina 8Rodina 9Rodina Základní pojmy
Základy statistiky Tabulka rozdělení četností : (poslední řádek je kontrolní) jxjxj njnj pjpj P j (v%) 1020, , , , Základní pojmy
Základy statistiky V praxi je často rozsah stat. souboru velký a také počet zjištěných hodnot sledovaného znaku je velký. Proto se blízké hodnoty znaku slučují do skupin – intervalů. Hodnoty znaku z jednoho intervalu pak reprezentuje jedna hodnota – střed intervalu – tzv. třídní znak. K určení vhodného počtu intervalů (označ. k) se užívá různých metod, nejčastější je tzv. Sturgesovo pravidlo: Základní pojmy ( n je rozsah statistického souboru) Sledujeme pak četnosti výskytu třídního znaku a mluvíme o tzv. intervalovém rozdělení četností.
Základy statistiky Př.: Základní pojmy
Základy statistiky Rozdělení četností lze znázornit do grafu. Nejpoužívanější způsob: - osa x – hodnoty x j stat. znaku popř. skupinového znaku (nebo šířka intervalu) - osa y – četnost a) Polygon četnosti – spojnicový graf, body [x j ;n j ] b) Histogram četnosti – sloupcový graf, hlavně pro intervalové rozdělení četností c) 3D grafy Základní pojmy
Základy statistiky Základní pojmy
Základy statistiky Statistické charakteristiky Čísla, která popisují, jak se daný statistický znak mění v závislosti na vlastnostech statistického souboru, se nazývají statistické charakteristiky. Slouží zejména ke srovnávání různých statistických souborů. Př. Sledovaný stat. znak – příjmy různé stat. soubory – různé kraje, období soc. skupiny apod. A) charakteristiky polohy (velikosti, úrovně) jsou číselné hodnoty, „střední hodnoty“ sledovaného statistického znaku. B) charakteristiky variability (proměnnosti) jsou čísla určující, jak se hodnoty znaků liší od charakteristiky polohy (např. od aritmetického průměru), popř. mezi sebou. Čím větší je variabilita, tím méně přesná je char. polohy.
Základy statistiky 1) aritmetický průměr hodnot znaku X – ozn. prostý resp. tzv. vážený aritmetický průměr (přes četnosti) Při nahrazení hodnot znaku hodnotou u všech prvků souboru se „úhrn“ (tedy součet hodnot) nezmění. Aritmetický průměr se nepoužívá při nerovnoměrném rozložení hodnot znaku kolem jeho hodnoty, při extrémně nízkých nebo vysokých hodnotách znaku nebo jestliže součet hodnot nebo hodnota aritmetického průměru nedává věcný smysl. Charakteristiky polohy
Základy statistiky 2) harmonický průměr hodnot znaku X – ozn. resp. vážený harmonický průměr Všechny hodnoty znaku x j musí být nenulové. Při nahrazení hodnot znaku hodnotou u všech prvků souboru se součet převrácených hodnot nezmění. Charakteristiky polohy
Základy statistiky 3) geometrický průměr hodnot znaku X – ozn. Geometrický průměr nahrazuje hodnoty znaku tak, že se nemění jejich součin. Charakteristiky polohy
Základy statistiky 4) modus - nejčetnější hodnota stat. znaku v souboru (hodnota aritmetického průměru by se neměla moc lišit od hodnoty modusu) 5) medián - prostřední hodnota stat. znaku v souboru, jestliže jsou hodnoty uspořádány podle velikosti (při lichém n je jednoznačně určen, při sudém n je aritmetickým průměrem dvou prostředních hodnot) Charakteristiky variability
Základy statistiky 1) variační rozpětí - rozdíl největší a nejmenší hodnoty znaku v souboru; značí se R 2) odchylka hodnoty znaku od střední hodnoty (nejčastěji od aritmetického průměru) 3) průměrná odchylka - aritmetický průměr všech odchylek Charakteristiky variability
Základy statistiky 4) rozptyl - ozn. s x 2 - průměrná čtvercová odchylka od aritmetického průměru (aritmetický průměr druhých mocnin odchylek od aritmetického průměru znaku) - nepoužívanější charakteristika variability 5) směrodatná odchylka – ozn.s x 6) Jako relativní míra variability se nejčastěji používá - variační koeficient Charakteristiky variability
Základy statistiky - znak X nabývá hodnot x 1, x 2,..., x n - znak Y nabývá hodnot y 1, y 2,..., y n Koeficient korelace (korelační koeficient) znaků X, Y – značí se r Vždy je, čím je blíže k 1, tím je závislost znaků větší. (pro r=1 : roste hodnota znaku X roste hodnota znaku Y Pro r=-1 : roste hodnota znaku X klesá hodnota znaku Y ) Závislost dvou statistických znaků
Základy statistiky minimální naměřená hodnota maximální naměřená hodnota pravděpodobnost maximální pravděpodobnost – četnost výskytu Gaussova křivka rozdělení četností x i - i-tá naměřená hodnota
Základy statistiky Zdroje: Použitá literatura: Doc. RNDr. Josef Polák, CSc. - Přehled středoškolské matematiky (Prometheus) RNDr. Oldřich Petránek, RNDr. Emil Calda, CSs., Ing. Petr Hebák - Matematika pro SOŠ a studijní obory SOU 4. (Prometheus)