Kapitola 1: Popisná statistika jednoho souboru2 Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání. Je možno rozlišit dvě základní úrovně: Popisnou statistiku, Inferenční statistiku. Popisná statistika zahrnuje metody pro získávání dat, jejich grafickou prezentaci a numerická vyhodnocení Statistická inference (statistická indukce) zahrnuje metody pro odvozování závěrů o celé populaci na základě dostupných náhodných výběrů. Základním matematickým nástrojem je teorie pravděpodobnosti.
Co jsou data ve statistice? Systematicky shromažďované informace, zpravidla (ale ne nutně) číselné povahy. Pro jejich analýzu je nutná znalost celkového kontextu (co, proč, kdy a jak bylo měřeno, v případě číselných dat v jakých jednotkách...). Ve stavebnictví se nejčastěji setkáváme se soubory číselných dat. Při grafické prezentaci jednoho datového souboru (tzv. jednorozměrného souboru) se nejčastěji používá Histogram, Krabičkový graf (Boxplot). Kapitola 1: Popisná statistika jednoho souboru3
4
Další příklad použití histogramu: Příklad 1.1, otázka a) na osobní stránce. Konstrukce krabičkového grafu bude vysvětlena později (vyžaduje výpočet některých popisných statistik). Kapitola 1: Popisná statistika jednoho souboru5
6
7
8
9
10
Kapitola 1: Popisná statistika jednoho souboru11
Kapitola 1: Popisná statistika jednoho souboru12
Výsledný krabičkový graf: Kapitola 1: Popisná statistika jednoho souboru13
Vraťme se k předchozím dvěma příkladům, ve kterých jsme analyzovali obsahy nežádoucí příměsi u 16 vzorků stavebního materiálu. Předpokládejme, že hodnota 28 g (která byla v Příkladu 1.3 vyhodnocena jako odlehlé pozorování) byla zjištěna chybně a je proto třeba ji ze souboru vyloučit. a)Vypočtěme pro nový soubor 15 údajů základní statistiky, b)zkonstruujme krabičkový graf, c)porovnejme oba soubory pomocí zjištěných výsledků. Řešení je na osobní stránce. Kapitola 1: Popisná statistika jednoho souboru14
„Normální“ rozdělení dat: Histogram lze velmi dobře proložit Gaussovou křivkou (bude zavedena v kapitole 5), je téměř symetrický. Medián je téměř přesně roven výběrovému průměru. Boxplot je téměř perfektně symetrický, zpravidla neobsahuje odlehlé pozorování. Koeficienty šikmosti i špičatosti jsou blízké k nule. Kapitola 1: Popisná statistika jednoho souboru15
Příklady: Viz histogram pevnosti betonu v tlaku na str. 4. Viz Boxplot k Příkladu 1.4 (obsah nežádoucí příměsi po vyloučení odlehlého pozorování). Poznámka: Koeficient šikmosti pro data z Příkladu 1.4 je záporný a je roven přibližně Tato hodnota ukazuje mírné zešikmení dat doleva - viz dále. (Výpočet tohoto koeficientu nebude u zkoušky požadován.) Kapitola 1: Popisná statistika jednoho souboru16
Nejčastěji se setkáváme s rozdělením dat, které vykazuje buď kladné nebo záporné zešikmení. Alternativní terminologie: kladná šikmost ~ zešikmení doprava záporná šikmost ~ zešikmení doleva Charakterizace typického kladného zešikmení: Koeficient šikmosti je (výrazně) kladný. Data jsou více koncentrovaná v levé části oboru hodnot, vpravo se zpravidla vyskytují odlehlá pozorování. Křivka prokládající histogram (tj. matematický model pro teoretické rozdělení) má delší „chvost“ orientovaný doprava. Výběrový průměr je výrazně větší než medián. Kapitola 1: Popisná statistika jednoho souboru17
Příklady kladného zešikmení: Viz Příklad 1.2 (obsahy nežádoucí příměsi u 16 vzorků stavebního materiálu) Poznámka: Koeficient šikmosti je pro tato data roven Magnitudy zemětřesení: Kapitola 1: Popisná statistika jednoho souboru18
Příklad krabičkového grafu pro kladně zešikmená data: Kapitola 1: Popisná statistika jednoho souboru19
Charakterizace typického záporného zešikmení: Koeficient šikmosti je (výrazně) záporný. Data jsou více koncentrovaná v pravé části oboru hodnot, vlevo se zpravidla vyskytují odlehlá pozorování. Křivka prokládající histogram (tj. matematický model pro teoretické rozdělení) má delší „chvost“ orientovaný doleva. Výběrový průměr je výrazně menší než medián. Příklady záporného zešikmení: Všechny tři proměnné v Příkladu 1.1 (Excelovský soubor „Příklad 1.1_data a řešení“ - viz histogramy a popisné statistiky těchto proměnných) Kapitola 1: Popisná statistika jednoho souboru20
Příklad krabičkového grafu pro záporně zešikmená data: Bodové hodnocení skupiny 80 studentů ve zkoušce Otázky ke grafu: V jakých mezích se pohybovaly výsledky 20 nejlepších studentů? Pod jakou hodnotou se pohybovaly výsledky 25% nejslabších studentů? Jsou mezi daty odlehlá pozorování? Popište je. Můžeme něco říci o průměrném výsledku? Kapitola 1: Popisná statistika jednoho souboru21
Kapitola 1: Popisná statistika jednoho souboru22
Příklad 1.6 (data z Příkladu 68 skript Prof. Jaruškové) V tenké vrstvě roztoku zlata se registroval počet částic zlata, které se dostaly do zorného pole mikroskopu. Pozorování se prováděla pravidelně vždy po uplynutí stejně dlouhého časového intervalu. Výsledky jsou uvedeny v následující tabulce. Určeme modus, medián a kvartily. Vypočtěme též výběrový průměr a směrodatnou odchylku. Co můžeme říct o rozdělení dat? Kapitola 1: Popisná statistika jednoho souboru23 Počet částic Četnost
Kapitola 1: Popisná statistika jednoho souboru24 Počet částic Četnost Kumulativní četnost
Kapitola 1: Popisná statistika jednoho souboru25
Kapitola 1: Popisná statistika jednoho souboru26
Kapitola 1: Popisná statistika jednoho souboru27