Statistika Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW: http://most.ujep.cz/~popelka
Popisná Statistika
Statistika – 1. přednáška Základní informace o kurzu Pojmy Zpracování dat
Základní informace Základní literatura a přednášky POPELKA, J., SYNEK, V. Úvod do statistické analýzy dat. Univerzita J. E. Purkyně v Ústí nad Labem, Fakulta životního prostředí, 2009. 200 stran. ISBN 978-80-7414-117-1. E-learningový kurz: Statistika Lokální disk na síti FŽP UJEP - cvičení
Základní informace Doporučená literatura HENDL, J. Přehled statistických metod zpracování dat. Portál, Praha 2006. ISBN 80-7367-123-9. CYHELSKÝ, L., HINDLS, R., KAHOUNOVÁ, J. Elementární statistická analýza. 2. vyd. Management Press, Praha 1999. ISBN 80-7261-003-1. HINDLS, R., HRONOVÁ, S., NOVÁK, I. Metody statistické analýzy pro ekonomy. 2. aktualizované a rozšíř. vyd. Management Press, Praha 2000. ISBN 80-7261-013-9.
Základní pojmy „Statistika je přesný součet nepřesných čísel.“ (Zdeněk Opava) „Statistika je nauka, jak získat informace z numerických dat.“ (Jan Hendl) „Statistika nuda je, má však cenné údaje … “ (Zdeněk Svěrák) „Statistika je jako bikiny. Odhalí téměř vše, ale to nejdůležitější nám zůstane skryto.“ (autor neznámý)
Základní pojmy statistika údaje neboli data o hromadných jevech – ročenky a souhrny, praktická činnost - získávání dat o hromadných jevech, jejich zpracování , vyhodnocování a zveřejňování výsledků, vědecký obor - zkoumání zákonitostí hromadných jevů, souhrn vědeckých metod sběru dat, zpracování a analýzy, statistické výkazy a dotazníky sloužící ke sběru dat o hromadných jevech, slangově i oddělení, organizace a instituce zabývající se sběrem a zpracováním dat, číselné charakteristiky - sloužící k popisu vlastností hromadných jevů.
Základní pojmy hromadný jev Statistika se zabývá jevy, které se vyznačují velkými počty výskytů (hromadností). Hromadný jev (na rozdíl od jednotlivého jevu) se může v prostoru a čase mnohokrát opakovat . Při pozorování hromadného jevu se u každého pozorovaného prvku mohou projevovat jeho individuální vlastnosti a vlastnosti typické pro skupinu prvků S větším počtem pozorování se stírají vlivy jedinečnosti a více se uplatňují vlivy společné – zákonité . Odpovědi určitého počtu respondentů. Každý respondent má svůj názor. Projeví se názor, který ve společnosti převládá.
Základní pojmy statistické jednotky a znaky Sova Počet vajec, počet vylíhlých mláďat, doba hnízdění… Statistická jednotka (předmět sledování) člověk, zvíře, rostlina, předmět, událost, územní celek Kraj počet obyvatel, podíl vysokoškolsky vzdělaných obyvatel, počet průmyslových podniků, podíl domácností vytápěných plynem… Statistický znak (vlastnost jednotky, kterou jsme schopni číselně nebo slovně popsat) Člověk Pohlaví, výška, váha, vzdělání, zaměstnání, barva očí, dopravní prostředek, známka ze statistiky, jméno, věk… Ovzduší Teplota, vlhkost, koncentrace znečišťujících látek… Telefonní hovory Délka volání, doba volání, kdo volal, komu volal, obsah volání…
Základní pojmy statistické soubory Základní soubor (populace) všechny jednotky, které existují v rámci nějakého logického celku Výběrový soubor – vybrané jednotky Výběr je nejčastěji náhodný výběr nebo systematický. Všichni obyvatelé ČR (cca 10 mil.) Všechny sovy v Krušných horách (stovky?) Každá část ovzduší ve městě Most (neurčitelně velký soubor) Všechny kraje ČR (14) Všechny telefonní hovory v síti (miliardy za rok) Reálný svět (?) Náhodně oslovení lidé na ulici (maximálně 3000) Odchycené sovy v hnízdních budkách (do 30 jedinců) Odebrané vzorky ve stanici ČHmÚ (denní odběry) Kraje na severu ČR (4) Telefonní hovory monitorované v termínu 24.-30.9.2012 (tisíce) Laboratorní pokusy (3 pokusy)
Základní pojmy statistické proměnné dichotomické (alternativní) polytomické (množné) Statistické proměnné kvalitativní (slovní, kategoriální) nominální (jmenné) ordinální (pořadové) (číselné, numerické) kvantitativní kardinální (měřitelné) spojité diskrétní (nespojité)
Základní pojmy statistické proměnné Jméno Pohlaví Věk Výška Počet sourozenců Vzdělání Pořadí v závodu …. Jana žena 56 159,32 2 vysokoškolské 5. Olda muž 38 178 základní 2. Káťa 17 161 3 3. Lenča 25 165,5 4 středoškolské s maturitou 1. Milánek 5 110 žádné 4. kvantitativní, kardinální, spojitý kvalitativní , nominální, polytomický kvalitativní , nominální, dichotomický kvantitativní, ordinální kvantitativní, kardinální, diskrétní kvalitativní , nominální, polytomický kvantitativní, kardinální, spojitý
Základní zpracování dat řazení, třídění Příklad: Počet kotlů na pevná paliva v domácnosti: 1 2 0 2 1 5 1 0 0 0 1 0 0 1 0 1 0 1 0 1 2 4 3 2 1 1 0 0 0 0 0 0 0 0 Tabulka prostého třídění Řazení kvantitativní proměnné podle velikosti kvalitativní ordinální podle významu kvalitativní nominální abecedně Třídění zpřehlednění velkého množství dat do tabulek např. uspořádání do tzv. tabulky četností. Grafická prezentace grafy, diagramy. Počet kotlů Četnost 17 1 10 2 4 3 5
Základní zpracování dat třídění Příklad: Soubor koncentrace Pb v ovzduší města Litoměřice má 104 hodnot (104 měření). Tabulky intervalového třídění Prosté třídění kvantitativní diskrétní proměnná Intervalové třídění kvantitativní spojitá proměnná kvantitativní diskrétní proměnná s vysokým počtem obměn Koncentrace Četnost (1,9 – 5,3> 25 (5,3 – 8,7> 26 (8,7 – 12,1> 31 (12,1 – 15,5> 9 (15,5 – 18,9> 6 (18,9 – 22,3> 3 (22,3 – 25,7> 2 (25,7 – 29,1> Koncentrace Četnost (0 – 5> 25 (5 – 10> 24 (10 – 15> 38 (15 – 20> 12 (20 – 25> 3 (25 – 30> 2
Základní zpracování dat třídění Histogram – prosté třídění Histogram – intervalové třídění
Základní zpracování dat tabulka četností 1. Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2. Rozhodneme, zda provedeme prosté nebo intervalové třídění (v závislosti na typu sledované proměnné a počtu obměn). 3. Rozhodneme, kolik bude mít tabulka řádků. 4. Rozhodneme jaké bude rozpětí jednotlivých tříd. 5. Počítáme kolik pozorování patří do každé třídy (čárkovací metoda nebo počítačový program).
Základní zpracování dat tabulka četností Volba vhodného počtu tříd (řádků) v tabulce četností. Prosté třídění: Podle počtu obměn diskrétní proměnné Počet tříd se rovná počtu obměn. Počet kotlů Četnost 17 1 10 2 4 3 5
Základní zpracování dat tabulka četností Volba vhodného počtu tříd (řádků) v tabulce četností Intervalové třídění: Sturgesovo pravidlo počet intervalů ≈ 1 + 3,3·log10 (počet hodnot) Jednoduché (odmocninové) pravidlo počet intervalů ≈ √počet hodnot Subjektivně (např. intervaly po 5µg/m3. Vhodné spíše pro prezentaci dat než stat. analýzy. Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké. Krajní intervaly mohou být širší pokud zahrnují výrazně vysoké nebo nízké hodnoty. Tabulka četností se šesti třídami a subjektivně stanovenými hranicemi intervalů Koncentrace Četnost (0 – 5> 25 (5 – 10> 24 (10 – 15> 38 (15 – 20> 12 (20 – 25> 3 (25 – 30> 2
Základní zpracování dat tabulka četností Třída Koncentrace 1 (0 – 5> 2 (5 – 10> 3 (10 – 15> 4 (15 – 20> 5 (20 – 25> 6 (25 – 30> Subjektivní volba počtu tříd Soubor koncentrace Pb v ovzduší má 104 hodnot . Nejmenší hodnota sledovaného souboru je 2 µg/m3 a největší 29 µg/m3. Tabulka musí zahrnovat všechny hodnoty! Zvolíme rozpětí třídy 5 µg/m3. Toto uspořádání je přehledné a jednoduché. Počet tříd je pak 6 = (30 – 0)/5. Třídy se nesmějí překrývat, proto se aplikují zleva otevřené a zprava uzavřené intervaly . Tabulka je vhodná pro prezentaci hodnot, ne však pro statistické analýzy.
Základní zpracování dat tabulka četností Volba počtu tříd dle statistických pravidel Při použití jednoduchého (odmocninového) pravidla na soubor se 104 hodnotami by byl počet tříd √104 ≈ 10. Tabulka četností s osmi třídami a hranicemi intervalů stanovenými Sturgesovým pravidlem Sturgesovo pravidlo stanovuje následující počet tříd: 1 + 3,3log10 104 ≈ 8. Rozpětí tříd se pak spočítá podle vzorce: (maximální hodnota – minimální hodnota) počet tříd =(29 – 2)/8 = 3,375 ≈ 3,4 µg/m3 Některé statistické analýzy vyžadují aplikaci Sturgesova pravidla. Třída Koncentrace 1 (1,9 – 5,3> 2 (5,3 – 8,7> 3 (8,7 – 12,1> 4 (12,1 – 15,5> 5 (15,5 – 18,9) 6 (18,9 – 22,3> 7 (22,3 – 25,7> 8 (25,7 – 29,1>
Základní zpracování dat tabulka četností Střed třídy (x*) prostřední hodnota mezi horní a dolní mezí třídy Absolutní četnost (ni) počet hodnot v souboru spadající do příslušné třídy Třída Koncentrace Střed intervalu x* Absolutní četnost ni 1 (1,9 – 5,3> 3,6 25 2 (5,3 – 8,7> 7,0 26 3 (8,7 – 12,1> 10,4 31 4 (12,1 – 15,5> 13,8 9 5 (15,5 – 18,9) 17,2 6 (18,9 – 22,3> 20,6 7 (22,3 – 25,7> 24,0 8 (25,7 – 29,1> 27,4 Celkem 104 V 9 sledovaných dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3.
Základní zpracování dat tabulka četností Relativní četnost (pi) relativní počet hodnot (uvádí se i v procentech) v souboru spadající do příslušné třídy Třída Koncentrace Absolutní četnost ni Relativní četnost pi 1 (1,9 – 5,3> 25 0,24 2 (5,3 – 8,7> 26 0,25 3 (8,7 – 12,1> 31 0,29 4 (12,1 – 15,5> 9 0,09 5 (15,5 – 18,9) 6 0,06 (18,9 – 22,3> 0,03 7 (22,3 – 25,7> 0,02 8 (25,7 – 29,1> Celkem 104 1,00 V 9 % sledovaných dnů dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3. Výpočet: Absolutní četnost /celkem = 9/104 = 0,09
Základní zpracování dat tabulka četností Kumulativní absolutní četnost (kni) počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu Třída Koncentrace Absolutní četnost ni Kumulativní absolutní četnost kni 1 (1,9 – 5,3> 25 2 (5,3 – 8,7> 26 51 3 (8,7 – 12,1> 31 82 4 (12,1 – 15,5> 9 91 5 (15,5 – 18,9) 6 97 (18,9 – 22,3> 100 7 (22,3 – 25,7> 102 8 (25,7 – 29,1> 104 Celkem - V 82 sledovaných dnech byla koncentrace do 12,1 µg/m3. Výpočet: 25+26+31 = 82
Základní zpracování dat tabulka četností Třída Koncentrace Absolutní četnost ni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 25 0,24 2 (5,3 – 8,7> 26 0,49 3 (8,7 – 12,1> 31 0,78 4 (12,1 – 15,5> 9 0,87 5 (15,5 – 18,9) 6 0,93 (18,9 – 22,3> 0,96 7 (22,3 – 25,7> 0,98 8 (25,7 – 29,1> 1,00 Celkem 104 Kumulativní relativní četnost (kpi) relativní počet hodnot (uvádí se i v procentech) v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu V 78 % sledovaných dnů byla koncentrace do 12,1 µg/m3. Výpočet: (25 + 26 + 31)/104 = 0,51
Základní zpracování dat tabulka četností Třída Koncentrace Střed intervalu xi* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem -
Základní zpracování dat tabulka četností Histogram četností – absolutní četnost ni
Základní zpracování dat tabulka četností Histogram četností – kumulativní absolutní četnost
Základní zpracování dat tabulka četností Polygon četností (spojnicový graf)
Základní zpracování dat tabulka četností Sloupcový graf pokud jde o prosté třídění znaku, nebo intervalové třídění s nestejně širokými intervaly. Mezi sloupce se vkládají mezery. Histogram četností pouze pokud jsou všechny intervaly stejně široké
Základní zpracování dat tabulka četností Sloupcový graf pokud jde o prosté třídění znaku, nebo intervalové s nestejně širokými intervaly. Mezi sloupce se vkládají mezery. (grafická úprava z tisku)
Základní zpracování dat tabulka četností - MS Excel V programu MS Excel je nutno mít zdrojová data uspořádaná do sloupce a ručně zadané dolní a horní meze všech tříd. Data - Analýza – Analýza dat - Histogram Do políčka „Hranice tříd“ zadáváme pouze horní meze. Volba „Kumulativní procentuální podíl“ vypočte kumulativní relativní četnost.
Základní zpracování dat Důležité pojmy – 1. přednáška Hromadný jev Statistická jednotka a znak Statistická proměnná Základní soubor Výběrový soubor Prosté a intervalové třídění dat Tabulka četností Sturgesovo pravidlo Absolutní, relativní, kumulativní absolutní a kumulativní relativní četnost Histogram a polygon