Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Popisná Statistika

3 Statistika – 1. přednáška
Základní informace o kurzu Pojmy Zpracování dat

4 Základní informace Základní literatura a přednášky
POPELKA, J., SYNEK, V. Úvod do statistické analýzy dat. Univerzita J. E. Purkyně v Ústí nad Labem, Fakulta životního prostředí, stran. ISBN E-learningový kurz: Statistika Lokální disk na síti FŽP UJEP - cvičení

5 Základní informace Doporučená literatura
HENDL, J. Přehled statistických metod zpracování dat. Portál, Praha ISBN CYHELSKÝ, L., HINDLS, R., KAHOUNOVÁ, J. Elementární statistická analýza. 2. vyd. Management Press, Praha ISBN HINDLS, R., HRONOVÁ, S., NOVÁK, I. Metody statistické analýzy pro ekonomy. 2. aktualizované a rozšíř. vyd. Management Press, Praha ISBN

6 Základní pojmy „Statistika je přesný součet nepřesných čísel.“ (Zdeněk Opava) „Statistika je nauka, jak získat informace z numerických dat.“ (Jan Hendl) „Statistika nuda je, má však cenné údaje … “ (Zdeněk Svěrák) „Statistika je jako bikiny. Odhalí téměř vše, ale to nejdůležitější nám zůstane skryto.“ (autor neznámý)

7 Základní pojmy statistika
údaje neboli data o hromadných jevech – ročenky a souhrny, praktická činnost - získávání dat o hromadných jevech, jejich zpracování , vyhodnocování a zveřejňování výsledků, vědecký obor - zkoumání zákonitostí hromadných jevů, souhrn vědeckých metod sběru dat, zpracování a analýzy, statistické výkazy a dotazníky sloužící ke sběru dat o hromadných jevech, slangově i oddělení, organizace a instituce zabývající se sběrem a zpracováním dat, číselné charakteristiky - sloužící k popisu vlastností hromadných jevů.

8 Základní pojmy hromadný jev
Statistika se zabývá jevy, které se vyznačují velkými počty výskytů (hromadností). Hromadný jev (na rozdíl od jednotlivého jevu) se může v prostoru a čase mnohokrát opakovat . Při pozorování hromadného jevu se u každého pozorovaného prvku mohou projevovat jeho individuální vlastnosti a vlastnosti typické pro skupinu prvků S větším počtem pozorování se stírají vlivy jedinečnosti a více se uplatňují vlivy společné – zákonité . Odpovědi určitého počtu respondentů. Každý respondent má svůj názor. Projeví se názor, který ve společnosti převládá.

9 Základní pojmy statistické jednotky a znaky
Sova Počet vajec, počet vylíhlých mláďat, doba hnízdění… Statistická jednotka (předmět sledování) člověk, zvíře, rostlina, předmět, událost, územní celek Kraj počet obyvatel, podíl vysokoškolsky vzdělaných obyvatel, počet průmyslových podniků, podíl domácností vytápěných plynem… Statistický znak (vlastnost jednotky, kterou jsme schopni číselně nebo slovně popsat) Člověk Pohlaví, výška, váha, vzdělání, zaměstnání, barva očí, dopravní prostředek, známka ze statistiky, jméno, věk… Ovzduší Teplota, vlhkost, koncentrace znečišťujících látek… Telefonní hovory Délka volání, doba volání, kdo volal, komu volal, obsah volání…

10 Základní pojmy statistické soubory
Základní soubor (populace) všechny jednotky, které existují v rámci nějakého logického celku Výběrový soubor – vybrané jednotky Výběr je nejčastěji náhodný výběr nebo systematický. Všichni obyvatelé ČR (cca 10 mil.) Všechny sovy v Krušných horách (stovky?) Každá část ovzduší ve městě Most (neurčitelně velký soubor) Všechny kraje ČR (14) Všechny telefonní hovory v síti (miliardy za rok) Reálný svět (?) Náhodně oslovení lidé na ulici (maximálně 3000) Odchycené sovy v hnízdních budkách (do 30 jedinců) Odebrané vzorky ve stanici ČHmÚ (denní odběry) Kraje na severu ČR (4) Telefonní hovory monitorované v termínu (tisíce) Laboratorní pokusy (3 pokusy)

11 Základní pojmy statistické proměnné
dichotomické (alternativní) polytomické (množné) Statistické proměnné kvalitativní (slovní, kategoriální) nominální (jmenné) ordinální (pořadové) (číselné, numerické) kvantitativní kardinální (měřitelné) spojité diskrétní (nespojité)

12 Základní pojmy statistické proměnné
Jméno Pohlaví Věk Výška Počet sourozenců Vzdělání Pořadí v závodu …. Jana žena 56 159,32 2 vysokoškolské 5. Olda muž 38 178 základní 2. Káťa 17 161 3 3. Lenča 25 165,5 4 středoškolské s maturitou 1. Milánek 5 110 žádné 4. kvantitativní, kardinální, spojitý kvalitativní , nominální, polytomický kvalitativní , nominální, dichotomický kvantitativní, ordinální kvantitativní, kardinální, diskrétní kvalitativní , nominální, polytomický kvantitativní, kardinální, spojitý

13 Základní zpracování dat řazení, třídění
Příklad: Počet kotlů na pevná paliva v domácnosti: Tabulka prostého třídění Řazení kvantitativní proměnné podle velikosti kvalitativní ordinální podle významu kvalitativní nominální abecedně Třídění zpřehlednění velkého množství dat do tabulek např. uspořádání do tzv. tabulky četností. Grafická prezentace grafy, diagramy. Počet kotlů Četnost 17 1 10 2 4 3 5

14 Základní zpracování dat třídění
Příklad: Soubor koncentrace Pb v ovzduší města Litoměřice má 104 hodnot (104 měření). Tabulky intervalového třídění Prosté třídění kvantitativní diskrétní proměnná Intervalové třídění kvantitativní spojitá proměnná kvantitativní diskrétní proměnná s vysokým počtem obměn Koncentrace Četnost (1,9 – 5,3> 25 (5,3 – 8,7> 26 (8,7 – 12,1> 31 (12,1 – 15,5> 9 (15,5 – 18,9> 6 (18,9 – 22,3> 3 (22,3 – 25,7> 2 (25,7 – 29,1> Koncentrace Četnost (0 – 5> 25 (5 – 10> 24 (10 – 15> 38 (15 – 20> 12 (20 – 25> 3 (25 – 30> 2

15 Základní zpracování dat třídění
Histogram – prosté třídění Histogram – intervalové třídění

16 Základní zpracování dat tabulka četností
1. Zjistíme v jakém rozmezí se hodnoty proměnné pohybují, tedy nejmenší (minimum) a nejvyšší (maximum) hodnotu. 2. Rozhodneme, zda provedeme prosté nebo intervalové třídění (v závislosti na typu sledované proměnné a počtu obměn). 3. Rozhodneme, kolik bude mít tabulka řádků. 4. Rozhodneme jaké bude rozpětí jednotlivých tříd. 5. Počítáme kolik pozorování patří do každé třídy (čárkovací metoda nebo počítačový program).

17 Základní zpracování dat tabulka četností
Volba vhodného počtu tříd (řádků) v tabulce četností. Prosté třídění: Podle počtu obměn diskrétní proměnné Počet tříd se rovná počtu obměn. Počet kotlů Četnost 17 1 10 2 4 3 5

18 Základní zpracování dat tabulka četností
Volba vhodného počtu tříd (řádků) v tabulce četností Intervalové třídění: Sturgesovo pravidlo počet intervalů ≈ 1 + 3,3·log10 (počet hodnot) Jednoduché (odmocninové) pravidlo počet intervalů ≈ √počet hodnot Subjektivně (např. intervaly po 5µg/m3. Vhodné spíše pro prezentaci dat než stat. analýzy. Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké. Krajní intervaly mohou být širší pokud zahrnují výrazně vysoké nebo nízké hodnoty. Tabulka četností se šesti třídami a subjektivně stanovenými hranicemi intervalů Koncentrace Četnost (0 – 5> 25 (5 – 10> 24 (10 – 15> 38 (15 – 20> 12 (20 – 25> 3 (25 – 30> 2

19 Základní zpracování dat tabulka četností
Třída Koncentrace 1 (0 – 5> 2 (5 – 10> 3 (10 – 15> 4 (15 – 20> 5 (20 – 25> 6 (25 – 30> Subjektivní volba počtu tříd Soubor koncentrace Pb v ovzduší má 104 hodnot . Nejmenší hodnota sledovaného souboru je 2 µg/m3 a největší 29 µg/m3. Tabulka musí zahrnovat všechny hodnoty! Zvolíme rozpětí třídy 5 µg/m3. Toto uspořádání je přehledné a jednoduché. Počet tříd je pak 6 = (30 – 0)/5. Třídy se nesmějí překrývat, proto se aplikují zleva otevřené a zprava uzavřené intervaly . Tabulka je vhodná pro prezentaci hodnot, ne však pro statistické analýzy.

20 Základní zpracování dat tabulka četností
Volba počtu tříd dle statistických pravidel Při použití jednoduchého (odmocninového) pravidla na soubor se 104 hodnotami by byl počet tříd √104 ≈ 10. Tabulka četností s osmi třídami a hranicemi intervalů stanovenými Sturgesovým pravidlem Sturgesovo pravidlo stanovuje následující počet tříd: 1 + 3,3log ≈ 8. Rozpětí tříd se pak spočítá podle vzorce: (maximální hodnota – minimální hodnota) počet tříd =(29 – 2)/8 = 3,375 ≈ 3,4 µg/m3 Některé statistické analýzy vyžadují aplikaci Sturgesova pravidla. Třída Koncentrace 1 (1,9 – 5,3> 2 (5,3 – 8,7> 3 (8,7 – 12,1> 4 (12,1 – 15,5> 5 (15,5 – 18,9) 6 (18,9 – 22,3> 7 (22,3 – 25,7> 8 (25,7 – 29,1>

21 Základní zpracování dat tabulka četností
Střed třídy (x*) prostřední hodnota mezi horní a dolní mezí třídy Absolutní četnost (ni) počet hodnot v souboru spadající do příslušné třídy Třída Koncentrace Střed intervalu x* Absolutní četnost ni 1 (1,9 – 5,3> 3,6 25 2 (5,3 – 8,7> 7,0 26 3 (8,7 – 12,1> 10,4 31 4 (12,1 – 15,5> 13,8 9 5 (15,5 – 18,9) 17,2 6 (18,9 – 22,3> 20,6 7 (22,3 – 25,7> 24,0 8 (25,7 – 29,1> 27,4 Celkem 104 V 9 sledovaných dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3.

22 Základní zpracování dat tabulka četností
Relativní četnost (pi) relativní počet hodnot (uvádí se i v procentech) v souboru spadající do příslušné třídy Třída Koncentrace Absolutní četnost ni Relativní četnost pi 1 (1,9 – 5,3> 25 0,24 2 (5,3 – 8,7> 26 0,25 3 (8,7 – 12,1> 31 0,29 4 (12,1 – 15,5> 9 0,09 5 (15,5 – 18,9) 6 0,06 (18,9 – 22,3> 0,03 7 (22,3 – 25,7> 0,02 8 (25,7 – 29,1> Celkem 104 1,00 V 9 % sledovaných dnů dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3. Výpočet: Absolutní četnost /celkem = 9/104 = 0,09

23 Základní zpracování dat tabulka četností
Kumulativní absolutní četnost (kni) počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu Třída Koncentrace Absolutní četnost ni Kumulativní absolutní četnost kni 1 (1,9 – 5,3> 25 2 (5,3 – 8,7> 26 51 3 (8,7 – 12,1> 31 82 4 (12,1 – 15,5> 9 91 5 (15,5 – 18,9) 6 97 (18,9 – 22,3> 100 7 (22,3 – 25,7> 102 8 (25,7 – 29,1> 104 Celkem - V 82 sledovaných dnech byla koncentrace do 12,1 µg/m3. Výpočet: = 82

24 Základní zpracování dat tabulka četností
Třída Koncentrace Absolutní četnost ni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 25 0,24 2 (5,3 – 8,7> 26 0,49 3 (8,7 – 12,1> 31 0,78 4 (12,1 – 15,5> 9 0,87 5 (15,5 – 18,9) 6 0,93 (18,9 – 22,3> 0,96 7 (22,3 – 25,7> 0,98 8 (25,7 – 29,1> 1,00 Celkem 104 Kumulativní relativní četnost (kpi) relativní počet hodnot (uvádí se i v procentech) v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu V 78 % sledovaných dnů byla koncentrace do 12,1 µg/m3. Výpočet: ( )/104 = 0,51

25 Základní zpracování dat tabulka četností
Třída Koncentrace Střed intervalu xi* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem -

26 Základní zpracování dat tabulka četností
Histogram četností – absolutní četnost ni

27 Základní zpracování dat tabulka četností
Histogram četností – kumulativní absolutní četnost

28 Základní zpracování dat tabulka četností
Polygon četností (spojnicový graf)

29 Základní zpracování dat tabulka četností
Sloupcový graf pokud jde o prosté třídění znaku, nebo intervalové třídění s nestejně širokými intervaly. Mezi sloupce se vkládají mezery. Histogram četností pouze pokud jsou všechny intervaly stejně široké

30 Základní zpracování dat tabulka četností
Sloupcový graf pokud jde o prosté třídění znaku, nebo intervalové s nestejně širokými intervaly. Mezi sloupce se vkládají mezery. (grafická úprava z tisku)

31 Základní zpracování dat tabulka četností - MS Excel
V programu MS Excel je nutno mít zdrojová data uspořádaná do sloupce a ručně zadané dolní a horní meze všech tříd. Data - Analýza – Analýza dat - Histogram Do políčka „Hranice tříd“ zadáváme pouze horní meze. Volba „Kumulativní procentuální podíl“ vypočte kumulativní relativní četnost.

32 Základní zpracování dat Důležité pojmy – 1. přednáška
Hromadný jev Statistická jednotka a znak Statistická proměnná Základní soubor Výběrový soubor Prosté a intervalové třídění dat Tabulka četností Sturgesovo pravidlo Absolutní, relativní, kumulativní absolutní a kumulativní relativní četnost Histogram a polygon


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google