Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem

Podobné prezentace


Prezentace na téma: "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"— Transkript prezentace:

1 S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 P OPISNÁ S TATISTIKA

3 S TATISTIKA – 2. PŘEDNÁŠKA Charakteristiky úrovně Charakteristiky variability Charakteristiky tvaru rozdělení 3

4 H ODNOTA (V ALUE ) Každá hodnota v souboru má svoji značku. Index i se nahrazuje číslem a označuje, o kolikátou hodnotu v souboru se jedná. 4 Příklad: Počet kotlů na pevná paliva v domácnosti: x 1 = 1 znamená, že 1. hodnota souboru je číslo 1. x 20 = 1 znamená, že 20. hodnota souboru je číslo 1.

5 U SPOŘÁDANÁ HODNOTA (O RDERED VALUE ) Hodnoty uspořádané podle velikosti od nejmenší po nejvyšší. Index v kulaté závorce (i) se nahrazuje číslem a označuje, o kolikátou hodnotu v uspořádaném souboru se jedná. 5 Příklad: Počet kotlů na pevná paliva v domácnosti: Seřazený soubor: x (1) = 0 znamená, že 1. hodnota v uspořádaném souboru je 1. x (20) = 1 znamená, že 20. hodnota v uspořádaném souboru je 1.

6 P OČET HODNOT (C OUNT ) Udává počet hodnot v souboru n … počet hodnot ve výběrovém souboru N … počet hodnot v základním souboru (populaci) 6 MS Excel Statistické – POČET fx = POČET(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

7 M INIMUM (M INIMUN ) Nejmenší hodnota souboru. 7 MS Excel Statistické – MIN fx = MIN(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

8 M AXIMUM (M AXIMUM ) Největší hodnota souboru. 8 MS Excel Statistické – MAX fx = MAX(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

9 Ú HRN, S UMA (S UM ) Součet všech hodnot souboru (od první do n-té hodnoty). 9 úhrn MS Excel Statistické – SUMA fx = SUMA(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

10 C HARAKTERISTIKY ÚROVNĚ ( POLOHY ) Statistický soubor je nahrazen jen jediným číslem, která v jistém smyslu vyjadřuje typickou hodnotu popisující celý soubor. průměry – počítané ze všech hodnot souboru ostatní střední hodnoty (robustní charakteristiky polohy) – jsou-li v souboru extrémní (odlehlá) pozorování useknuté průměry, kvantily – nepočítají se ze všech hodnot souboru (část hodnot se úmyslně vynechává) 10

11 A RITMETICKÝ PRŮMĚR (A VERAGE, M EAN ) Představuje, jaká část součtu hodnot připadá na jednu jednotku souboru. Poznámka: Citlivý na extrémní hodnoty! Pokud jsou krajní hodnoty souboru příliš vysoké nebo nízké v porovnání s ostatními, vychýlí to hodnotu průměru. Není příliš objektivním statistickým ukazatelem. 11 MS Excel Statistické – PRŮMĚR fx = PRŮMĚR (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

12 A RITMETICKÝ PRŮMĚR (A VERAGE, M EAN ) 12 Příklad: Průměrný počet obyvatel v krajských městech ČR je Praha Brno Ostrava Plzeň Liberec Olomouc Ústí nad Labem Hradec Králové České Budějovice Pardubice Zlín Karlovy Vary Jihlava Průměr Brno Ostrava Plzeň Liberec Olomouc Ústí nad Labem Hradec Králové České Budějovice Pardubice Zlín Karlovy Vary Jihlava Průměr Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřadSčítání lidu, domů a bytů 2011

13 A RITMETICKÝ PRŮMĚR (A VERAGE, M EAN ) 13 Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj. Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřadSčítání lidu, domů a bytů 2011 Domažlice6 534 Klatovy8 397 Plzeň-jih9 786 Plzeň-město Plzeň-sever Rokycany7 375 Tachov6 045 Průměr Domažlice6 534 Klatovy8 397 Plzeň-jih9 786 Plzeň-sever Rokycany7 375 Tachov6 045 Průměr 8 329

14 V ÁŽENÝ ARITMETICKÝ PRŮMĚR (W EIGHTED M EAN ) Vážený průměr se nejvíce využije pro výpočet průměru hodnot uspořádaných do tabulky četností, a dále pokud nejsou hodnoty v souboru stejně důležité. Jeho význam je stejný jako u prostého průměru. Hodnoty musejí mít své váhy w i. Pro tabulku četností je vahou relativní četnost w i = p i = n i /n. Pro součet vah platí, že jejich součet je vždy 1 (Σw i = 1). 14 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

15 V ÁŽENÝ ARITMETICKÝ PRŮMĚR (W EIGHTED M EAN ) 15 Známka (x i ) Podíl na konečné známce Váha (w i ) Výpočet (x i · w i ) 460 %0,62,4 120 %0,2 220 %0,20,4 Součet100 %1,03 Průměrná známka3 Příklad: Průměrná známka z předmětu. Průměrná známka vypočtená váženým průměrem je 3. Průměrná známka vypočtená prostým průměrem je 2,33 – nevhodný způsob výpočtu.

16 V ÁŽENÝ ARITMETICKÝ PRŮMĚR (W EIGHTED M EAN ) 16 Příklad: Počet kotlů na pevná paliva v domácnosti: Počet kotlů (x i )Četnost (n i )Výpočet (x i ·n i ) Součet 3430 Průměr 30/34 = 0,88

17 U SEKNUTÝ PRŮMĚR (T RIMMED M EAN ) Stejně velká část největších a nejmenších hodnot (l hodnot) se do výpočtu průměru nezahrne. Např. desetiprocentní uřezaný průměr znamená, že se vynechá 10 % nejnižších hodnot a 10 % nejvyšších hodnot a ze zbytku se počítá průměr. Obvykle se volí 5%, 10% nebo 25% useknutý průměr. Poznámka: Snaha nezahrnout do výpočtu extrémní hodnoty! Odstraňuje nedostatky prostého průměru 17 MS Excel Statistické – TRIMMEAN fx = TRIMMEAN (oblast;procenta) nebo

18 G EOMETRICKÝ PRŮMĚR (G EOMETRIC M EAN ) Použití pro analýzu vývoje ukazatele v čase. Např. k výpočtu průměrné procentuální změny sledovaného ukazatele v čase. Poznámka: Výpočet může být početně velmi náročný a ani MS Excel jej nemusí vždy spočítat. 18 MS Excel Statistické – GEOMEAN fx = GEOMEAN (oblast) nebo

19 H ARMONICKÝ PRŮMĚR (H ARMONIC M EAN ) Používán v indexní teorii. Např. průměrný čas pro určení průměrného výkonu, známe-li doby na stejnou jednotkovou práci nebo průměrná rychlost. 19 MS Excel Statistické – HARMEAN fx = HARMEAN (oblast) nebo

20 K VADRATICKÝ PRŮMĚR (Q UADRATIC M EAN ) 20 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

21 M ODUS (M ODE ) Nejčastěji se vyskytující hodnota znaku v souboru. U diskrétních znaků je modem znak s nejvyšší četností. U spojitých proměnných se v histogramu projeví tzv. modální interval (interval s nejvyšší absolutní četností) vrcholem v podobě nejvyššího sloupce. Z dat uspořádaných v tabulce četností lze modus odhadnout jako střed třídy s nejvyšší absolutní četností. Poznámka: Modů může být v souboru více, nebo nemusí být žádný. Jsou-li dva, jde o tzv. bimodální soubor, je-li jeden, je soubor unimodální. 21 MS Excel Statistické – MODE fx = MODE(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

22 M EDIÁN (M EDIAN ) Hodnota, dělící seřazený soubor hodnot na dvě poloviny. Polovina hodnot souboru je stejná nebo menší než je medián a polovina je větší. Lichý počet hodnot souboru - je prostřední prvek seřazeného souboru. Sudý počet hodnot - je průměr dvou prostředních prvků seřazeného souboru. Z dat uspořádaných v tabulce četností lze medián odhadnout jako střed první třídy s kumulativní relativní četností vyšší než 50 %. Poznámka: Není citlivý na extrémní hodnoty! U souborů s extrémy se upřednostňuje před aritmetickým průměrem. 22 MS Excel Statistické – MEDIAN fx = MEDIAN (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

23 C HARAKTERISTIKY ÚROVNĚ 23 Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj. ModusneníModus není Medián8 397Medián Useknutý průměr8 785,2 Useknutý průměr 8 328,5 Domažlice6 534 Klatovy8 397 Plzeň-jih9 786 Plzeň-město Plzeň-sever Rokycany7 375 Tachov6 045 Průměr Domažlice6 534 Klatovy8 397 Plzeň-jih9 786 Plzeň-sever Rokycany7 375 Tachov6 045 Průměr 8 329

24 24 Průměrná hrubá měsíční mzda v ČR v roce 2011 (rok 2010): celkem - muži- ženy- Medián hrubá měsíční mzda v ČR v roce 2011 ( rok 2010 ): celkem - muži- ženy- Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřadStruktura mezd zaměstnanců Kč( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč) C HARAKTERISTIKY ÚROVNĚ M ZDY V ČR

25 25 Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřadStruktura mezd zaměstnanců 2011 C HARAKTERISTIKY ÚROVNĚ M ZDY V ČR Graf vývoje průměrné hrubé mzdy a mediánu hrubých mezd v ČR.

26 26 Graf rozdělení hrubé mzdy v ČR v roce C HARAKTERISTIKY ÚROVNĚ M ZDY V ČR

27 K VARTILY (Q UARTILE ) 25 % resp. 75 % hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvartilu. x 0,25 je dolní kvartil – čtvrtina hodnot je menší nebo rovna tomuto číslu x 0,75 je horní kvartil – tři čtvrtiny hodnot jsou menší nebo rovna než toto číslo Poznámka: Medián je 50% kvartil (x 0,5 )! MS Excel Statistické – QUARTIL fx = QUARTIL (oblast;kvartil 1 ) nebo 1 zadává se: 0-minimum, 1- dolní kvartil, 2-medián, 3- horní kvartil, 4-maximum Pozn.

28 K VANTIL (Q UANTILE ) Kvantil je nejobecnější kvantilovou mírou. Zastřešuje předešlé ukazatele. Hodnota kvantilu říká, že 100p % hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvantilu x p. Poznámka: Medián je 50%-ní kvantil. Kvartily jsou 25%-ní, 50%-ní a 75%-ní kvantily! Decily jsou 10%-ní, 20%-ní, …, 80%-ní, 90%-ní kvantily! Percentily jsou 1%-ní, 2%-ní, …, 99%-ní, 100%-ní kvantily! Poznámka: lze se setkat i se značením. 28 MS Excel Statistické – PERCENTIL fx = PERCENTIL (oblast;kvantil 1 ) nebo 1 zadává se v procentech nebo v desetinném tvaru (5% nebo 0,05) Pozn.

29 K VANTIL O DHADY K VANTILŮ Z D AT U SPOŘÁDANÝCH DO T ABULKY Č ETNOSTÍ Příklad: Kolik je podle tabulky četností medián souboru? 29 TřídaKoncentrace (µg/m 3 ) Střed intervalu x* Absolutní četnost n i Relativní četnost p i Kumulativní absolutní četnost kn i Kumulativní relativní četnost kp i 1(1,9 – 5,3>3,6250,24250,24 2(5,3 – 8,7>7,0260,25510,49 3(8,7 – 12,1>10,4310,29820,78 4(12,1 – 15,5>13,890,09910,87 5(15,5 – 18,9>17,260,06970,93 6(18,9 – 22,3>20,630,031000,96 7(22,3 – 25,7>24,020,021020,98 8(25,7 – 29,1>27,420,021041,00 Celkem1041, ,4 µg/m 3.Medián je střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,5.

30 K VANTIL O DHADY K VANTILŮ Z D AT U SPOŘÁDANÝCH DO T ABULKY Č ETNOSTÍ Příklad: Kolik je podle tabulky četností dolní kvartil souboru? 30 TřídaKoncentrace (µg/m 3 ) Střed intervalu x* Absolutní četnost n i Relativní četnost p i Kumulativní absolutní četnost kn i Kumulativní relativní četnost kp i 1(1,9 – 5,3>3,6250,24250,24 2(5,3 – 8,7>7,0260,25510,49 3(8,7 – 12,1>10,4310,29820,78 4(12,1 – 15,5>13,890,09910,87 5(15,5 – 18,9>17,260,06970,93 6(18,9 – 22,3>20,630,031000,96 7(22,3 – 25,7>24,020,021020,98 8(25,7 – 29,1>27,420,021041,00 Celkem1041,00-- 7,0 µg/m 3.Dolní kvartil je 25% kvantil, je to první střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,25.

31 K VANTIL O DHADY K VANTILŮ Z D AT U SPOŘÁDANÝCH DO T ABULKY Č ETNOSTÍ Příklad: Kolik je podle tabulky četností 95% kvantil souboru? 31 TřídaKoncentrace x i (µg/m 3 ) Střed intervalu x i * Absolutní četnost n i Relativní četnost p i Kumulativní absolutní četnost kn i Kumulativní relativní četnost kp i 1(1,9 – 5,3>3,6250,24250,24 2(5,3 – 8,7>7,0260,25510,49 3(8,7 – 12,1>10,4310,29820,78 4(12,1 – 15,5>13,890,09910,87 5(15,5 – 18,9>17,260,06970,93 6(18,9 – 22,3>20,630,031000,96 7(22,3 – 25,7>24,020,021020,98 8(25,7 – 29,1>27,420,021041,00 Celkem1041, ,6 µg/m 3.Je to první střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,95.

32 M ODUS O DHAD M ODU Z D AT U SPOŘÁDANÝCH DO T ABULKY Č ETNOSTÍ Příklad: Kolik je podle tabulky četností modus souboru? 32 TřídaKoncentrace (µg/m 3 ) Střed intervalu x* Absolutní četnost n i Relativní četnost p i Kumulativní absolutní četnost kn i Kumulativní relativní četnost kp i 1(1,9 – 5,3>3,6250,24250,24 2(5,3 – 8,7>7,0260,25510,49 3(8,7 – 12,1>10,4310,29820,78 4(12,1 – 15,5>13,890,09910,87 5(15,5 – 18,9>17,260,06970,93 6(18,9 – 22,3>20,630,031000,96 7(22,3 – 25,7>24,020,021020,98 8(25,7 – 29,1>27,420,021041,00 Celkem1041, ,4 µg/m 3.Modus je nejčastější hodnota souboru. Je to střed třídy, s nejvyšší absolutní četností.

33 K RABICOVÝ DIAGRAM (B OX - AND -W HISKER P LOT ) 33 Krabicový diagram je často používaný nástroj pro grafické zobrazení ukazatelů polohy, především pro porovnání více souborů mezi sebou. Slouží také odhalení hodnot v souboru, které lze považovat za odlehlé (extrémní hodnoty). Může se jednat o chybná měření, chyby v přepisu dat (např. špatně zapsaná desetinná čárka), neobvyklé extrémy atd. Odlehlé hodnoty jsou takové, které v krabicovém diagramu leží mimo tzv. vnitřní hradby. Pokud se takové hodnoty vyskytují, je to signál, že není vhodné používat např. prostý aritmetický průměr, protože bude vychýlen.

34 K RABICOVÝ DIAGRAM (B OX - AND -W HISKER P LOT ) Medián Dolní kvartil x 0,25 Dolní vnitřní hradba h D = x 0,25 - 1,5(x 0,75 - x 0,25 ) Pokud je h D < minimum, pak je v grafu zakresleno minimum! 34 Aritmetický průměr Horní kvartil x 0,75 Horní vnitřní hradba h H = x 0,75 + 1,5(x 0,75 - x 0,25 ) Pokud je h H > maximum, pak je v grafu zakresleno maximum! Extrémní (odlehlé) hodnoty – takových hodnot může být v souboru i více! +

35 K RABICOVÝ DIAGRAM (B OX - AND -W HISKER P LOT ) 35 Porovnání více souborů mezi sebou pomocí krabicového diagramu.

36 O DLEHLÁ POZOROVÁNÍ I pohled na tabulku četností nebo histogram může vést k závěru o existenci odlehlých pozorování v souboru. Nejedná se o exaktní metodu, je však vhodným a jednoduchým začátkem před použitím přesnějších ale složitějších metod. Odlehlé pozorování se projeví osamělou třídou (v grafu jde o osamělý sloupec) extrémně nízkých, nebo naopak extrémně vysokých hodnot. Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (dodržet odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd) a zahrnout všechna pozorování. 36

37 O DLEHLÁ POZOROVÁNÍ (H ISTOGRAM ) hodnot se pohybuje v rozmezí 0 – 8, jedna jediná hodnota je 36. Ta je odlehlým pozorováním. Je jediná ve své třídě, a tato třída je osamocena. Osamocená třída s odlehlým pozorováním.

38 O DLEHLÁ POZOROVÁNÍ (H ISTOGRAM ) hodnot se pohybuje v rozmezí 0 – 8. Žádná třída není osamocena. Podle histogramu se v souboru odlehlá pozorování nevyskytují.

39 O DLEHLÁ POZOROVÁNÍ (H ISTOGRAM ) 39 Histogramy koncentrací kovů v ovzduší (Litoměřice 2007 – 2010)

40 C HARAKTERISTIKY VARIABILITY Vyjadřují proměnlivost hodnot, zda jsou si hodně podobné, nebo zda se od sebe odlišují. Některé míry umožňují srovnání více souborů, jiné ne! ukazatele rozpětí – počítají se z vybraných charakteristik souboru rozptyly a směrodatné odchylky – počítané ze všech hodnot souboru další ukazatele (variační koeficient) – nástroje pro srovnávání různých souborů počítané z dalších charakteristik souboru 40

41 C HARAKTERISTIKY VARIABILITY 41 TrasaDoba strávená na cestě (minuty)Průměr Příklad: Doba strávená cestou autem do zaměstnání

42 V ARIAČNÍ ROZPĚTÍ (R ANGE ) Rozdíl mezi nejmenší a největší hodnotou souboru. Poznámka: Stejně jako průměry je citlivý na extrémní hodnoty! 42 MS Excel Nemá funkci fx Nemá nabídku nebo Data – Analýza – Analýza dat – Popisná statistika nebo

43 M EZIKVARTILOVÉ ROZPĚTÍ (I NTERQUARTILE R ANGE ) Rozdíl mezi horním a dolním kvartilem. Je zobrazen v krabičkovém diagramu jako vzdálenost mezi stěnami krabičky. Poznámka: Je založen na kvantilech, takže není citlivý na extrémní hodnoty! 43 MS Excel Nemá funkci fx Nemá nabídku nebo RqRq

44 R OZPTYL ( POPULAČNÍ ) (P OPULATION V ARIANCE ) Nejpoužívanější míra variability. Vystihuje rozptýlení (disperzi) jednotlivých hodnot souboru kolem aritmetického průměru. Počítá se pro základní soubor. „Aritmetický průměr čtverců (druhých mocnin) odchylek od aritmetického průměru.“ 44 MS Excel Statistické – VAR fx = VAR(oblast) nebo

45 R OZPTYL ( VÝBĚROVÝ ) (S AMPLE V ARIANCE ) Počítá se při práci s výběrovým souborem. Vztah mezi populačním a výběrovým rozptylem: 45 MS Excel Statistické – VAR.VÝBĚR fx = VAR.VÝBĚR (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

46 R OZPTYL ( VÝBĚROVÝ ) (S AMPLE V ARIANCE ) 46 i Celkem Rozptyl výběru78,4 Průměr =24

47 V ÁŽENÝ ROZPTYL ( VÝBĚROVÝ ) (S AMPLE W EIGHTED V ARIANCE ) Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro váhy w i. Pro tabulku četností je vahou relativní četnost w i = p i = n i /n. Pro součet vah platí, že jejich součet je vždy 1 (Σw i = 1). 47 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

48 V ÁŽENÝ ROZPTYL ( VÝBĚROVÝ ) (S AMPLE W EIGHTED V ARIANCE ) Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro absolutní četnosti n i z tabulky četností. 48 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

49 V ÁŽENÝ ROZPTYL ( POPULAČNÍ ) (P OPULATION W EIGHTED V ARIANCE ) Vážený populační rozptyl se používá, pokud jsou k dispozici veškerá data o základním souboru. Vzorec je uveden pro absolutní četnosti N i v tabulce četností 49 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

50 S MĚRODATNÁ ODCHYLKA ( POPULAČNÍ ) (P OPULATION S TANDARD D EVIATION ) Na rozdíl od rozptylu je odchylka uvedena ve stejných jednotkách jako aritmetický průměr. Poznámka: populační směrodatná odchylka není nic jiného než odmocnina z populačního rozptylu. 50 MS Excel Statistické – SMODCH fx = SMODCH (oblast) nebo

51 S MĚRODATNÁ ODCHYLKA ( VÝBĚROVÁ ) (S AMPLE S TANDARD D EVIATION ) Stejně jako výběrový rozptyl vychází pouze z výběru. Poznámka: směrodatná odchylka výběrová není nic jiného něž odmocnina z výběrového rozptylu. 51 MS Excel Statistické – SMODCH. VÝBĚR fx = SMODCH. VÝBĚR(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika nebo

52 V ARIAČNÍ KOEFICIENT (C OEFFICIENT OF V ARIATION ) Slouží k porovnání variability znaků majících odlišné jednotky nebo lišících se mírou polohy. Uvádí se v procentech. Udává relativní variabilitu vztaženou k průměru. Pomáhá také odhalit odlehlé hodnoty. Je-li v > 50% znamená to, že soubor je nesourodý (obsahuje odlehlá pozorování) a není např. vhodné používat aritmetický průměr jako charakteristiku polohy. 52 MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce nebo

53 V ARIAČNÍ KOEFICIENT (C OEFFICIENT OF V ARIATION ) Příklad: Zjišťováním hmotnosti mužů a žen ve věku 50 let, byly zjištěny následující údaje: průměrná hmotnost mužůprůměrná hmotnost žen 95 kg65 kg sm. odchylka u mužůsm. odchylka u žen 4 kg3,32 kg ?? Muži jsou v průměru těžší a mají větší výkyvy hmotnosti. variační koef. u mužůvariační koef. u žen 4/95 = 0,0421 (4,21%)3,32/65 = 0,0511 (5,11%) Muži jsou v průměru skutečně těžší, ale relativně větší výkyvy hmotnosti mají ženy. 53

54 C HARAKTERISTIKY TVARU ROZDĚLENÍ Charakterizují tvar rozdělení, jaké je rozložení hodnot v souboru, jaké hodnoty převládají. To, co je někdy patrné z grafického znázornění rozdělení hodnot (např. sloupcový graf, histogram nebo polygon), vyjadřují pomocí číselných hodnot. šikmost – jedním číslem vyjadřuje, zda převládají spíše nízké hodnoty (podprůměrné) nebo vysoké hodnoty (nadprůměrné). špičatost – jedním číslem vyjadřuje, zda jsou hodnoty blízko střední hodnotě (průměru) nebo naopak jsou rozptýlen Poznámka: Problém těchto ukazatelů je, že různé statistické programy počítají tyto charakteristiky různě (podle různých vzorců). 54

55 C HARAKTERISTIKY TVARU ROZDĚLENÍ 55 Rozložení hodnot v souboru je podle histogramů rozdílné! Příklad: Rozdělení věku respondentů (fikce)

56 Š IKMOST (S KEWNESS ) Vyjadřuje, jak jsou hodnoty symetricky či asymetricky rozloženy kolem střední hodnoty. Zda v souboru převládají spíše nízké hodnoty (podprůměrné) nebo vysoké hodnoty (nadprůměrné). 56 MS Excel Statistické – SKEW fx = SKEW(oblast) nebo Data – Analýza dat – Popisná statistika

57 Š IKMOST (S KEWNESS ) 57 symetrické (hodnoty rovnoměrně rozloženy) kladné zešikmení (převládají nízké hodnoty) záporné zešikmení (převládají vysoké hodnoty) a > 0 a < 0 a = 0

58 Š PIČATOST (K URTOSIS ) Vyjadřuje, jak jsou hodnoty koncentrovány kolem střední hodnoty. Zda převládají spíše hodnoty blízké střední hodnotě nebo hodnoty odlišné od střední hodnoty. 58 MS Excel Statistické – KURT fx = KURT(oblast) nebo Data – Analýza dat – Popisná statistika

59 Š PIČATOST (K URTOSIS ) 59 normální (hodnoty rovnoměrně rozloženy) špičaté (hodnoty koncentrovány kolem středu – průměru nebo mediánu) ploché (hodnoty nejsou koncentrovány kolem středu) b < 0 b > 0 b = 0

60 C HARAKTERISTIKY TVARU ROZDĚLENÍ 60 a = 5,1977 kladné zešikmení (v souboru převládají nižší, podprůměrné hodnoty) b = 3,6256 špičaté rozdělení (hodnoty jsou více koncentrovány kolem středu) Příklad: Šikmost a špičatost dat znečištění vzduchu (Litoměřice, , Pb)

61 C HARAKTERISTIKY TVARU ROZDĚLENÍ 61 a = 16,83 kladné zešikmení (v souboru převládají nižší, podprůměrné hodnoty) b = 48,316 špičaté rozdělení (hodnoty jsou více koncentrovány kolem středu) Příklad: Šikmost a špičatost dat znečištění vzduchu (Litoměřice, , Cd)

62 Charakteristiky úrovně, variability a tvaru rozdělení Odlehlé hodnoty a robustní charakteristiky Krabicový diagram 62 C HARAKTERISTIKY D ŮLEŽITÉ POJMY – 2. PŘEDNÁŠKA


Stáhnout ppt "S TATISTIKA Ing. Jan Popelka, Ph.D. odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem"

Podobné prezentace


Reklamy Google