Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Ing. Jan Popelka, Ph.D. odborný asistent

Podobné prezentace


Prezentace na téma: "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"— Transkript prezentace:

1 Statistika Ing. Jan Popelka, Ph.D. odborný asistent
Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem WWW:

2 Popisná Statistika

3 Statistika – 2. přednáška
Charakteristiky úrovně Charakteristiky variability Charakteristiky tvaru rozdělení

4 Hodnota (Value) Každá hodnota v souboru má svoji značku.
Index i se nahrazuje číslem a označuje, o kolikátou hodnotu v souboru se jedná. Příklad: Počet kotlů na pevná paliva v domácnosti: x1 = 1 znamená, že 1. hodnota souboru je číslo 1. x20 = 1 znamená, že 20. hodnota souboru je číslo 1.

5 Uspořádaná hodnota (Ordered value)
Hodnoty uspořádané podle velikosti od nejmenší po nejvyšší. Index v kulaté závorce (i) se nahrazuje číslem a označuje, o kolikátou hodnotu v uspořádaném souboru se jedná. Příklad: Počet kotlů na pevná paliva v domácnosti: Seřazený soubor: x(1) = 0 znamená, že 1. hodnota v uspořádaném souboru je 1. x(20) = 1 znamená, že 20. hodnota v uspořádaném souboru je 1.

6 Počet hodnot (Count) Udává počet hodnot v souboru
n … počet hodnot ve výběrovém souboru N … počet hodnot v základním souboru (populaci) MS Excel Statistické – POČET fx = POČET(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

7 Minimum (Minimun) nebo fx Nejmenší hodnota souboru. MS Excel
Statistické – MIN fx = MIN(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

8 Maximum (Maximum) nebo fx Největší hodnota souboru. MS Excel
Statistické – MAX fx = MAX(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

9 Úhrn, Suma (Sum) úhrn nebo fx
Součet všech hodnot souboru (od první do n-té hodnoty). MS Excel Statistické – SUMA fx = SUMA(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

10 Charakteristiky úrovně (polohy)
Statistický soubor je nahrazen jen jediným číslem, která v jistém smyslu vyjadřuje typickou hodnotu popisující celý soubor. průměry – počítané ze všech hodnot souboru ostatní střední hodnoty (robustní charakteristiky polohy) – jsou-li v souboru extrémní (odlehlá) pozorování useknuté průměry, kvantily – nepočítají se ze všech hodnot souboru (část hodnot se úmyslně vynechává)

11 Aritmetický průměr (Average, Mean)
Představuje, jaká část součtu hodnot připadá na jednu jednotku souboru. Poznámka: Citlivý na extrémní hodnoty! Pokud jsou krajní hodnoty souboru příliš vysoké nebo nízké v porovnání s ostatními, vychýlí to hodnotu průměru. Není příliš objektivním statistickým ukazatelem. MS Excel Statistické – PRŮMĚR fx = PRŮMĚR (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

12 Aritmetický průměr (Average, Mean)
Příklad: Průměrný počet obyvatel v krajských městech ČR je Praha Brno Ostrava Plzeň Liberec Olomouc Ústí nad Labem 950 03 Hradec Králové 94 242 České Budějovice 93 883 Pardubice 91 073 Zlín 76 010 Karlovy Vary 53 737 Jihlava 50 760 Průměr Brno Ostrava Plzeň Liberec Olomouc Ústí nad Labem 950 03 Hradec Králové 94 242 České Budějovice 93 883 Pardubice 91 073 Zlín 76 010 Karlovy Vary 53 737 Jihlava 50 760 Průměr Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad

13 Aritmetický průměr (Average, Mean)
Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj. Domažlice 6 534 Klatovy 8 397 Plzeň-jih 9 786 Plzeň-město 26 645 Plzeň-sever 11 834 Rokycany 7 375 Tachov 6 045 Průměr 10 945 Domažlice 6 534 Klatovy 8 397 Plzeň-jih 9 786 Plzeň-sever 11 834 Rokycany 7 375 Tachov 6 045 Průměr 8 329 Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad

14 Vážený aritmetický průměr (Weighted Mean)
Vážený průměr se nejvíce využije pro výpočet průměru hodnot uspořádaných do tabulky četností, a dále pokud nejsou hodnoty v souboru stejně důležité. Jeho význam je stejný jako u prostého průměru. Hodnoty musejí mít své váhy wi. Pro tabulku četností je vahou relativní četnost wi = pi = ni/n. Pro součet vah platí, že jejich součet je vždy 1 (Σwi = 1). MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

15 Vážený aritmetický průměr (Weighted Mean)
Příklad: Průměrná známka z předmětu. Známka (xi) Podíl na konečné známce Váha (wi) Výpočet (xi · wi ) 4 60 % 0,6 2,4 1 20 % 0,2 2 0,4 Součet 100 % 1,0 3 Průměrná známka Průměrná známka vypočtená váženým průměrem je 3. Průměrná známka vypočtená prostým průměrem je 2,33 – nevhodný způsob výpočtu.

16 Vážený aritmetický průměr (Weighted Mean)
Příklad: Počet kotlů na pevná paliva v domácnosti: Počet kotlů (xi) Četnost (ni) Výpočet (xi·ni) 17 1 10 2 4 8 3 5 Součet 34 30 Průměr 30/34 = 0,88

17 Useknutý průměr (Trimmed Mean )
Stejně velká část největších a nejmenších hodnot (l hodnot) se do výpočtu průměru nezahrne. Např. desetiprocentní uřezaný průměr znamená, že se vynechá 10 % nejnižších hodnot a 10 % nejvyšších hodnot a ze zbytku se počítá průměr. Obvykle se volí 5%, 10% nebo 25% useknutý průměr. Poznámka: Snaha nezahrnout do výpočtu extrémní hodnoty! Odstraňuje nedostatky prostého průměru MS Excel Statistické – TRIMMEAN fx = TRIMMEAN (oblast;procenta) nebo

18 Geometrický průměr (Geometric Mean)
Použití pro analýzu vývoje ukazatele v čase. Např. k výpočtu průměrné procentuální změny sledovaného ukazatele v čase. Poznámka: Výpočet může být početně velmi náročný a ani MS Excel jej nemusí vždy spočítat. MS Excel Statistické – GEOMEAN fx = GEOMEAN (oblast) nebo

19 Harmonický průměr (Harmonic Mean)
Používán v indexní teorii. Např. průměrný čas pro určení průměrného výkonu, známe-li doby na stejnou jednotkovou práci nebo průměrná rychlost. MS Excel Statistické – HARMEAN fx = HARMEAN (oblast) nebo

20 Kvadratický průměr (Quadratic Mean)
MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

21 Modus (Mode) Nejčastěji se vyskytující hodnota znaku v souboru.
U diskrétních znaků je modem znak s nejvyšší četností. U spojitých proměnných se v histogramu projeví tzv. modální interval (interval s nejvyšší absolutní četností) vrcholem v podobě nejvyššího sloupce. Z dat uspořádaných v tabulce četností lze modus odhadnout jako střed třídy s nejvyšší absolutní četností. Poznámka: Modů může být v souboru více, nebo nemusí být žádný. Jsou-li dva, jde o tzv. bimodální soubor, je-li jeden, je soubor unimodální. MS Excel Statistické – MODE fx = MODE(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

22 Medián (Median) nebo fx
Hodnota, dělící seřazený soubor hodnot na dvě poloviny. Polovina hodnot souboru je stejná nebo menší než je medián a polovina je větší. Lichý počet hodnot souboru je prostřední prvek seřazeného souboru. Sudý počet hodnot je průměr dvou prostředních prvků seřazeného souboru. Z dat uspořádaných v tabulce četností lze medián odhadnout jako střed první třídy s kumulativní relativní četností vyšší než 50 %. Poznámka: Není citlivý na extrémní hodnoty! U souborů s extrémy se upřednostňuje před aritmetickým průměrem. MS Excel Statistické – MEDIAN fx = MEDIAN (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

23 Charakteristiky úrovně
Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj. Domažlice 6 534 Klatovy 8 397 Plzeň-jih 9 786 Plzeň-město 26 645 Plzeň-sever 11 834 Rokycany 7 375 Tachov 6 045 Průměr 10 945 Domažlice 6 534 Klatovy 8 397 Plzeň-jih 9 786 Plzeň-sever 11 834 Rokycany 7 375 Tachov 6 045 Průměr 8 329 Modus není Medián 8 397 7 866 Useknutý průměr 8 785,2 8 328,5

24 Charakteristiky úrovně
Mzdy v ČR Průměrná hrubá měsíční mzda v ČR v roce 2011 (rok 2010): celkem - muži - ženy - Medián hrubá měsíční mzda v ČR v roce 2011 (rok 2010): Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad Kč( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč) Kč ( Kč)

25 Charakteristiky úrovně
Mzdy v ČR Graf vývoje průměrné hrubé mzdy a mediánu hrubých mezd v ČR. Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad

26 Charakteristiky úrovně
Mzdy v ČR Graf rozdělení hrubé mzdy v ČR v roce 2010.

27 Kvartily (Quartile) 25 % resp. 75 % hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvartilu. x0,25 je dolní kvartil – čtvrtina hodnot je menší nebo rovna tomuto číslu x0,75 je horní kvartil – tři čtvrtiny hodnot jsou menší nebo rovna než toto číslo Poznámka: Medián je 50% kvartil (x0,5)! MS Excel Statistické – QUARTIL fx = QUARTIL (oblast;kvartil1) nebo 1zadává se: 0-minimum, 1-dolní kvartil, 2-medián, 3-horní kvartil, 4-maximum Pozn.

28 Kvantil (Quantile) Kvantil je nejobecnější kvantilovou mírou. Zastřešuje předešlé ukazatele. Hodnota kvantilu říká, že 100p % hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvantilu xp. Poznámka: Medián je 50%-ní kvantil. Kvartily jsou 25%-ní, 50%-ní a 75%-ní kvantily! Decily jsou 10%-ní, 20%-ní, … , 80%-ní, 90%-ní kvantily! Percentily jsou 1%-ní, 2%-ní, … , 99%-ní, 100%-ní kvantily! Poznámka: lze se setkat i se značením . MS Excel Statistické – PERCENTIL fx = PERCENTIL (oblast;kvantil1) nebo 1zadává se v procentech nebo v desetinném tvaru (5% nebo 0,05) Pozn.

29 Kvantil Odhady Kvantilů z Dat Uspořádaných do Tabulky Četností
Třída Koncentrace (µg/m3) Střed intervalu x* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem - Příklad: Kolik je podle tabulky četností medián souboru? 10,4 µg/m3. Medián je střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,5.

30 Kvantil Odhady Kvantilů z Dat Uspořádaných do Tabulky Četností
Třída Koncentrace (µg/m3) Střed intervalu x* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem - Příklad: Kolik je podle tabulky četností dolní kvartil souboru? 7,0 µg/m3. Dolní kvartil je 25% kvantil, je to první střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,25.

31 Kvantil Odhady Kvantilů z Dat Uspořádaných do Tabulky Četností
Třída Koncentrace xi (µg/m3) Střed intervalu xi* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem - Příklad: Kolik je podle tabulky četností 95% kvantil souboru? 20,6 µg/m3. Je to první střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,95.

32 Modus Odhad Modu z Dat Uspořádaných do Tabulky Četností
Třída Koncentrace (µg/m3) Střed intervalu x* Absolutní četnost ni Relativní četnost pi Kumulativní absolutní četnost kni Kumulativní relativní četnost kpi 1 (1,9 – 5,3> 3,6 25 0,24 2 (5,3 – 8,7> 7,0 26 0,25 51 0,49 3 (8,7 – 12,1> 10,4 31 0,29 82 0,78 4 (12,1 – 15,5> 13,8 9 0,09 91 0,87 5 (15,5 – 18,9> 17,2 6 0,06 97 0,93 (18,9 – 22,3> 20,6 0,03 100 0,96 7 (22,3 – 25,7> 24,0 0,02 102 0,98 8 (25,7 – 29,1> 27,4 104 1,00 Celkem - Příklad: Kolik je podle tabulky četností modus souboru? 10,4 µg/m3. Modus je nejčastější hodnota souboru. Je to střed třídy, s nejvyšší absolutní četností.

33 Krabicový diagram (Box-and-Whisker Plot)
Krabicový diagram je často používaný nástroj pro grafické zobrazení ukazatelů polohy, především pro porovnání více souborů mezi sebou. Slouží také odhalení hodnot v souboru, které lze považovat za odlehlé (extrémní hodnoty). Může se jednat o chybná měření, chyby v přepisu dat (např. špatně zapsaná desetinná čárka), neobvyklé extrémy atd. Odlehlé hodnoty jsou takové, které v krabicovém diagramu leží mimo tzv. vnitřní hradby. Pokud se takové hodnoty vyskytují, je to signál, že není vhodné používat např. prostý aritmetický průměr, protože bude vychýlen.

34 Krabicový diagram (Box-and-Whisker Plot)
Aritmetický průměr Horní kvartil x0,75 Horní vnitřní hradba hH = x0,75 + 1,5(x0,75 - x0,25) Pokud je hH > maximum, pak je v grafu zakresleno maximum! Extrémní (odlehlé) hodnoty – takových hodnot může být v souboru i více! + Medián Dolní kvartil x0,25 Dolní vnitřní hradba hD = x0,25 - 1,5(x0,75 - x0,25) Pokud je hD < minimum, pak je v grafu zakresleno minimum!

35 Krabicový diagram (Box-and-Whisker Plot)
Porovnání více souborů mezi sebou pomocí krabicového diagramu.

36 Odlehlá pozorování I pohled na tabulku četností nebo histogram může vést k závěru o existenci odlehlých pozorování v souboru. Nejedná se o exaktní metodu, je však vhodným a jednoduchým začátkem před použitím přesnějších ale složitějších metod. Odlehlé pozorování se projeví osamělou třídou (v grafu jde o osamělý sloupec) extrémně nízkých, nebo naopak extrémně vysokých hodnot. Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (dodržet odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd) a zahrnout všechna pozorování.

37 Odlehlá pozorování (Histogram)
49 hodnot se pohybuje v rozmezí 0 – 8 , jedna jediná hodnota je 36. Ta je odlehlým pozorováním. Je jediná ve své třídě, a tato třída je osamocena. Osamocená třída s odlehlým pozorováním.

38 Odlehlá pozorování (Histogram)
50 hodnot se pohybuje v rozmezí 0 – 8. Žádná třída není osamocena. Podle histogramu se v souboru odlehlá pozorování nevyskytují.

39 Odlehlá pozorování (Histogram)
Histogramy koncentrací kovů v ovzduší (Litoměřice 2007 – 2010)

40 Charakteristiky variability
Vyjadřují proměnlivost hodnot, zda jsou si hodně podobné, nebo zda se od sebe odlišují. Některé míry umožňují srovnání více souborů, jiné ne! ukazatele rozpětí – počítají se z vybraných charakteristik souboru rozptyly a směrodatné odchylky – počítané ze všech hodnot souboru další ukazatele (variační koeficient) – nástroje pro srovnávání různých souborů počítané z dalších charakteristik souboru

41 Charakteristiky variability
Příklad: Doba strávená cestou autem do zaměstnání Trasa Doba strávená na cestě (minuty) Průměr 1 22 25 27 23 24 2 15 35 30 12

42 Variační rozpětí (Range)
Rozdíl mezi nejmenší a největší hodnotou souboru. Poznámka: Stejně jako průměry je citlivý na extrémní hodnoty! MS Excel Nemá funkci fx Nemá nabídku nebo Data – Analýza – Analýza dat – Popisná statistika

43 Mezikvartilové rozpětí (Interquartile Range)
Rozdíl mezi horním a dolním kvartilem. Je zobrazen v krabičkovém diagramu jako vzdálenost mezi stěnami krabičky. Poznámka: Je založen na kvantilech, takže není citlivý na extrémní hodnoty! MS Excel Nemá funkci fx Nemá nabídku nebo

44 Rozptyl (populační) (Population Variance)
Nejpoužívanější míra variability. Vystihuje rozptýlení (disperzi) jednotlivých hodnot souboru kolem aritmetického průměru. Počítá se pro základní soubor. „Aritmetický průměr čtverců (druhých mocnin) odchylek od aritmetického průměru.“ MS Excel Statistické – VAR fx = VAR(oblast) nebo

45 Rozptyl (výběrový) (Sample Variance)
Počítá se při práci s výběrovým souborem. Vztah mezi populačním a výběrovým rozptylem: MS Excel Statistické – VAR.VÝBĚR fx = VAR.VÝBĚR (oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

46 Rozptyl (výběrový) (Sample Variance)
Průměr = 24 i 1 15 -9 81 2 25 3 35 11 121 4 30 6 36 5 27 9 12 -12 144 Celkem 392 Rozptyl výběru 78,4

47 Vážený rozptyl (výběrový) (Sample Weighted Variance)
Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro váhy wi. Pro tabulku četností je vahou relativní četnost wi = pi = ni/n. Pro součet vah platí, že jejich součet je vždy 1 (Σwi = 1). MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

48 Vážený rozptyl (výběrový) (Sample Weighted Variance)
Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro absolutní četnosti ni z tabulky četností. MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

49 Vážený rozptyl (populační) (Population Weighted Variance)
Vážený populační rozptyl se používá, pokud jsou k dispozici veškerá data o základním souboru. Vzorec je uveden pro absolutní četnosti Ni v tabulce četností MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

50 Směrodatná odchylka (populační) (Population Standard Deviation)
Na rozdíl od rozptylu je odchylka uvedena ve stejných jednotkách jako aritmetický průměr. Poznámka: populační směrodatná odchylka není nic jiného než odmocnina z populačního rozptylu. MS Excel Statistické – SMODCH fx = SMODCH (oblast) nebo

51 Směrodatná odchylka (výběrová) (Sample Standard Deviation)
Stejně jako výběrový rozptyl vychází pouze z výběru. Poznámka: směrodatná odchylka výběrová není nic jiného něž odmocnina z výběrového rozptylu. MS Excel Statistické – SMODCH. VÝBĚR fx = SMODCH. VÝBĚR(oblast) nebo Data – Analýza – Analýza dat – Popisná statistika

52 Variační koeficient (Coefficient of Variation)
Slouží k porovnání variability znaků majících odlišné jednotky nebo lišících se mírou polohy. Uvádí se v procentech. Udává relativní variabilitu vztaženou k průměru. Pomáhá také odhalit odlehlé hodnoty. Je-li v > 50% znamená to, že soubor je nesourodý (obsahuje odlehlá pozorování) a není např. vhodné používat aritmetický průměr jako charakteristiku polohy. MS Excel Nemá funkci fx Nemá nabídku nebo Nutno počítat dle vzorce

53 Variační koeficient (Coefficient of Variation)
Příklad: Zjišťováním hmotnosti mužů a žen ve věku 50 let, byly zjištěny následující údaje: průměrná hmotnost mužů průměrná hmotnost žen 95 kg kg sm. odchylka u mužů sm. odchylka u žen 4 kg 3,32 kg ?? Muži jsou v průměru těžší a mají větší výkyvy hmotnosti. variační koef. u mužů variační koef. u žen 4/95 = 0,0421 (4,21%) 3,32/65 = 0,0511 (5,11%) Muži jsou v průměru skutečně těžší, ale relativně větší výkyvy hmotnosti mají ženy.

54 Charakteristiky tvaru rozdělení
Charakterizují tvar rozdělení, jaké je rozložení hodnot v souboru, jaké hodnoty převládají. To, co je někdy patrné z grafického znázornění rozdělení hodnot (např. sloupcový graf, histogram nebo polygon), vyjadřují pomocí číselných hodnot. šikmost – jedním číslem vyjadřuje, zda převládají spíše nízké hodnoty (podprůměrné) nebo vysoké hodnoty (nadprůměrné). špičatost – jedním číslem vyjadřuje, zda jsou hodnoty blízko střední hodnotě (průměru) nebo naopak jsou rozptýlen Poznámka: Problém těchto ukazatelů je, že různé statistické programy počítají tyto charakteristiky různě (podle různých vzorců).

55 Charakteristiky tvaru rozdělení
Příklad: Rozdělení věku respondentů (fikce) Rozložení hodnot v souboru je podle histogramů rozdílné!

56 Šikmost (Skewness) nebo fx
Vyjadřuje, jak jsou hodnoty symetricky či asymetricky rozloženy kolem střední hodnoty. Zda v souboru převládají spíše nízké hodnoty (podprůměrné) nebo vysoké hodnoty (nadprůměrné). MS Excel Statistické – SKEW fx = SKEW(oblast) nebo Data – Analýza dat – Popisná statistika

57 Šikmost (Skewness) kladné zešikmení (převládají nízké hodnoty)
symetrické (hodnoty rovnoměrně rozloženy) záporné zešikmení (převládají vysoké hodnoty) a < 0

58 Špičatost (Kurtosis) nebo fx
Vyjadřuje, jak jsou hodnoty koncentrovány kolem střední hodnoty. Zda převládají spíše hodnoty blízké střední hodnotě nebo hodnoty odlišné od střední hodnoty. MS Excel fx Statistické – KURT nebo = KURT(oblast) Data – Analýza dat – Popisná statistika

59 Špičatost (Kurtosis) ploché (hodnoty nejsou koncentrovány kolem středu) b < 0 b = 0 normální (hodnoty rovnoměrně rozloženy) špičaté (hodnoty koncentrovány kolem středu – průměru nebo mediánu) b > 0

60 Charakteristiky tvaru rozdělení
Příklad: Šikmost a špičatost dat znečištění vzduchu (Litoměřice, , Pb) a = 5,1977 kladné zešikmení (v souboru převládají nižší, podprůměrné hodnoty) b = 3,6256 špičaté rozdělení (hodnoty jsou více koncentrovány kolem středu)

61 Charakteristiky tvaru rozdělení
Příklad: Šikmost a špičatost dat znečištění vzduchu (Litoměřice, , Cd) a = 16,83 kladné zešikmení (v souboru převládají nižší, podprůměrné hodnoty) b = 48,316 špičaté rozdělení (hodnoty jsou více koncentrovány kolem středu)

62 Charakteristiky Důležité pojmy – 2. přednáška
Charakteristiky úrovně, variability a tvaru rozdělení Odlehlé hodnoty a robustní charakteristiky Krabicový diagram


Stáhnout ppt "Statistika Ing. Jan Popelka, Ph.D. odborný asistent"

Podobné prezentace


Reklamy Google