Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika.

Podobné prezentace


Prezentace na téma: "Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika."— Transkript prezentace:

1 Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor – Typy proměnných – Popis kategoriální proměnné (číselné charakteristiky, grafy) – Popis numerické proměnné (číselné charakteristiky, grafy) Statistika, FEI, VŠB-TU Ostrava © Litschmannová, 2015

2 Čím se zabývá teorie pravděpodobnosti? Teorie pravděpodobnosti je matematická disciplína popisující zákonitosti týkající se náhodných jevů, tj. používá se k modelování náhodnosti a neurčitosti. (Náhodnost je spojena s nedostatečnou znalostí počátečních podmínek.) 2

3 Čím se zabývá statistika? Rozvíjí znalosti na základě empirických dat. Co je to statistika? Google – odkazů (čeština), 2, odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics ProjectČeský statistický úřadReal Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …) 3

4 Co vypovídá statistika o jednotlivci? Lukáš Pavlásek (jednotlivec) skaut podnikatel občan ČR Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti). Statistika je nauka o hromadných jevech. 4

5 Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýzy dat statistické znaky – údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, …) = ZÁKLADNÍ SOUBOR úplné šetření statistická jednotka Jak provést statistické šetření? 5

6 Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýzy dat Jak provést statistické šetření? úplné šetření výběrové šetření REPREZENTATIVNÍ výběr 6

7 Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýzy dat Jak analyzovat data? Exploratorní (popisná) statistika 7

8 Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru. 8

9 Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika 9

10 Statistické šetření Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme. 10

11 Způsoby statistického šetření Vyčerpávající šetřeníVýběrové šetření Výhody: přesnost a detailnost zjištěných informací Nevýhody: personální, finanční a časová náročnost Výhody: menší personální, finanční a časová náročnost Nevýhody: mírou objektivnosti získaných informací je kvalita provedení výběrového šetření 11

12 Výběrové šetření Výběr by měl být reprezentativní – tj. odrážet vlastnosti celé populace vzhledem ke sledovaným znakům. Opakem reprezentativního výběru je výběr selektivní (např. vzorek účastnic soutěže MISS ČR, z něhož chceme dělat závěry o váze v české populaci dívek ve věku let). Náhodný výběr, tj. výběr, v němž má každá statistická jednotka stejnou pravděpodobnost být zařazena do výběru. ―Reprezentuje všechny známé i neznámé vlastnosti populace. ―Umožňuje odhadnout velikost chyby, která je způsobena výběrovým šetřením. ―Opora (rámec) výběru – technická dokumentace umožňující výběr stat. jednotek do výběru. 12

13 Metody náhodného výběru prostý náhodný výběr – losováním, pomocí tabulek náhodných čísel systematický výběr – založen na předem známém uspořádání populace (riziko souvislosti uspořádání s analyzovaným znakem), vybíráme každý k. prvek. oblastní (stratifikovaný) výběr – populace rozdělena do heterogenních podskupin, v jejichž rámci je prováděn prostý náhodný, resp. systematický výběr. skupinový výběr – populace je rozdělena do rovnocenných podskupin, tj. variabilita mezi podskupinami musí být co nejmenší. Poté je proveden prostý náhodný výběr podskupiny a následuje její úplné šetření. vícestupňový výběr – Založen na hierarchickém popisu jednotek populace (např. kraje- města-školy). 13

14 Další metody výběru Anketa – tzv. samovýběr, tj. výběr jedinců je založen na rozhodnutí respondenta odpovědět na anketu – nelze definovat populaci, na níž se výsledky vztahují Snowball sampling – dotázaní uvádějí kontakt na další jedince – vhodné pro výzkum dočasných populací (svědkové události, účastníci akce apod.) Záměrný výběr, – tj. výběr založený na expertním stanovisku Metoda základního masivu ―prošetření velkých a středních jednotek 14

15 15

16 Exploratorní analýza dat 16

17 Typy proměnných Kvalitativní proměnná (kategoriální, slovní...) Ordinální proměnná (lze uspořádat) Nominální proměnná (nelze uspořádat) Kvantitativní proměnná (numerická, číselná...) 17

18 EDA pro kategoriální veličinu 18

19 Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …) 19

20 Číselné charakteristiky + Modus (název nejčetnější varianty) TABULKA ROZDĚLENÍ ČETNOSTI Varianty x i Absolutní četnosti n i Relativní četnosti p i x1x1 n1n1 p 1 =n 1 /n x2x2 n2n2 p 2 =n 2 /n xkxk nknk p k =n k /n Celkem:n 1 +n 2 +…+n k =n1

21 Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI PohlavíAbsolutní četnosti Relativní četnosti (%) Muž 7737,37864 Žena 8541,26214 Dítě 4421,35922 Celkem: , % … 2,06 osob 0,00001%... 0, osob Pozor na příliš přesná čísla!

22 Číselné charakteristiky POZOR na zaokrouhlovací chybu! TABULKA ROZDĚLENÍ ČETNOSTI PohlavíAbsolutní četnosti Relativní četnosti (%) Muž 7737,4 Žena 8541,3 Dítě 4421,4 Celkem: ,1

23 Číselné charakteristiky Dopočet do 100%! TABULKA ROZDĚLENÍ ČETNOSTI PohlavíAbsolutní četnosti Relativní četnosti (%) Muž 7737,4 Žena 8541,3 Dítě 4421,3 Celkem: ,0

24 Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI PohlavíAbsolutní četnosti Relativní četnosti (%) Muž ?37,4 Žena ?41,3 Dítě ?21,3 Celkem: ,0 Relativní četnosti uvádějme vždy pouze jako doplněk absolutních četností, nikoliv samostatně!

25 Grafické znázornění A)Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“

26 Grafické znázornění A)Sloupcový graf (bar chart)

27 Grafické znázornění A)Sloupcový graf (bar chart)

28 Grafické znázornění A)Sloupcový graf (bar chart)

29 Grafické znázornění A)Sloupcový graf (bar chart)

30 Grafické znázornění A)Sloupcový graf (bar chart)

31 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

32 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat:

33 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly A na co ještě?

34 Který z grafů je „správný“?

35 Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný ? Zdroj: Testové příklady určené žákům 9. tříd.

36 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly Informativní hodnota grafu

37 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

38 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

39 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

40 Anketa Jste pro navýšení hodinové dotace matematiky? TAKHLE NE!!!

41 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu

42 Krevní skupina Rh faktor Celkem Rh+Rh A34640 B9211 AB314 Celkem Výskyt krevních skupin a Rh faktoru v USA Procentuální zastoupení krevních skupin v populaci USA

43 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka A na co ještě?

44

45 2 grafy ještě chybí …

46 100% skládaný pruhový graf

47 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

48 Určete pravdivost tvrzení: a)Místo otazníku patří 20%. b)Místo otazníku patří 126 Kč. c)Část C je dvojnásobkem části D. Co je to A, B, C, D? Jsou výseče odpovídající variantám B a D stejně velké? Lze velikosti jednotlivých výsečí charakterizovat v absolutních číslech i v procentech? Rozdělení četností kvalitativního znaku se znázorňuje kruhovým diagramem, kde různým hodnotám znaku odpovídají kruhové výseče, jejichž plošné obsahy jsou úměrné četnostem. (Prometheus) Zdroj: Testové příklady určené žákům 9. tříd.

49 Grafické znázornění A)Sloupcový graf (bar chart) B)Výsečový graf – koláčový graf (pie chart) C)Obrázkové grafy

50 Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR ( $) a Irsku ( $)

51 Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR ( $) a Irsku ( $)

52 „Úžasná infografika o výdajích státního rozpočtu České republiky v roce 2013“ Zdroj:

53

54 Několik praktických příkladů aneb „bo co není stopro, to mě dycky…“

55 Příklad s klobásou

56

57 Souboj vyhledávačů Zdroj: google/sc-3-a /default.aspx

58 Souboj vyhledávačů Zdroj: google/sc-3-a /default.aspx

59 Jak výsledky šetření zobrazit správně?

60

61 Průzkum o představách studentů o budoucím zaměstnání Mimořádná příloha Mf Dnes, – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)

62 Průzkum o představách studentů o budoucím zaměstnání Mimořádná příloha Mf Dnes, – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“) S přesností na setinu procenta… 1000 studentů … 100% 10 studentů … 1% 0,1 studentů … 0,01% Proč není součet 100%? Čemu odpovídá velikost jednotlivých částí prstence?

63 Jak výsledky šetření zobrazit správně? Co je pro Vás důležité při výběru zaměstnání? (vyberte 3 pro Vás nejdůležitější faktory) četnostrel. četnost (%) rel. četnost (%) vzhledem k počtu respondentů plat profesní růst atraktivita pracovní pozice pracovní prostředí work-life balance benefity reputace společnosti celkem %---

64 Jak výsledky šetření zobrazit správně?

65 EDA pro numerická data 65

66 Číselné charakteristiky A)Míry polohy (úrovně) B)Míry variability 66

67 Míry polohy -Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. -Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. -Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.

68 Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý 68 Ošidný průměr

69 Aritmetický průměr 69

70 Aritmetický průměr Pozor na ošidnost aritmetického průměru! 70

71 Ošidnost průměru Zdroj: [1] 71

72 Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1,0 (denně) 72

73 Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: [1] 73

74 Ošidnost průměru 74

75 Ošidnost průměru  V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $ $ $ $ $ $ Určete průměrný plat obyvatel této vesnice. ($31 830)  Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $ $ $ $ $ $ $ $ Určete průměrný plat obyvatel této vesnice. ($ ) 75

76 Ošidnost průměru Zdroj: Blesk,

77 Ošidnost průměru Zdroj: Blesk,

78 Zdroj: 78

79 Zdroj: 79

80 Zdroj: 80

81 Aritmetický průměr Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox 81

82 1.Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za ,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřatCelková váha [kg] Celková cena [Kč] původně  prodáno zůstalo 82

83 1.Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za ,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřatCelková váha [kg] Celková cena [Kč] původně  prodáno /50 = zůstalo 83

84 1.Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za ,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřatCelková váha [kg] Celková cena [Kč] původně  prodáno /50 = zůstalo 84

85 1.Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za ,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřatCelková váha [kg] Celková cena [Kč] původně  prodáno /50 = zůstalo – 480 =

86 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a)vzdálenost všech úseků je stejná – 5 km. ABCD ABBCCD Dráha [km]555 Rychlost [km/h]

87 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a)vzdálenost všech úseků je stejná – 5 km. ABCD ABBCCD Dráha [km]555 Rychlost [km/h] Čas [h]5/405/505/60 87

88 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a)vzdálenost všech úseků je stejná – 5 km. ABCD ABBCCDAD Dráha [km]555 Rychlost [km/h] Čas [h]5/405/505/60 88

89 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a)vzdálenost všech úseků je stejná – 5 km. ABCD ABBCCDAD Dráha [km]55515 Rychlost [km/h] Čas [h]5/405/505/605/40 + 5/50 + 5/60 89

90 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že a)vzdálenost všech úseků je stejná – 5 km. ABCD ABBCCDAD Dráha [km]55515 Rychlost [km/h] Čas [h]5/405/505/605/40 + 5/50 + 5/60 Harmonický průměr 90

91 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b)Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. ABCD ABBCCD Dráha [km] 0,15AD0,60AD Rychlost [km/h]

92 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b)Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. ABCD ABBCCD Dráha [km] 0,15AD0,25AD0,60AD Rychlost [km/h]

93 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b)Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. ABCD ABBCCD Dráha [km] 0,15AD0,25AD0,60AD Rychlost [km/h] Čas [h] 0,15AD/400,25AD/500,60AD/60 93

94 2.Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že b)Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. ABCD ABBCCDAD Dráha [km] 0,15AD0,25AD0,60ADAD Rychlost [km/h] Čas [h] 0,15AD/400,25AD/500,60AD/60 0,15AD/40 + 0,25AD/50 + 0,60AD/60 Vážený harmonický průměr 94

95 3.Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie [Kč] 13. března 952, března ? 15. března 982,0 95

96 3.Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Průměrný denní relativní přírůstek ceny akcie byl 1,5%. Cena akcie [Kč] Koeficient růstu 13. března 952, března ??/952,5 15. března 982,0982,0/? Geometrický průměr 96

97 Výběrové kvantily 97

98 Význačné výběrové kvantily 98

99 Kde se s kvantily setkáme v praxi? Zdroj: https://scio.cz/nsz/vyhodnoceni.asphttps://scio.cz/nsz/vyhodnoceni.asp Vyhodnocení Národních srovnávacích zkoušek, … 99

100 Kde se s kvantily setkáme v praxi? vyhodnocení Národních srovnávacích zkoušek, … růstové grafy 100

101 101

102 Jak se výběrové kvantily určují? 102

103 4.V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] 8,7 7,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8 103

104 4.V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%]MN [%] (seřazeno) 8,74,9 7,86,8 7,86,8 9,77,8 15,77,8 6,88,7 4,99,7 6,

105 4.V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%]MN [%] (seřazeno) 8,74,9 7,86,8 7,86,8 9,77,8 15,77,8 6,88,7 4,99,7 6,

106 Efekt změny jednotky Jak se změní míry polohy, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, tak se průměr i medián změní o tutéž konstantu. Když každou hodnotu násobíme konstantou, průměr i medián jsou násobeny toutéž konstantou. 106

107 Míry variability 107

108 Míry variability -Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. -Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.

109 K čemu potřebujeme míry variability? 109

110 Zásahy střelce AZásahy střelce B Průměr?? 110

111 Zdroj: [1] Zásahy střelce AZásahy střelce B Průměr55 111

112 Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné. 112

113 Výběrová směrodatná odchylka 113

114 Jakou představu o variabilitě dat nám dává sm. odchylka? Empirické pravidlo 3 sigma k 10,682 20,954 30,998 k 1>0>0 2>0,75 3>0,89 114

115 Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) Čím nižší var. koeficient, tím homogennější soubor. V x > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky. 115

116 Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování 116

117 Efekt změny jednotky Jak se změní míry variability, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, vzdálenosti mezi hodnotami zůstanou zachovány. V důsledku toho se rozptyl ani směrodatná odchylka nezmění. Když každou hodnotu násobíme konstantou, rozptyl je násoben kvadrátem této konstanty (viz definice rozptylu), směrodatná odchylka je násobena danou konstantou.definice rozptylu 117

118 5.Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C 2. Určete průměrnou roční teplotu v Praze a její rozptyl ve stupních Fahrenheita. 118

119 MAD median absolute deviation from the median, čili česky: medián absolutních odchylek od mediánu pomocná proměnná pro identifikaci odlehlých pozorování Jak jej určíme? 1.Výběrový soubor uspořádáme podle velikosti. 2.Určíme medián souboru. 3.Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu. 4.Absolutní odchylky od mediánu uspořádáme podle velikosti. 5.Určíme medián absolutních odchylek od mediánu, tj. MAD. 119

120 Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: – hrubými chybami, překlepy, prokazatelným selháním lidí či techniky... – důsledky poruch, chybného měření, technologických chyb... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností. 120

121 Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb 121

122 Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb 122

123 MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 6.V předložených datech identifikujte odlehlá pozorování: 123

124 MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 6.V předložených datech identifikujte odlehlá pozorování: 124

125 Identifikace odlehlých pozorování Zase nový vzorec? 125

126 Identifikace odlehlých pozorování 126

127 Identifikace odlehlých pozorování 127

128 Míry šikmosti a špičatosti 128

129 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita,

130 Výběrová šikmost (standardizovaná) xxx obvykle 130

131 Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru x xx 131

132 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g 1, angl. skewness) a špičatost (g 2, angl. kurtosis). Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita,

133 Přesnost číselných charakteristik 133

134 Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky. 134

135 Chybný zápis číselných charakteristik Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,675117, Směrodatná odchylka 0,7823, (před zaokrouhlením 1235) Proč je zápis chybný? 135

136 Chybný zápis číselných charakteristik Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,675117, Směrodatná odchylka 0,7823, (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 136

137 Chybný zápis číselných charakteristik Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,675117, Směrodatná odchylka 0,7823, (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. 137

138 Chybný zápis číselných charakteristik Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,675117, Směrodatná odchylka 0,7823, (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru. 138

139 Oprava Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,68117, Směrodatná odchylka 0,7823, (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru. 139

140 Oprava Délka [m]Váha [kg]Teplota [ 0 C] Průměr2, Medián2, Směrodatná odchylka 0, (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru. 140

141 Správný zápis číselných charakteristik Délka [m]Váha [kg]Teplota [ 0 C] Průměr2,26127, Medián2,675117, Směrodatná odchylka 0,7823,

142 Grafické znázornění num. proměnné A.) Krabicový graf (Box plot) 142

143 Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor? 143

144 Grafické znázornění num. proměnné B.) Histogram 144

145 Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor? MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza 145

146 Souvislost mezi číselnými charakteristikami a grafy V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.Výběrové charakteristiky 146

147 Zajímavé odkazy k tématu Exploratorní statistika Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině Slovníček Interstat – sylabus popisné statistiky (nedokončeno) Interstat Jak nevytvářet grafy (anglicky) The Evil Tutor‘s GuideThe Evil Tutor‘s Guide Real Time Statistics Project Projekt GapminderGapminder Circular Statistics Toolbox (Matlab) Circular Statistics Toolbox 147

148 Děkuji za pozornost! 148


Stáhnout ppt "Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika."

Podobné prezentace


Reklamy Google