Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Výběrová šetření, Exploratorní analýza

Podobné prezentace


Prezentace na téma: "Výběrová šetření, Exploratorní analýza"— Transkript prezentace:

1 Výběrová šetření, Exploratorní analýza
Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných Popis kategoriální proměnné (číselné charakteristiky, grafy) Popis numerické proměnné (číselné charakteristiky, grafy)

2 Čím se zabývá teorie pravděpodobnosti?
Teorie pravděpodobnosti je matematická disciplína popisující zákonitosti týkající se náhodných jevů, tj. používá se k modelování náhodnosti a neurčitosti. (Náhodnost je spojena s nedostatečnou znalostí počátečních podmínek.)

3 Čím se zabývá statistika?
Rozvíjí znalosti na základě empirických dat. Co je to statistika? Google – odkazů (čeština), 2, odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

4 Proč je dobré znát (alespoň) základy statistiky?
„Informace, informace….“ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

5 Proč je dobré znát (alespoň) základy statistiky?
„Informace, informace….“ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

6 Základní pojmy ze statistické metodologie
Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme

7 Základní pojmy ze statistické metodologie
úplné šetření statistické zjišťování Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme

8 Základní pojmy ze statistické metodologie
statistické zjišťování Exploratorní (popisná) statistika Jak provádět statistické zjišťování? Pokus (kontrolovaný, znáhodněný, slepý, dvojitě slepý pokus) Šetření (výzkumník do průběhu šetření zasahuje co nejméně)

9 Základní pojmy ze statistické metodologie
výběrové šetření Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

10 Základní pojmy ze statistické metodologie
výběrové šetření Exploratorní (popisná) statistika

11 Statistické šetření Motto:
Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

12 Způsoby statistického šetření
Vyčerpávající šetření Výběrové šetření Výhody: menší personální, finanční a časová náročnost Nevýhody: mírou objektivnosti získaných informací je kvalita provedení výběrového šetření Výhody: přesnost a detailnost zjištěných informací Nevýhody: personální, finanční a časová náročnost

13 Výběrové šetření Výběr by měl být reprezentativní
tj. odrážet vlastnosti celé populace vzhledem ke sledovaným znakům. Opakem reprezentativního výběru je výběr selektivní (např. vzorek účastnic soutěže MISS ČR, z něhož chceme dělat závěry o váze v české populaci dívek ve věku let). Náhodný výběr, tj. výběr, v němž má každá statistická jednotka stejnou pravděpodobnost být zařazena do výběru. Reprezentuje všechny známé i neznámé vlastnosti populace. Umožňuje odhadnout velikost chyby, která je způsobena výběrovým šetřením. Opora (rámec) výběru – technická dokumentace umožňující výběr stat. jednotek do výběru.

14 Metody náhodného výběru
prostý náhodný výběr losováním, pomocí tabulek náhodných čísel systematický výběr založen na předem známém uspořádání populace (riziko souvislosti uspořádání s analyzovaným znakem), vybíráme každý k. prvek. oblastní (stratifikovaný) výběr populace rozdělena do heterogenních podskupin, v jejichž rámci je prováděn prostý náhodný, resp. systematický výběr. skupinový výběr populace je rozdělena do rovnocenných podskupin, tj. variabilita mezi podskupinami musí být co nejmenší. Poté je proveden prostý náhodný výběr podskupiny a následuje její úplné šetření. vícestupňový výběr Založen na hierarchickém popisu jednotek populace (např. kraje-města-školy).

15 Další metody výběru Anketa
tzv. samovýběr, tj. výběr jedinců je založen na rozhodnutí respondenta odpovědět na anketu nelze definovat populaci, na níž se výsledky vztahují Snowball sampling dotázaní uvádějí kontakt na další jedince vhodné pro výzkum dočasných populací (svědkové události, účastníci akce apod.) Záměrný výběr, tj. výběr založený na expertním stanovisku Metoda základního masivu prošetření velkých a středních jednotek

16

17 Exploratorní analýza dat

18 Typy proměnných Kvantitativní proměnná (numerická, číselná ...)
Kvalitativní proměnná (kategoriální, slovní...) Ordinální proměnná (lze uspořádat) Nominální proměnná (nelze uspořádat) Kvantitativní proměnná (numerická, číselná ...)

19 EDA pro kategoriální veličinu

20 Kategoriální veličina nominální (nemá smysl uspořádání)
(např. Typ SŠ, Barva auta, Pohlaví, …)

21 Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi x1 n1 p1=n1 /n x2 n2 p2=n2 /n xk nk pk=nk /n Celkem: n1+n2+…+nk=n 1 + Modus (název nejčetnější varianty)

22 Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti [%] Muž 457 58,2 Žena 328 41,8 Celkem: 785 100,0 Modus = Muž

23 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“

24 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart)

25 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart)

26 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart)

27 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart)

28 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart)

29 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

30 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat:

31 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly A na co ještě?

32 Který z grafů je „správný“?

33 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

34 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

35 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

36 Jste pro navýšení hodinové dotace Statistiky?
Anketa Jste pro navýšení hodinové dotace Statistiky? TAKHLE NE!!!

37 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu

38 Výskyt krevních skupin a Rh faktoru v USA
Krevní skupina Rh faktor Celkem Rh+ Rh- 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 84 16 100

39 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka A na co ještě?

40

41 2 grafy ještě chybí …

42 100% skládaný pruhový graf

43 B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

44 Kategoriální proměnná ordinální
(má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

45 TABULKA ROZDĚLENÍ ČETNOSTI
Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi Kumulativní četnosti mi Kumulativní relativní četnosti Fi x1 n1 p1=n1/n p1 x2 n2 p2=n2/n n1+n2 p1+p2 xk nk pk=nk/n n1+n2+…+nk=n p1+p2+…+pk=1 Celkem: 1 ---- Seřazené podle velikosti + Modus

46 TABULKA ROZDĚLENÍ ČETNOSTI
Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti Kumulativní relativní četnosti nízká 27 13,6 střední 146 73,7 173 87,4 vysoká 25 12,6 198 100,0 Celkem: Modus = střední

47 Sloupcový graf (bar chart)
Grafické znázornění Sloupcový graf (bar chart) B) Výsečový graf – koláčový graf (pie chart)

48 EDA pro numerická data

49 Číselné charakteristiky
Míry polohy (úrovně) Míry variability

50 Míry polohy

51 Aritmetický průměr

52 Průměrný věk 20 osob v místnosti je 25 let
Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se průměrný věk osob v místnosti? Pokud ano, jaký je „nový“ průměrný věk osob v místnosti?

53 Pozor na ošidnost aritmetického průměru!
Aritmetický průměr Pozor na ošidnost aritmetického průměru!

54 Jeden člověk sní celé kuře, druhý nic
Jeden člověk sní celé kuře, druhý nic. V průměru měl každý půlku kuřete, takže se oba dobře najedli. ??? Průměr slouží k získání charakteristik velkého souboru objektů, ale ne k popisu jednotlivých objektů z tohoto souboru.

55 Předpokládejme, že v malé vesnici žije 6 lidí, jejichž roční příjem byl: $ $ $ $ $ $ Jaký je jejich průměrný plat? ($31 830) Do vesničky se přistěhoval Bill Gates (roční příjem $ ) Jaký je nyní průměrný plat obyvatel vesnice? ($ )

56 Aritmetický průměr Na co si dát pozor?
Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox

57 Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg
Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000 zůstalo

58 Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg
Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

59 Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg
Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

60 Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg
Zemědělské družstvo dostalo kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo 700 1370 – 480 = 890

61 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha [km] 5 Rychlost [km/h] 40 50 60

62 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha [km] 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

63 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

64 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60

65 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60 Harmonický průměr

66 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,60AD Rychlost [km/h] 40 50 60

67 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60

68 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60

69 Vážený harmonický průměr
Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60 + 0,25AD/50 + 0,60AD/60 Vážený harmonický průměr

70 Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie [Kč] 13. března 952,50 14. března ? 15. března 982,0

71 Průměrný denní relativní přírůstek ceny akcie byl 1,5%.
Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Průměrný denní relativní přírůstek ceny akcie byl 1,5%. Cena akcie [Kč] Koeficient růstu 13. března 952,50 14. března ? ?/952,5 15. března 982,0 982,0/? Geometrický průměr

72 (100p% hodnot datového souboru je menších než toto číslo.)
Výběrové kvantily 100p %-ní kvantil 𝑥 𝑝 odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

73 Význačné výběrové kvantily
Kvartily Dolní kvartil 𝑥 0,25 Medián 𝑥 0,5 Horní kvartil 𝑥 0,75 Decily – 𝑥 0,1 ; 𝑥 0,2 ; ... ; 𝑥 0,9 Percentily – 𝑥 0,01 ; 𝑥 0,02 ; …; 𝑥 0,03 Minimum 𝑥 𝑚𝑖𝑛 a Maximum 𝑥 𝑚𝑎𝑥

74 Jak se výběrové kvantily určují?
Jedna z používaných metod: Výběrový soubor uspořádáme podle velikosti. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 100p%- ní kvantil je roven hodnotě proměnné s pořadím 𝑧 𝑝 , kde 𝑧 𝑝 =𝑛𝑝+0,5. Není-li 𝑧 𝑝 celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím 𝑧 𝑝 a 𝑧 𝑝 .

75 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil):
MN [%] 8,7 7,8 6,8 9,7 15,7 4,9 𝑧 𝑝 =𝑛𝑝+0,5

76 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil):
MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

77 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil):
MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑥 0,3 = 6,8+6,8 2 =𝟔,𝟖 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

78 Průměrný věk 20 osob v místnosti je 25 let
Průměrný věk 20 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se medián věku osob v místnosti? Pokud ano, jaký je „nový“ medián věku osob v místnosti?

79 Průměrný věk 21 osob v místnosti je 25 let
Průměrný věk 21 osob v místnosti je 25 let. 28 letý člověk odejde z místnosti a 30 letý člověk do místnosti vejde. Změní se medián věku osob v místnosti? Pokud ano, jaký je „nový“ medián věku osob v místnosti?

80 Efekt změny jednotky Jak se změní míry polohy, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, tak se průměr i medián změní o tutéž konstantu. Když každou hodnotu násobíme konstantou, průměr i medián jsou násobeny toutéž konstantou.

81 Míry variability

82 Výběrový rozptyl Na co si dát pozor?
Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

83 Výběrová směrodatná odchylka

84 Jakou představu o variabilitě dat nám dává sm. odchylka?
Čebyševova nerovnost: ∀𝑘>0: 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 >1− 1 𝑘 2 k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 >0 2 >0,75 3 >0,89 Empirické pravidlo 3 sigma k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 0,682 2 0,954 3 0,998

85 Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) Čím nižší var. koeficient, tím homogennější soubor. Vx > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

86 Interkvartilové rozpětí
𝐼𝑄𝑅= 𝑥 0, 𝑥 0,25 Užití: např. při identifikaci odlehlých pozorování

87 Efekt změny jednotky Jak se změní míry variability, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, vzdálenosti mezi hodnotami zůstanou zachovány. V důsledku toho se rozptyl ani směrodatná odchylka nezmění. Když každou hodnotu násobíme konstantou, rozptyl je násoben kvadrátem této konstanty (viz definice rozptylu), směrodatná odchylka je násobena danou konstantou.

88 Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C2
Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C2. Určete průměrnou roční teplotu v Praze a její rozptyl ve stupních Fahrenheita. 𝐹= 9𝐶 5 +32 𝑥 °𝐹 = 9 5 𝑥 °𝐶 +32=50,72°F 𝑠 2 °𝐹 2 = 𝑠 2 °𝐶 2 =0,81°F2

89 MAD median absolute deviation from the median, čili česky: medián absolutních odchylek od mediánu pomocná proměnná pro identifikaci odlehlých pozorování Jak jej určíme? Výběrový soubor uspořádáme podle velikosti. Určíme medián souboru. Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu. Absolutní odchylky od mediánu uspořádáme podle velikosti. Určíme medián absolutních odchylek od mediánu, tj. MAD.

90 Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

91 Identifikace odlehlých pozorování
Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

92 Identifikace extrémních pozorování
Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

93 V předložených datech identifikujte odlehlá pozorování:
MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 MN0,5=7,3 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3, Horní mez: 8,7+2,85=11,55

94 V předložených datech identifikujte odlehlá pozorování:
MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 MN0,5=7,3 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3, Horní mez: 8,7+2,85=11,55

95 Identifikace odlehlých pozorování
z-souřadnice 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Zase nový vzorec?

96 Identifikace odlehlých pozorování
z-souřadnice 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3𝜎!

97 Identifikace odlehlých pozorování
𝒙 𝟎,𝟓 -souřadnice 𝑥 0,5 −𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 0,5 1,483𝑀𝐴𝐷 Je-li 𝑥 0,5 −𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním.

98 Míry šikmosti a špičatosti

99 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

100 Výběrová šikmost (standardizovaná)
𝑎= 𝑛 𝑛−1 𝑛−2 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 3 x 𝑓 (x) x 𝑓 (x) x 𝑓 (x) 𝑎<0 negativně zešikmené rozdělení 𝑎=0 symetrické rozdělení 𝑎>0 pozitivně zešikmené rozdělení 𝑥 < 𝑥 0,5 < 𝑥 𝑥 > 𝑥 0,5 > 𝑥 𝑥 = 𝑥 0,5 = 𝑥 obvykle

101 Výběrová špičatost (standardizovaná)
míra koncentrace kolem průměru 𝑏= 𝑛 𝑛+1 𝑛−1 𝑛−2 𝑛−3 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 4 −3 𝑛− 𝑛−2 𝑛−3 x 𝑓 (x) x 𝑓 (x) x 𝑓 (x) 𝑏<0 špičatost menší než u norm. rozdělení (plošší rozdělení) 𝑏=0 špičatost odpovídající normálnímu rozdělení 𝑏>0 špičatost větší než u norm. rozdělení (špičatější rozdělení)

102 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

103 Přesnost číselných charakteristik

104 Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

105 Chybný zápis číselných charakteristik
Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?

106 Chybný zápis číselných charakteristik
Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.

107 Chybný zápis číselných charakteristik
Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.

108 Chybný zápis číselných charakteristik
Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

109 Oprava Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567
Medián 2,68 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

110 Oprava Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 128 14 567 Medián
2,675 118 13 700 Směrodatná odchylka 0,78 24 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

111 Správný zápis číselných charakteristik
Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

112 Grafické znázornění num. proměnné
A.) Krabicový graf (Box plot)

113 Grafické znázornění num. proměnné
B.) Histogram Na co si dát pozor?

114 Grafické znázornění num. proměnné
B.) Histogram

115 Grafické znázornění num. proměnné
B.) Histogram MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza Na co si dát pozor?

116 Souvislost mezi číselnými charakteristikami a grafy
V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.

117 Zajímavé odkazy k tématu Exploratorní statistika
Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině Interstat – sylabus popisné statistiky (nedokončeno) Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide Real Time Statistics Project Projekt Gapminder Circular Statistics Toolbox (Matlab)


Stáhnout ppt "Výběrová šetření, Exploratorní analýza"

Podobné prezentace


Reklamy Google