Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilMarek Bílek
1
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní obrázek. Martina Litschmannová MÁME DATA – A CO DÁL? (II.)
2
Obsah: Exploratorní (popisná) analýza kvantitativních dat Číselné charakteristiky Odlehlá pozorování Grafické zobrazení Exploratorní (popisná) analýza kvantitativních dat s využitím statistického software
3
Exploratorní analýza kvantitativní proměnné Číselné charakteristiky A)Míry polohy (úrovně) B)Míry variability C)Míry šikmosti a špičatosti
4
Míry polohy -Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. -Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. -Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.
5
Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý Ošidný průměr
6
Aritmetický průměr
8
Ošidnost průměru Zdroj: [1]
9
Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1,0 (denně)
10
Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: [1]
11
Ošidnost průměru
12
V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. ($31 830) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 $40 000 000 Určete průměrný plat obyvatel této vesnice. ($5 741 571)
13
Ošidnost průměru Zdroj: Blesk, 9.4.2013
14
Aritmetický průměr
15
Výběrové kvantily
16
Význačné výběrové kvantily
17
Kde se s kvantily setkáme v praxi? Zdroj: https://scio.cz/nsz/vyhodnoceni.asphttps://scio.cz/nsz/vyhodnoceni.asp Vyhodnocení Národních srovnávacích zkoušek, …
18
Kde se s kvantily setkáme v praxi? vyhodnocení Národních srovnávacích zkoušek, … růstové grafy
19
Růstové grafy
20
Jak se výběrové kvantily určují?
21
MN (%) 8,7 7,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). 1
22
MN (%)MN (%) (seřazeno) 8,74,9 7,86,8 7,86,8 9,77,8 15,77,8 6,88,7 4,99,7 6,816 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). 1
23
MN (%)MN (%) (seřazeno) 8,74,9 7,86,8 7,86,8 9,77,8 15,77,8 6,88,7 4,99,7 6,816 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). 1
24
MN (%)MN (%) (seřazeno) 8,74,9 7,86,8 7,86,8 9,77,8 15,77,8 6,88,7 4,99,7 6,816 V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). 1
25
Míry variability -Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. -Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.
26
Zásahy střelce AZásahy střelce B 41 55 69 Průměr?? K čemu potřebujeme míry variability?
27
Zásahy střelce AZásahy střelce B 41 55 69 Průměr?? K čemu potřebujeme míry variability? Zdroj: [1]
28
Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Lze doporučit zavedení nové technologie do výroby? K čemu potřebujeme míry variability?
29
Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Lze doporučit zavedení nové technologie do výroby? K čemu potřebujeme míry variability?
30
Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.
31
Výběrová směrodatná odchylka
32
Jakou představu o variabilitě dat nám dává sm. odchylka? Empirické pravidlo 3 sigma k 10,682 20,954 30,998 k 1>0>0 2>0,75 3>0,89
33
Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) Čím nižší var. koeficient, tím homogennější soubor. V x > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.
34
Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování
35
Odlehlá pozorování
36
ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky... důsledky poruch, chybného měření, technologických chyb... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.
37
Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb Identifikace odlehlých pozorování
38
Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb Identifikace extrémních pozorování
39
MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 V předložených datech identifikujte odlehlá pozorování: 2
40
MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 V předložených datech identifikujte odlehlá pozorování: 2
41
Míry šikmosti a špičatosti
42
Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008
43
Výběrová šikmost (standardizovaná) Symetrická dataPozitivně zešikmená data Negativně zešikmená data empirické pravidlo
44
Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru
45
Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g 1, angl. skewness) a špičatost (g 2, angl. kurtosis). Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008
46
Přesnost číselných charakteristik
47
Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.
48
Chybný zápis číselných charakteristik Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 567 Medián2,675117,813 700 Směrodatná odchylka 0,7823,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?
49
Chybný zápis číselných charakteristik Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 567 Medián2,675117,813 700 Směrodatná odchylka 0,7823,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.
50
Chybný zápis číselných charakteristik Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 567 Medián2,675117,813 700 Směrodatná odchylka 0,7823,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.
51
Chybný zápis číselných charakteristik Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 567 Medián2,675117,813 700 Směrodatná odchylka 0,7823,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.
52
Oprava Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 567 Medián2,68117,813 700 Směrodatná odchylka 0,7823,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.
53
Oprava Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,2612814 567 Medián2,6811813 700 Směrodatná odchylka 0,7824 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.
54
Správný zápis číselných charakteristik Délka (m)Váha (kg)Teplota ( 0 C) Průměr2,26127,614 600 Medián2,675117,813 700 Směrodatná odchylka 0,7823,71 300
55
Grafické znázornění kvantitativní proměnné
56
Krabicový graf (Box plot)
57
Na co si dát pozor? Histogram
59
Na co si dát pozor? MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza 59 Histogram
60
Literatura Litschmannová, M. (2012), Úvod do statistiky, elektronická skripta a doplňkové interaktivní materiály (kapitola Explorační analýza proměnných)Úvod do statistiky Zvárová, J. (1999), Základy statistiky pro biomedicínské obory, dostupné on-line: http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html (kapitola 5) http://new.euromise.org/czech/tajne/ucebnice/html/html/statist.html Pavlík, T., Dušek, L. (2012), Biostatistika, Akademické nakladatelství CERM, ISBN 978-80-7204-782-6 (kapitola 2)Biostatistika
61
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní obrázek. DĚKUJI ZA POZORNOST!
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.