Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Máme data – a co dál? (2. část)

Podobné prezentace


Prezentace na téma: "Máme data – a co dál? (2. část)"— Transkript prezentace:

1 Máme data – a co dál? (2. část)
Martina Litschmannová, Adéla Vrtková

2 Obsah: Exploratorní (popisná) analýza kvantitativních dat
Normální rozdělení Posouzení normality dat pomocí explorační analýzy

3 Typy statistických znaků (proměnných)
Nominální varianty jsou ve formátu text nebo číselný kód o každých dvou variantách lze říci, zda jsou různé např. škola, fakulta, obor, výrobce, … Další dělení: dichotomické (alternativní), vícekategoriální (množné) Kvalitativní Ordinální (pořadová) varianty jsou ve fomátu text, datum nebo číslo u každých dvou variant lze stanovit jejich pořadí např. úroveň vzdělání, známka (A, B, …, E), úroveň spokojenosti, … Intervalové (rozdílové) varianty jsou v číselném formátu u každých dvou variant lze určit jejich pořadí a rozdíl např. teplota ve °C, chyba měření, … Kvantitativní (numerické, kardinální) Další dělení: diskrétní, spojité Poměrové varianty jsou v číselném formátu (pouze kladná čísla + nulový bod) u každých dvou variant lze určit jejich pořadí, rozdíl a podíl (poměr) např. teplota v K, velikost chyby měření, …

4 EDA pro kvantitativní proměnnou

5 Číselné charakteristiky
Míry polohy (úrovně) Míry variability Míry šikmosti a špičatosti

6 Míry polohy Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.

7 Ošidný průměr Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě Autor neznámý

8 Pozor na ošidnost aritmetického průměru!
Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Pozor na ošidnost aritmetického průměru!

9 Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.
Ošidnost průměru Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.

10 Ošidnost průměru Země K Průměrná produkce kuřat (na osobu):
1,0 (denně)

11 Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: SWOBODA, Helmut. Moderní statistika., 1977. Průměr může nabývat hodnot, které nepatří do definičního oboru proměnné!

12 Ošidnost průměru

13 Průměr není rezistentní vůči odlehlým pozorováním!
Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $ $ $29 000 $ $ $38 000 Určete průměrný plat obyvatel této vesnice. ($31 830) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $ $ $ $ $ ($ ) Průměr není rezistentní vůči odlehlým pozorováním!

14 Ošidnost průměru Zdroj: Blesk,

15 Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor?
𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox

16 (100p% hodnot datového souboru je menších než toto číslo.)
Výběrové kvantily 100p %-ní kvantil 𝑥 𝑝 odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

17 Význačné výběrové kvantily
Kvartily Dolní kvartil 𝑥 0,25 Medián 𝑥 0,5 Horní kvartil 𝑥 0,75 Decily – 𝑥 0,1 ; 𝑥 0,2 ; ... ; 𝑥 0,9 Percentily – 𝑥 0,01 ; 𝑥 0,02 ; …; 𝑥 0,03 Minimum 𝑥 𝑚𝑖𝑛 a Maximum 𝑥 𝑚𝑎𝑥

18 Kde se s kvantily setkáme v praxi?
vyhodnocení Národních srovnávacích zkoušek, … růstové grafy

19 Růstové grafy

20 Míry variability Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.

21 K čemu potřebujeme míry variability?
Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.

22 K čemu potřebujeme míry variability?
Atlanta, Georgie prům. teplota 16°C San Diego, Kalifornie prům. teplota 17°C

23 Výběrový rozptyl Na co si dát pozor?
Rozměr rozptylu je druhou mocninou rozměru proměnné.

24 Výběrová směrodatná odchylka

25 Jakou představu o variabilitě dat nám dává sm. odchylka?
Čebyševova nerovnost: ∀𝑘>0: 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 >1− 1 𝑘 2 k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 >0 2 >0,75 3 >0,89 Empirické pravidlo 3 sigma k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 0,682 2 0,954 3 0,998

26 Variační koeficient 𝑉= 𝑠 𝑥 ∙100 (%)
(Směrodatná odchylka v procentech aritmetického průměru. Používá se většinou pro proměnné nabývající nezáporných hodnot.) 𝑉= 𝑠 𝑥 ∙100 (%) Čím nižší var. koeficient, tím homogennější soubor. 𝑉 > 50 % značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

27 Interkvartilové rozpětí
𝐼𝑄𝑅= 𝑥 0, 𝑥 0,25 Užití: např. při identifikaci odlehlých pozorování

28 Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

29 Dolní mez vnitřních hradeb Horní mez vnitřních hradeb
Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

30 Dolní mez vnějších hradeb Horní mez vnějších hradeb
Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

31 V předložených datech identifikujte odlehlá pozorování:
4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

32 V předložených datech identifikujte odlehlá pozorování:
4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

33 Míry šikmosti a špičatosti

34 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

35 Výběrová šikmost (standardizovaná)
𝑎= 𝑛 𝑛−1 𝑛−2 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 3 𝑎<−2 𝑥 < 𝑥 0,5 < 𝑥 Symetrická data Pozitivně zešikmená data Negativně zešikmená data 𝑎∈ −2;2 𝑥 = 𝑥 0,5 = 𝑥 𝑎>2 𝑥 > 𝑥 0,5 > 𝑥 empirické pravidlo

36 Výběrová špičatost (standardizovaná)
míra koncentrace kolem průměru 𝑏= 𝑛 𝑛+1 𝑛−1 𝑛−2 𝑛−3 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 4 −3 𝑛− 𝑛−2 𝑛−3 𝑏<−2 rozdělení plošší než normální r. 𝑏∈ −2;2 špičatost odpovídá normálnímu r. 𝑏>2 rozdělení špičatější než normální r.

37 Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin?
Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

38 Přesnost číselných charakteristik

39 Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

40 Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?

41 Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.

42 Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.

43 Chybný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

44 Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567
Medián 2,68 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

45 Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 128 14 567 Medián
2,68 118 13 700 Směrodatná odchylka 0,78 24 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

46 Správný zápis číselných charakteristik
Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

47 Grafické znázornění kvantitativní proměnné

48 Krabicový graf (Box plot)

49 Histogram Pozor na zvolené členění - počet tříd!

50 Histogram

51 Histogram Pozor na interpretaci automaticky generovaných histogramů v MS Excel!

52 Normalita dat – častý předpoklad pro metody stat. indukce
Normální rozdělení bývá vhodné k popisu náhodných veličin, které lze interpretovat jako aditivní výsledek mnoha nepatrných a vzájemně nezávislých faktorů (např. výška člověka, IQ, délky končetin …). Norm. rozdělení popisuje náhodné veličiny, jejichž hodnoty se symetricky shlukují kolem střední hodnoty a vytvářejí tak charakteristický tvar hustoty pravděpodobnosti známý pod názvem Gaussova křivka. 𝑋→𝑁 𝜇; 𝜎 2 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 𝑥−𝜇 𝜎 2 střední hodnota rozptyl

53 Normalita dat – častý předpoklad pro metody stat. indukce
𝑋→𝑁 𝜇; 𝜎 2 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 𝑥−𝜇 𝜎 2 Vliv s𝑡ř𝑒𝑑𝑛í ℎ𝑜𝑑𝑛𝑜𝑡𝑦 𝜇 na pozici Gaussovy křivky Vliv směrodatné odchylky 𝜎 na tvar Gaussovy křivky

54 Normalita dat – častý předpoklad pro metody stat. indukce
𝑋→𝑁 𝜇; 𝜎 2 Hustota pravděpodobnosti: 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 1 2 𝑥−𝜇 𝜎 2 Distribuční funkce: 𝐹 𝑥 = 1 𝜎 2𝜋 −∞ 𝑥 𝑒 − 1 2 𝑡−𝜇 𝜎 2 𝑑𝑡 (integrál nelze řešit analyticky)

55 Normované (standardizované) normální rozdělení - 𝑁 0;1
𝑍→𝑁 0;1 Hustota pravděpodobnosti: 𝜑 𝑧 = 1 2𝜋 𝑒 − 1 2 𝑧 2 Distribuční funkce: Φ 𝑧 = 1 2𝜋 −∞ 𝑧 𝑒 − 1 2 𝑡 2 𝑑𝑡 Vlastnosti normovaného normálního rozdělení: Φ 𝑧 =1−Φ −𝑧 𝑧 𝑝 =− 𝑧 1−𝑝 , kde 𝑧 𝑝 je 𝑝-kvantil normovaného norm. rozdělení

56 Normované (standardizované) normální rozdělení
𝑍→𝑁 0;1 Hustota pravděpodobnosti: 𝜑 𝑧 = 1 2𝜋 𝑒 − 1 2 𝑧 2 Distribuční funkce: Φ 𝑧 = 1 2𝜋 −∞ 𝑧 𝑒 − 1 2 𝑡 2 𝑑𝑡 (Φ 𝑧 je tabelována pro 𝑥>0)

57 Standardizace normálního rozdělení
Nechť 𝑋→𝑁 𝜇; 𝜎 2 . Definujme náhodnou veličinu Z, mnohdy nazývanou z-skóre, jako 𝑍= 𝑋−𝜇 𝜎 . Náhodná veličina Z má normované normální rozdělení, 𝑍→𝑁 0;1 . Mezi distribuční funkci normální náhodné veličiny X a normované normální náhodné veličiny Z platí převodní vztah 𝐹 𝑥 =Φ 𝑥−𝜇 𝜎 . Důkaz: 𝐹 𝑥 =𝑃 𝑋<𝑥 =𝑃 𝑍𝜎+𝜇<𝑥 =𝑃 𝑍< 𝑥−𝜇 𝜎 =Φ 𝑥−𝜇 𝜎

58 Pravidlo 3𝜎 Zdroj:

59 Posouzení normality dat na základě explorační analýzy
Posouzení na základě číselných charakteristik Výběrová šikmost i špičatost blízká nule (v praxi – leží v intervalu −2;2 ) Posouzení na základě grafických výstupů Histogram Odhad hustoty pravděpodobnosti Odhad distribuční funkce (empirická distribuční funkce) Q-Q graf

60 Histogram Pozor na zvolené členění - počet tříd!

61 Odhad hustoty pravděpodobnosti

62 Empirická distribuční funkce

63 Q-Q graf – „Jak to funguje?“
výběrový 30% kvantil teoretický 30% kvantil Pokud jsou data výběrem z daného rozdělení, výběrové a teoretické kvantily by měly být shodné.

64 Q-Q graf

65 Q-Q graf

66 na základě explorační analýzy pro vybrané typy výběrových souborů
Posuzování normality na základě explorační analýzy pro vybrané typy výběrových souborů

67

68

69 Q-Q graf ve tvaru S

70

71 DěkujEME za pozornost!


Stáhnout ppt "Máme data – a co dál? (2. část)"

Podobné prezentace


Reklamy Google