Máme data – a co dál? (2. část)

Slides:



Advertisements
Podobné prezentace
Číslo projektu CZ.1.07/1.5.00/ Název školy
Advertisements

KÓDOVANIE INFORMÁCIÍ Maroš Malý, 4.C.
Percentá Percentá každý deň a na každom kroku.
NÁZEV: VY_32_INOVACE_05_05_M6_Hanak TÉMA: Dělitelnost
Delavnica za konfiguriranje dostopovnih točk RAČUNALNIŠKA OMREŽJA
ALGORITMIZACE.
Jan Coufal, Julie Šmejkalová, Jiří Tobíšek
Obvod a obsah kruhu Prezentaci Mgr. Jan Kašpara (ZŠ Hejnice) upravila a doplnila Mgr. Eva Kaucká e.
Určitý integrál. Příklad.
Shodné zobrazení, osová souměrnost, středová souměrnost
Opakování na 4. písemnou práci
rtinzartos Napište slova, která obsahují uvedená písmena.
Cvičení Úloha 1: Rozhodněte zda posloupnost znaků v poli délky n tvoří palindrom (slovo, které je stejné při čtení zprava i zleva). Př.: [a,l,e,l,a]
Data Science aneb BigData v praxi
Slovní úlohy pro „autaře“
Emise a absorpce světla
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
Problematika spotřebitelských úvěrů
Elektrikcé pole.
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Dynamická pevnost a životnost Přednášky
Perspektivy budoucnosti lidstva
6. PŘEDNÁŠKA Diagnostické (screeningové) testy v epidemiologii
Základy elektrotechniky
NÁZEV: VY_32_INOVACE_08_12_M9_Hanak TÉMA: Jehlan OBSAH: Objem
Změny skupenství Ing. Jan Havel.
Seminář JČMF Matematika a fyzika ve škole
Test: Mechanické vlastnosti kapalin (1. část)
4.2 Deformace pevného kontinua 4.3 Hydrostatika
A ZÁROVEŇ HNED DOKONALÉ
Tělesa –Pravidelný šestiboký hranol
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
8.1.1 Lineární kombinace aritmetických vektorů
Fyzikální veličiny - čas
Číselné soustavy a kódy
Čas a souřadnice Lekce 3 Miroslav Jagelka.
Agregátní trh práce.
Jasnosti hvězd Lekce 10 Miroslav Jagelka.
Název prezentace (DUMu): Jednoduché úročení – řešené příklady
Konstrukce překladačů
DYNAMICKÉ VLASTOSTI ZEMIN A HORNIN
E-projekt: Jak změřit výšku budovy GJŠ
Parametry vedení a stejnosměrná vedení
Martina Litschmannová
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav technicko-technologický Logistika zemního plynu v České republice Autor diplomové práce:
Martina Litschmannová, Adéla Vrtková
ROZDĚLENÍ ÚHLŮ PODLE VELIKOSTI
Rovinný úhel a jeho orientace
Měření optické aktivity 4.1 Úvod (ukázky spekter)
Ohmův zákon Praktické ověření.
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Proudy a obvody Náboje v pohybu.
Číselné soustavy a kódy
Práce s nepájivým (kontaktním) polem
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Máme data – a co dál? (1. část)
NÁZEV: VY_32_INOVACE_06_11_M7_Hanak
Statistická indukce v praxi
NÁZEV: VY_32_INOVACE_08_01_M9_Hanak TÉMA: Soustavy lineárních rovnic
Studená válka.
Výukový materiál zpracovaný v rámci projektu
Ing. Marcela Strakošová
VZNIK ČESKOSLOVENSKA.
Škola ZŠ Masarykova, Masarykova 291, Valašské Meziříčí Autor
PRÁVNÍ ZÁKLADY STÁTU - VLAST
Je obtížnější „dělat“ marketing služby nebo hmotného produktu?
MAPA SVĚTA AFRIKA.
Dvacáté století – vznik Československa
Zakavkazsko.
Osvobození československa (1.)
Transkript prezentace:

Máme data – a co dál? (2. část) Martina Litschmannová, Adéla Vrtková

Obsah: Exploratorní (popisná) analýza kvantitativních dat Normální rozdělení Posouzení normality dat pomocí explorační analýzy

Typy statistických znaků (proměnných) Nominální varianty jsou ve formátu text nebo číselný kód o každých dvou variantách lze říci, zda jsou různé např. škola, fakulta, obor, výrobce, … Další dělení: dichotomické (alternativní), vícekategoriální (množné) Kvalitativní Ordinální (pořadová) varianty jsou ve fomátu text, datum nebo číslo u každých dvou variant lze stanovit jejich pořadí např. úroveň vzdělání, známka (A, B, …, E), úroveň spokojenosti, … Intervalové (rozdílové) varianty jsou v číselném formátu u každých dvou variant lze určit jejich pořadí a rozdíl např. teplota ve °C, chyba měření, … Kvantitativní (numerické, kardinální) Další dělení: diskrétní, spojité Poměrové varianty jsou v číselném formátu (pouze kladná čísla + nulový bod) u každých dvou variant lze určit jejich pořadí, rozdíl a podíl (poměr) např. teplota v K, velikost chyby měření, …

EDA pro kvantitativní proměnnou

Číselné charakteristiky Míry polohy (úrovně) Míry variability Míry šikmosti a špičatosti

Míry polohy Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.

Ošidný průměr Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý

Pozor na ošidnost aritmetického průměru! Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Pozor na ošidnost aritmetického průměru!

Zdroj: SWOBODA, Helmut. Moderní statistika., 1977. Ošidnost průměru Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.

Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1,0 (denně)

Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: SWOBODA, Helmut. Moderní statistika., 1977. Průměr může nabývat hodnot, které nepatří do definičního oboru proměnné!

Ošidnost průměru

Průměr není rezistentní vůči odlehlým pozorováním! Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. ($31 830) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $35 000 $37 000 $38 000 $40 000 000 ($5 741 571) Průměr není rezistentní vůči odlehlým pozorováním!

Ošidnost průměru Zdroj: Blesk, 9.4.2013

Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor? 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox

(100p% hodnot datového souboru je menších než toto číslo.) Výběrové kvantily 100p %-ní kvantil 𝑥 𝑝 odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné výběrové kvantily Kvartily Dolní kvartil 𝑥 0,25 Medián 𝑥 0,5 Horní kvartil 𝑥 0,75 Decily – 𝑥 0,1 ; 𝑥 0,2 ; ... ; 𝑥 0,9 Percentily – 𝑥 0,01 ; 𝑥 0,02 ; …; 𝑥 0,03 Minimum 𝑥 𝑚𝑖𝑛 a Maximum 𝑥 𝑚𝑎𝑥

Kde se s kvantily setkáme v praxi? vyhodnocení Národních srovnávacích zkoušek, … růstové grafy

Růstové grafy

Míry variability Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.

K čemu potřebujeme míry variability? Zdroj: SWOBODA, Helmut. Moderní statistika., 1977.

K čemu potřebujeme míry variability? Atlanta, Georgie prům. teplota 16°C San Diego, Kalifornie prům. teplota 17°C

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka

Jakou představu o variabilitě dat nám dává sm. odchylka? Čebyševova nerovnost: ∀𝑘>0: 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 >1− 1 𝑘 2 k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 >0 2 >0,75 3 >0,89 Empirické pravidlo 3 sigma k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 0,682 2 0,954 3 0,998

Variační koeficient 𝑉= 𝑠 𝑥 ∙100 (%) (Směrodatná odchylka v procentech aritmetického průměru. Používá se většinou pro proměnné nabývající nezáporných hodnot.) 𝑉= 𝑠 𝑥 ∙100 (%) Čím nižší var. koeficient, tím homogennější soubor. 𝑉 > 50 % značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Interkvartilové rozpětí 𝐼𝑄𝑅= 𝑥 0,75 - 𝑥 0,25 Užití: např. při identifikaci odlehlých pozorování

Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Dolní mez vnitřních hradeb Horní mez vnitřních hradeb Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Dolní mez vnějších hradeb Horní mez vnějších hradeb Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

V předložených datech identifikujte odlehlá pozorování: 4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

V předložených datech identifikujte odlehlá pozorování: 4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

Míry šikmosti a špičatosti

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

Výběrová šikmost (standardizovaná) 𝑎= 𝑛 𝑛−1 𝑛−2 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 3 𝑠 3 𝑎<−2 𝑥 < 𝑥 0,5 < 𝑥 Symetrická data Pozitivně zešikmená data Negativně zešikmená data 𝑎∈ −2;2 𝑥 = 𝑥 0,5 = 𝑥 𝑎>2 𝑥 > 𝑥 0,5 > 𝑥 empirické pravidlo

Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru 𝑏= 𝑛 𝑛+1 𝑛−1 𝑛−2 𝑛−3 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 4 𝑠 4 −3 𝑛−1 2 𝑛−2 𝑛−3 𝑏<−2 rozdělení plošší než normální r. 𝑏∈ −2;2 špičatost odpovídá normálnímu r. 𝑏>2 rozdělení špičatější než normální r.

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

Přesnost číselných charakteristik

Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,68 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 128 14 567 Medián 2,68 118 13 700 Směrodatná odchylka 0,78 24 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Správný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

Grafické znázornění kvantitativní proměnné

Krabicový graf (Box plot)

Histogram Pozor na zvolené členění - počet tříd!

Histogram

Histogram Pozor na interpretaci automaticky generovaných histogramů v MS Excel!

Normalita dat – častý předpoklad pro metody stat. indukce Normální rozdělení bývá vhodné k popisu náhodných veličin, které lze interpretovat jako aditivní výsledek mnoha nepatrných a vzájemně nezávislých faktorů (např. výška člověka, IQ, délky končetin …). Norm. rozdělení popisuje náhodné veličiny, jejichž hodnoty se symetricky shlukují kolem střední hodnoty a vytvářejí tak charakteristický tvar hustoty pravděpodobnosti známý pod názvem Gaussova křivka. 𝑋→𝑁 𝜇; 𝜎 2 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 1 2 𝑥−𝜇 𝜎 2 střední hodnota rozptyl

Normalita dat – častý předpoklad pro metody stat. indukce 𝑋→𝑁 𝜇; 𝜎 2 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 1 2 𝑥−𝜇 𝜎 2 Vliv s𝑡ř𝑒𝑑𝑛í ℎ𝑜𝑑𝑛𝑜𝑡𝑦 𝜇 na pozici Gaussovy křivky Vliv směrodatné odchylky 𝜎 na tvar Gaussovy křivky

Normalita dat – častý předpoklad pro metody stat. indukce 𝑋→𝑁 𝜇; 𝜎 2 Hustota pravděpodobnosti: 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒 − 1 2 𝑥−𝜇 𝜎 2 Distribuční funkce: 𝐹 𝑥 = 1 𝜎 2𝜋 −∞ 𝑥 𝑒 − 1 2 𝑡−𝜇 𝜎 2 𝑑𝑡 (integrál nelze řešit analyticky)

Normované (standardizované) normální rozdělení - 𝑁 0;1 𝑍→𝑁 0;1 Hustota pravděpodobnosti: 𝜑 𝑧 = 1 2𝜋 𝑒 − 1 2 𝑧 2 Distribuční funkce: Φ 𝑧 = 1 2𝜋 −∞ 𝑧 𝑒 − 1 2 𝑡 2 𝑑𝑡 Vlastnosti normovaného normálního rozdělení: Φ 𝑧 =1−Φ −𝑧 𝑧 𝑝 =− 𝑧 1−𝑝 , kde 𝑧 𝑝 je 𝑝-kvantil normovaného norm. rozdělení

Normované (standardizované) normální rozdělení 𝑍→𝑁 0;1 Hustota pravděpodobnosti: 𝜑 𝑧 = 1 2𝜋 𝑒 − 1 2 𝑧 2 Distribuční funkce: Φ 𝑧 = 1 2𝜋 −∞ 𝑧 𝑒 − 1 2 𝑡 2 𝑑𝑡 (Φ 𝑧 je tabelována pro 𝑥>0)

Standardizace normálního rozdělení Nechť 𝑋→𝑁 𝜇; 𝜎 2 . Definujme náhodnou veličinu Z, mnohdy nazývanou z-skóre, jako 𝑍= 𝑋−𝜇 𝜎 . Náhodná veličina Z má normované normální rozdělení, 𝑍→𝑁 0;1 . Mezi distribuční funkci normální náhodné veličiny X a normované normální náhodné veličiny Z platí převodní vztah 𝐹 𝑥 =Φ 𝑥−𝜇 𝜎 . Důkaz: 𝐹 𝑥 =𝑃 𝑋<𝑥 =𝑃 𝑍𝜎+𝜇<𝑥 =𝑃 𝑍< 𝑥−𝜇 𝜎 =Φ 𝑥−𝜇 𝜎

Pravidlo 3𝜎 Zdroj: http://www.sixsigma-institute.org/Six_Sigma_DMAIC_Process_Measure_Phase_Measurement_System.php

Posouzení normality dat na základě explorační analýzy Posouzení na základě číselných charakteristik Výběrová šikmost i špičatost blízká nule (v praxi – leží v intervalu −2;2 ) Posouzení na základě grafických výstupů Histogram Odhad hustoty pravděpodobnosti Odhad distribuční funkce (empirická distribuční funkce) Q-Q graf

Histogram Pozor na zvolené členění - počet tříd!

Odhad hustoty pravděpodobnosti

Empirická distribuční funkce

Q-Q graf – „Jak to funguje?“ výběrový 30% kvantil teoretický 30% kvantil Pokud jsou data výběrem z daného rozdělení, výběrové a teoretické kvantily by měly být shodné.

Q-Q graf

Q-Q graf

na základě explorační analýzy pro vybrané typy výběrových souborů Posuzování normality na základě explorační analýzy pro vybrané typy výběrových souborů

Q-Q graf ve tvaru S

DěkujEME za pozornost!