Martina Litschmannová

Slides:



Advertisements
Podobné prezentace
Číslo projektu CZ.1.07/1.5.00/ Název školy
Advertisements

KÓDOVANIE INFORMÁCIÍ Maroš Malý, 4.C.
Percentá Percentá každý deň a na každom kroku.
NÁZEV: VY_32_INOVACE_05_05_M6_Hanak TÉMA: Dělitelnost
Delavnica za konfiguriranje dostopovnih točk RAČUNALNIŠKA OMREŽJA
ALGORITMIZACE.
Jan Coufal, Julie Šmejkalová, Jiří Tobíšek
Obvod a obsah kruhu Prezentaci Mgr. Jan Kašpara (ZŠ Hejnice) upravila a doplnila Mgr. Eva Kaucká e.
Určitý integrál. Příklad.
Shodné zobrazení, osová souměrnost, středová souměrnost
Opakování na 4. písemnou práci
rtinzartos Napište slova, která obsahují uvedená písmena.
Cvičení Úloha 1: Rozhodněte zda posloupnost znaků v poli délky n tvoří palindrom (slovo, které je stejné při čtení zprava i zleva). Př.: [a,l,e,l,a]
Data Science aneb BigData v praxi
Slovní úlohy pro „autaře“
Emise a absorpce světla
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
Problematika spotřebitelských úvěrů
Elektrikcé pole.
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Dynamická pevnost a životnost Přednášky
Perspektivy budoucnosti lidstva
6. PŘEDNÁŠKA Diagnostické (screeningové) testy v epidemiologii
Základy elektrotechniky
NÁZEV: VY_32_INOVACE_08_12_M9_Hanak TÉMA: Jehlan OBSAH: Objem
Změny skupenství Ing. Jan Havel.
Seminář JČMF Matematika a fyzika ve škole
Test: Mechanické vlastnosti kapalin (1. část)
4.2 Deformace pevného kontinua 4.3 Hydrostatika
A ZÁROVEŇ HNED DOKONALÉ
Tělesa –Pravidelný šestiboký hranol
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
8.1.1 Lineární kombinace aritmetických vektorů
Fyzikální veličiny - čas
Číselné soustavy a kódy
Čas a souřadnice Lekce 3 Miroslav Jagelka.
Agregátní trh práce.
Jasnosti hvězd Lekce 10 Miroslav Jagelka.
Název prezentace (DUMu): Jednoduché úročení – řešené příklady
Konstrukce překladačů
DYNAMICKÉ VLASTOSTI ZEMIN A HORNIN
E-projekt: Jak změřit výšku budovy GJŠ
Parametry vedení a stejnosměrná vedení
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav technicko-technologický Logistika zemního plynu v České republice Autor diplomové práce:
Martina Litschmannová, Adéla Vrtková
ROZDĚLENÍ ÚHLŮ PODLE VELIKOSTI
Rovinný úhel a jeho orientace
Měření optické aktivity 4.1 Úvod (ukázky spekter)
Ohmův zákon Praktické ověření.
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Proudy a obvody Náboje v pohybu.
Číselné soustavy a kódy
Práce s nepájivým (kontaktním) polem
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Máme data – a co dál? (1. část)
NÁZEV: VY_32_INOVACE_06_11_M7_Hanak
Statistická indukce v praxi
NÁZEV: VY_32_INOVACE_08_01_M9_Hanak TÉMA: Soustavy lineárních rovnic
Studená válka.
Výukový materiál zpracovaný v rámci projektu
Ing. Marcela Strakošová
VZNIK ČESKOSLOVENSKA.
Škola ZŠ Masarykova, Masarykova 291, Valašské Meziříčí Autor
PRÁVNÍ ZÁKLADY STÁTU - VLAST
Je obtížnější „dělat“ marketing služby nebo hmotného produktu?
MAPA SVĚTA AFRIKA.
Dvacáté století – vznik Československa
Zakavkazsko.
Osvobození československa (1.)
Protektorát Čechy a Morava
Transkript prezentace:

Martina Litschmannová Máme data – a co dál? Martina Litschmannová

Obsah: Co je to statistika? Jak provést statistické šetření? Jak analyzovat data? Exploratorní (popisná) analýza kategoriálních dat Exploratorní (popisná) analýza kvantitativních dat

Google – 3.106 odkazů (čeština), 58.106 odkazů (angličtina) Co je to statistika? Google – 3.106 odkazů (čeština), 58.106 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Co vypovídá statistika o jednotlivci? skaut občan ČR tanečník Lukáš Pavlásek (jednotlivec) Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti). Statistika je nauka o hromadných jevech.

Jak provést statistické šetření? úplné šetření výběrové šetření = ZÁKLADNÍ SOUBOR REPREZENTATIVNÍ výběr statistická jednotka statistické znaky – údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, …)

Jak analyzovat data? Statistická indukce Exploratorní (popisná) statistika Exploratorní (popisná) statistika

Exploratorní analýza dat Grafická prezentace a uspořádání dat do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Typy statistických znaků (proměnných) Typy proměnných Kvalitativní proměnná (kategoriální, slovní...) Kvantitativní proměnná (numerická, číselná ...)

EDA pro kvalitativní veličinu

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty 𝑥𝑖 Absolutní četnosti 𝑛𝑖 Relativní četnosti 𝑝𝑖 x1 𝑛1 𝑝1=𝑛1 /𝑛 𝑥2 𝑛2 𝑝2=𝑛2 /𝑛 ⋮ 𝑥𝑘 𝑛𝑘 𝑝𝑘=𝑛𝑘 /𝑛 Celkem: 𝑛1+𝑛2+…+𝑛𝑘=𝑛 1 + Modus (název nejčetnější varianty)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,37864 Žena 85 41,26214 Dítě 44 21,35922 Celkem: 206 100,00000 1% … 2,06 osob 0,00001% ... 0,0000206 osob 0,1% … 0,206 osob Jak zaokrouhlovat relativní četnost?

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,4 Celkem: 206 100,1 POZOR na zaokrouhlovací chybu!

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,3 Celkem: 206 100,0 Dopočet do 100%!

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Typ pasažéra Absolutní četnosti Relativní četnosti (%) Muž ? 37,4 Žena 41,3 Dítě 21,3 Celkem: 206 100,0 Relativní četnosti uvádějme vždy pouze jako doplněk absolutních četností, nikoliv samostatně!

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat: http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly A na co ještě?

Který z grafů je „správný“?

Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný. Zdroj: Testové příklady určené žákům 9. tříd.

? Určete pravdivost tvrzení: 241 240 ? Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný. Zdroj: Testové příklady určené žákům 9. tříd.

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly Informativní hodnota grafu

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Jaký je poměr mezi velikostí výsečí A a C? Jaký je poměr mezi velikostí výsečí B a D?

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

Jste pro navýšení hodinové dotace Biostatistiky? Anketa Jste pro navýšení hodinové dotace Biostatistiky? TAKHLE NE!!!

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu

Výskyt krevních skupin a Rh faktoru v USA Krevní skupina Rh faktor Celkem Rh+ Rh- 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 84 16 100 Procentuální zastoupení krevních skupin v populaci USA

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka

Zdroj: Testové příklady určené žákům 9. tříd. Co je to A, B, C, D? Jsou výseče odpovídající variantám B a D stejně velké? Lze velikosti jednotlivých výsečí charakterizovat v absolutních číslech i v procentech? Určete pravdivost tvrzení: Místo otazníku patří 20%. Místo otazníku patří 126 Kč. Část C je dvojnásobkem části D. Rozdělení četností kvalitativního znaku se znázorňuje kruhovým diagramem, kde různým hodnotám znaku odpovídají kruhové výseče, jejichž plošné obsahy jsou úměrné četnostem. (Prometheus)

Grafické znázornění Sloupcový graf (bar chart) Výsečový graf – koláčový graf (pie chart) Obrázkové grafy

Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

Několik praktických příkladů aneb „To přece bylo v novinách…“

Obrázkové grafy – užiteční pomocníci? infografika (Zdroj: Mf Dnes, 10. 7. 2014: Zemědělci si rozdělí miliardy. Krávy a vepři se budou mít lépe.

„Úžasná infografika o výdajích státního rozpočtu České republiky v roce 2013“ Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/

Zdroj: http://www. estat

Příklad s klobásou

Příklad s klobásou

Souboj vyhledávačů Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx

Souboj vyhledávačů Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx

Jak výsledky šetření zobrazit správně?

Jak výsledky šetření zobrazit správně?

Průzkum o představách studentů o budoucím zaměstnání Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)

Průzkum o představách studentů o budoucím zaměstnání S přesností na setinu procenta… 1000 studentů … 100% 10 studentů … 1% 0,1 studentů … 0,01% Proč není součet 100%? Čemu odpovídá velikost jednotlivých částí prstence? Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)

Jak výsledky šetření zobrazit správně? Co je pro Vás důležité při výběru zaměstnání? (vyberte 3 pro Vás nejdůležitější faktory) četnost rel. četnost (%) rel. četnost (%) vzhledem k počtu respondentů plat 692 22 67 profesní růst 550 18 53 atraktivita pracovní pozice 493 16 48 pracovní prostředí 479 47 work-life balance 443 14 43 benefity 234 8 23 reputace společnosti 199 6 19 celkem 3090 100% ---

Jak výsledky šetření zobrazit správně?

Zdroj: Twitter @strakovka (20. srpna 2015)

Zdroj: Dotyk, týdeník, 34. číslo, 21. 8. 2015, ISSN: 1805-9465

Pozor na logaritmické měřítko!

Zdroj: http://thefederalist.com/2015/09/30/ Nemíchejme jabka s hruškami!!!

EDA pro kvantitativní veličinu

Číselné charakteristiky Míry polohy (úrovně) Míry variability Míry šikmosti a špičatosti

Míry polohy Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.

Ošidný průměr Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý

Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛

Pozor na ošidnost aritmetického průměru! Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Pozor na ošidnost aritmetického průměru!

Ošidnost průměru Zdroj: [1]

Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1,0 (denně)

„Průměrná rodina má 2,2 dítěte.“ Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: [1]

Ošidnost průměru

Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. ($31 830) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $35 000 $37 000 $38 000 $40 000 000 ($5 741 571)

Ošidnost průměru Zdroj: Blesk, 9.4.2013

Ošidnost průměru Zdroj: Blesk, 12.3.2014

Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015 Ošidnost průměru Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015

Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015 Ošidnost průměru Zdroj: https://www.czso.cz/csu/czso/cri/prumerne-mzdy-2-ctvrtleti-2015

Ošidnost průměru

Aritmetický průměr 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor? 𝑥 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha (km) 5 Rychlost (km/h) 40 50 60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha (km) 5 Rychlost (km/h) 40 50 60 Čas (h) 5/40 5/50 5/60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha (km) 5 Rychlost (km/h) 40 50 60 Čas (h) 5/40 5/50 5/60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha (km) 5 15 Rychlost (km/h) 40 50 60 Čas (h) 5/40 5/50 5/60 5/40 + 5/50 + 5/60 Harmonický průměr

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha (km) 0,15AD 0,25AD 0,60AD Rychlost (km/h) 40 50 60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha (km) 0,15AD 0,25AD 0,60AD Rychlost (km/h) 40 50 60 Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha (km) 0,15AD 0,25AD 0,60AD Rychlost (km/h) 40 50 60 Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60

1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha (km) 0,15AD 0,25AD 0,60AD Rychlost (km/h) 40 50 60 Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60 0,15AD/40 + 0,25AD/50 + 0,60AD/60

Vážený harmonický průměr 1 Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha (km) 0,15AD 0,25AD 0,60AD Rychlost (km/h) 40 50 60 Čas (h) 0,15AD/40 0,25AD/50 0,60AD/60 0,15AD/40 + 0,25AD/50 + 0,60AD/60 Vážený harmonický průměr

Průměrný denní relativní přírůstek ceny akcie byl 1,5%. 2 Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie (Kč) Koeficient růstu 13. března 952,50 14. března ? ?/952,5 15. března 982,0 982,0/? Geometrický průměr Průměrný denní relativní přírůstek ceny akcie byl 1,5%.

(100p% hodnot datového souboru je menších než toto číslo.) Výběrové kvantily 100p %-ní kvantil 𝑥 𝑝 odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné výběrové kvantily Kvartily Dolní kvartil 𝑥 0,25 Medián 𝑥 0,5 Horní kvartil 𝑥 0,75 Decily – 𝑥 0,1 ; 𝑥 0,2 ; ... ; 𝑥 0,9 Percentily – 𝑥 0,01 ; 𝑥 0,02 ; …; 𝑥 0,03 Minimum 𝑥 𝑚𝑖𝑛 a Maximum 𝑥 𝑚𝑎𝑥

Kde se s kvantily setkáme v praxi? Vyhodnocení Národních srovnávacích zkoušek, … Zdroj: https://scio.cz/nsz/vyhodnoceni.asp

Kde se s kvantily setkáme v praxi? vyhodnocení Národních srovnávacích zkoušek, … růstové grafy

Růstové grafy

Jak se výběrové kvantily určují? Jedna z používaných metod: Výběrový soubor uspořádáme podle velikosti. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí 𝑛 (rozsah souboru). 100𝑝%- ní kvantil je roven hodnotě proměnné s pořadím 𝑧 𝑝 , kde 𝑧 𝑝 =𝑛𝑝+0,5. Není-li 𝑧 𝑝 celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím 𝑧 𝑝 a 𝑧 𝑝 .

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). MN (%) 8,7 7,8 6,8 9,7 15,7 4,9

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑧 𝑝 =𝑛𝑝+0,5

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil). MN (%) MN (%) (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑥 0,3 = 6,8+6,8 2 =𝟔,𝟖 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

Míry variability Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.

K čemu potřebujeme míry variability?   Zásahy střelce A Zásahy střelce B 4 1 5 6 9 Průměr

K čemu potřebujeme míry variability?   Zásahy střelce A Zásahy střelce B 4 1 5 6 9 Průměr Zdroj: [1]

K čemu potřebujeme míry variability? Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Lze doporučit zavedení nové technologie do výroby?

K čemu potřebujeme míry variability? Firma vyrábějící tabulové sklo vyvinula méně nákladnou technologii pro zlepšení odolnosti skla vůči žáru. Pro testování bylo vybráno 100 tabulí skla a rozřezáno na polovinu. Jedna polovina pak byla ošetřena novou technologií, zatímco druhá byla ponechána jako kontrolní. Výsledky jsou prezentovány v následujícím grafu. Lze doporučit zavedení nové technologie do výroby?

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka

Jakou představu o variabilitě dat nám dává sm. odchylka? Čebyševova nerovnost: ∀𝑘>0: 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 >1− 1 𝑘 2 k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 >0 2 >0,75 3 >0,89 Empirické pravidlo 3 sigma k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 0,682 2 0,954 3 0,998

Variační koeficient 𝑉= 𝑠 𝑥 ∙100 (%) (Směrodatná odchylka v procentech aritmetického průměru) 𝑉= 𝑠 𝑥 ∙100 (%) Čím nižší var. koeficient, tím homogennější soubor. 𝑉 > 50 % značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Interkvartilové rozpětí 𝐼𝑄𝑅= 𝑥 0,75 - 𝑥 0,25 Užití: např. při identifikaci odlehlých pozorování

Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Dolní mez vnitřních hradeb Horní mez vnitřních hradeb Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Dolní mez vnějších hradeb Horní mez vnějších hradeb Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

V předložených datech identifikujte odlehlá pozorování: 4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

V předložených datech identifikujte odlehlá pozorování: 4 V předložených datech identifikujte odlehlá pozorování: MN (%) 4,9 6,8 7,8 8,7 9,7 15,7 𝑀𝑁 0,25 =𝟔,𝟖 𝑀𝑁 0,5 =7,3 𝐼𝑄𝑅= 𝑀𝑁 0,75 − 𝑀𝑁 0,25 =1,9 1,5∙𝐼𝑄𝑅=2,85 𝑀𝑁 0,75 =8,7 Vnitřní hradby: Dolní mez: 6,8−2,85=𝟑,𝟗𝟓 Horní mez: 8,7+2,85=𝟏𝟏,𝟓𝟓

Identifikace odlehlých pozorování 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Zase nový vzorec?

Identifikace odlehlých pozorování 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3𝜎!

Míry šikmosti a špičatosti

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

Výběrová šikmost (standardizovaná) 𝑎= 𝑛 𝑛−1 𝑛−2 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 3 𝑠 3 𝑎<−2 𝑥 < 𝑥 0,5 < 𝑥 Symetrická data Pozitivně zešikmená data Negativně zešikmená data 𝑎∈ −2;2 𝑥 = 𝑥 0,5 = 𝑥 𝑎>2 𝑥 > 𝑥 0,5 > 𝑥 empirické pravidlo

Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru 𝑏= 𝑛 𝑛+1 𝑛−1 𝑛−2 𝑛−3 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 4 𝑠 4 −3 𝑛−1 2 𝑛−2 𝑛−3 𝑏<−2 rozdělení plošší než normální r. 𝑏∈ −2;2 špičatost odpovídá normálnímu r. 𝑏>2 rozdělení špičatější než normální r.

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

Přesnost číselných charakteristik

Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.

Chybný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 567 Medián 2,68 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 128 14 567 Medián 2,68 118 13 700 Směrodatná odchylka 0,78 24 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Správný zápis číselných charakteristik Délka (m) Váha (kg) Teplota (0C) Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

Grafické znázornění kvantitativní proměnné

Krabicový graf (Box plot)

Histogram Na co si dát pozor?

Histogram

Histogram Na co si dát pozor? MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.

Děkuji za pozornost!