Výběrová šetření, Exploratorní analýza

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Základní statistické pojmy
Okna vesmíru statistiky dokořán
Statistické charakteristiky variability
EDA pro časové řady.
Odhady parametrů základního souboru
EXPLORATORNÍ STATISTIKA
Charakteristiky variability
BOX - PLOT OA a VOŠ Příbram.
Statistika Vypracoval: Mgr. Lukáš Bičík
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Základní statistické pojmy a postupy
Tloušťková struktura porostu
Obsah statistiky Jana Zvárová
Řízení a supervize v sociálních a zdravotnických organizacích
Statistický soubor, jednotka, znak.
Základní statistické charakteristiky
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Statistika 2. přednáška Ing. Marcela Čapková.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Charakteristiky variability
Popisná statistika III
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
VY_32_INOVACE_21-15 Statistika 1 Základní pojmy.
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Metrologie   Přednáška č. 5 Nejistoty měření.
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Biostatistika 8. přednáška
Základy pedagogické metodologie
… jak jsem na tom ve srovnání s ostatními?
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Charakteristiky variability VY_32_INOVACE_M4r0120 Mgr. Jakub Němec.
Základy popisné statistiky
Výběrová šetření, Exploratorní analýza
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Charakteristiky úrovně Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Martina Litschmannová
Číslo a název projektu: CZ /1. 5
- váhy jednotlivých studií
Statistika 2.cvičení
Popisná statistika: přehled
Popisná analýza v programu Statistica
Statistika - opakovací test k procvičení
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Induktivní statistika
METODOLOGIE MAGISTERSKÉ PRÁCE
Spojitá a kategoriální data Základní popisné statistiky
Název: Chyby měření Autor: Petr Hart, DiS.
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Deskriptivní statistika
Metodologie pro ISK 2 Úvod do práce s daty
Výukový materiál zpracován v rámci projektu EU peníze školám
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Náhodné výběry a jejich zpracování
Transkript prezentace:

Výběrová šetření, Exploratorní analýza Přednáška 5 Výběrová šetření, Exploratorní analýza Pravděpodobnost vs. statistika Výběrová šetření aneb jak získat výběrový soubor Exploratorní statistika aneb jak popsat výběrový soubor Typy proměnných Popis kategoriální proměnné (číselné charakteristiky, grafy) Popis numerické proměnné (číselné charakteristiky, grafy) Statistika, FEI, VŠB-TU Ostrava © Litschmannová, 2015

Čím se zabývá teorie pravděpodobnosti? Teorie pravděpodobnosti je matematická disciplína popisující zákonitosti týkající se náhodných jevů, tj. používá se k modelování náhodnosti a neurčitosti. (Náhodnost je spojena s nedostatečnou znalostí počátečních podmínek.)

Čím se zabývá statistika? Rozvíjí znalosti na základě empirických dat. Co je to statistika? Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Co vypovídá statistika o jednotlivci? skaut občan ČR podnikatel Lukáš Pavlásek (jednotlivec) Statistika nezkoumá jednotlivce jako individualitu, ale jako anonymního nositele některého znaku (činnosti, vlastnosti). Statistika je nauka o hromadných jevech.

Jak provést statistické šetření? Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýzy dat Jak provést statistické šetření? úplné šetření = ZÁKLADNÍ SOUBOR statistické znaky – údaje, které u statistických znaků sledujeme (např. váha, výška, IQ, …) statistická jednotka

Jak provést statistické šetření? Co je to statistika? teoretická disciplína, která se zabývá metodami sběru a analýzy dat Jak provést statistické šetření? úplné šetření výběrové šetření REPREZENTATIVNÍ výběr

Co je to statistika? Jak analyzovat data? teoretická disciplína, která se zabývá metodami sběru a analýzy dat Jak analyzovat data? Exploratorní (popisná) statistika Exploratorní (popisná) statistika

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

Statistické šetření Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Způsoby statistického šetření Vyčerpávající šetření Výběrové šetření Výhody: menší personální, finanční a časová náročnost Nevýhody: mírou objektivnosti získaných informací je kvalita provedení výběrového šetření Výhody: přesnost a detailnost zjištěných informací Nevýhody: personální, finanční a časová náročnost

Výběrové šetření Výběr by měl být reprezentativní tj. odrážet vlastnosti celé populace vzhledem ke sledovaným znakům. Opakem reprezentativního výběru je výběr selektivní (např. vzorek účastnic soutěže MISS ČR, z něhož chceme dělat závěry o váze v české populaci dívek ve věku 17-20 let). Náhodný výběr, tj. výběr, v němž má každá statistická jednotka stejnou pravděpodobnost být zařazena do výběru. Reprezentuje všechny známé i neznámé vlastnosti populace. Umožňuje odhadnout velikost chyby, která je způsobena výběrovým šetřením. Opora (rámec) výběru – technická dokumentace umožňující výběr stat. jednotek do výběru.

Metody náhodného výběru prostý náhodný výběr losováním, pomocí tabulek náhodných čísel systematický výběr založen na předem známém uspořádání populace (riziko souvislosti uspořádání s analyzovaným znakem), vybíráme každý k. prvek. oblastní (stratifikovaný) výběr populace rozdělena do heterogenních podskupin, v jejichž rámci je prováděn prostý náhodný, resp. systematický výběr. skupinový výběr populace je rozdělena do rovnocenných podskupin, tj. variabilita mezi podskupinami musí být co nejmenší. Poté je proveden prostý náhodný výběr podskupiny a následuje její úplné šetření. vícestupňový výběr Založen na hierarchickém popisu jednotek populace (např. kraje-města-školy).

Další metody výběru Anketa tzv. samovýběr, tj. výběr jedinců je založen na rozhodnutí respondenta odpovědět na anketu nelze definovat populaci, na níž se výsledky vztahují Snowball sampling dotázaní uvádějí kontakt na další jedince vhodné pro výzkum dočasných populací (svědkové události, účastníci akce apod.) Záměrný výběr, tj. výběr založený na expertním stanovisku Metoda základního masivu prošetření velkých a středních jednotek

Exploratorní analýza dat

Typy proměnných Kvantitativní proměnná (numerická, číselná ...) Kvalitativní proměnná (kategoriální, slovní...) Ordinální proměnná (lze uspořádat) Nominální proměnná (nelze uspořádat) Kvantitativní proměnná (numerická, číselná ...)

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi x1 n1 p1=n1 /n x2 n2 p2=n2 /n xk nk pk=nk /n Celkem: n1+n2+…+nk=n 1 + Modus (název nejčetnější varianty)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti (%) Muž 77 37,37864 Žena 85 41,26214 Dítě 44 21,35922 Celkem: 206 100,00000 1% … 2,06 osob 0,00001% ... 0,0000206 osob Pozor na příliš přesná čísla!

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,4 Celkem: 206 100,1 POZOR na zaokrouhlovací chybu!

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti (%) Muž 77 37,4 Žena 85 41,3 Dítě 44 21,3 Celkem: 206 100,0 Dopočet do 100%!

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti (%) Muž ? 37,4 Žena 41,3 Dítě 21,3 Celkem: 206 100,0 Relativní četnosti uvádějme vždy pouze jako doplněk absolutních četností, nikoliv samostatně!

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat: http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly A na co ještě?

Který z grafů je „správný“?

? Určete pravdivost tvrzení: 241 240 ? Určete pravdivost tvrzení: V žádných dvou letech nebyl počet studentů stejný. Zdroj: Testové příklady určené žákům 9. tříd.

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly Informativní hodnota grafu

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

Jste pro navýšení hodinové dotace matematiky? Anketa Jste pro navýšení hodinové dotace matematiky? TAKHLE NE!!!

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu

Výskyt krevních skupin a Rh faktoru v USA Krevní skupina Rh faktor Celkem Rh+ Rh- 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 84 16 100 Procentuální zastoupení krevních skupin v populaci USA

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka A na co ještě?

2 grafy ještě chybí …

100% skládaný pruhový graf

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

Zdroj: Testové příklady určené žákům 9. tříd. Co je to A, B, C, D? Jsou výseče odpovídající variantám B a D stejně velké? Lze velikosti jednotlivých výsečí charakterizovat v absolutních číslech i v procentech? Určete pravdivost tvrzení: Místo otazníku patří 20%. Místo otazníku patří 126 Kč. Část C je dvojnásobkem části D. Rozdělení četností kvalitativního znaku se znázorňuje kruhovým diagramem, kde různým hodnotám znaku odpovídají kruhové výseče, jejichž plošné obsahy jsou úměrné četnostem. (Prometheus)

Sloupcový graf (bar chart) Výsečový graf – koláčový graf (pie chart) Grafické znázornění Sloupcový graf (bar chart) Výsečový graf – koláčový graf (pie chart) Obrázkové grafy

Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

Obrázkové grafy – užiteční pomocníci? Srovnání průměrných ročních nástupních platů učitelů středních škol v ČR (17 244 $) a Irsku (34 604 $)

„Úžasná infografika o výdajích státního rozpočtu České republiky v roce 2013“ Zdroj: http://www.estat.cz/zpravy/informace-k-projektum/kde-konci-vase-dane/

Zdroj: http://www. estat

Několik praktických příkladů aneb „bo co není stopro, to mě dycky…“

Příklad s klobásou

Příklad s klobásou

Souboj vyhledávačů Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx

Souboj vyhledávačů Zdroj: http://www.zive.cz/clanky/infografika-souboj-vyhledavacu-seznamcz-a-google/sc-3-a-167776/default.aspx

Jak výsledky šetření zobrazit správně?

Jak výsledky šetření zobrazit správně?

Průzkum o představách studentů o budoucím zaměstnání Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)

Průzkum o představách studentů o budoucím zaměstnání S přesností na setinu procenta… 1000 studentů … 100% 10 studentů … 1% 0,1 studentů … 0,01% Proč není součet 100%? Čemu odpovídá velikost jednotlivých částí prstence? Mimořádná příloha Mf Dnes, 27. 3. 2014 – výsledky šetření spol. Studenta Media (typ šetření: online dotazování, specifikace výběru: „přes tisíc vysokoškoláků ze všech ročníků po celé republice“)

Jak výsledky šetření zobrazit správně? Co je pro Vás důležité při výběru zaměstnání? (vyberte 3 pro Vás nejdůležitější faktory) četnost rel. četnost (%) rel. četnost (%) vzhledem k počtu respondentů plat 692 22 67 profesní růst 550 18 53 atraktivita pracovní pozice 493 16 48 pracovní prostředí 479 47 work-life balance 443 14 43 benefity 234 8 23 reputace společnosti 199 6 19 celkem 3090 100% ---

Jak výsledky šetření zobrazit správně?

EDA pro numerická data

Číselné charakteristiky Míry polohy (úrovně) Míry variability

Míry polohy Odhadují skutečnou populační střední hodnotu na základě výběrového souboru. Patří mezi ně: výběrový aritmetický průměr, výběrový geometrický průměr, výběrový medián a modus. Dalšími mírami polohy, které se týkají popisu i polohy jiných hodnot než středních, jsou kvantily.

Ošidný průměr Statistik, který má hlavu v sauně a nohy v ledničce, hovoří o příjemné průměrné teplotě. Autor neznámý

Aritmetický průměr

Pozor na ošidnost aritmetického průměru! Aritmetický průměr Pozor na ošidnost aritmetického průměru!

Ošidnost průměru Zdroj: [1]

Ošidnost průměru Země K Průměrná produkce kuřat (na osobu): 1,0 (denně)

„Průměrná rodina má 2,2 dítěte.“ Ošidnost průměru „Průměrná rodina má 2,2 dítěte.“ Zdroj: [1]

Ošidnost průměru

Ošidnost průměru V malé vesnici někde v Americe žije 6 lidí, jejichž roční plat je uveden níže. $25 000 $27 000 $29 000 $35 000 $37 000 $38 000 Určete průměrný plat obyvatel této vesnice. ($31 830) Do vesnice se přistěhoval Bill Gates, jehož roční příjem je $40 000 000. $35 000 $37 000 $38 000 $40 000 000 ($5 741 571)

Ošidnost průměru Zdroj: Blesk, 9.4.2013

Ošidnost průměru Zdroj: Blesk, 12.3.2014

Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz031114.docx

Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz031114.docx

Zdroj: http://www.czso.cz/csu/csu.nsf/informace/cpmz031114.docx

Aritmetický průměr Na co si dát pozor? Průměr není rezistentní vůči odlehlým pozorováním! Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Circular Statistics Toolbox

Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000 zůstalo

Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo

Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg Zemědělské družstvo dostalo 1 000 kuřat s průměrnou váhou 1,37 kg. Cena byla 50,- Kč za kilogram. Během dne se prodalo 300 kuřat za 24 000,- Kč. Jaká byla průměrná váha neprodaných kuřat? Počet kuřat Celková váha [kg] Celková cena [Kč] původně 1 000 1 370 50  1 370 prodáno 300 24 000/50 = 480 24 000 zůstalo 700 1370 – 480 = 890

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha [km] 5 Rychlost [km/h] 40 50 60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD Dráha [km] 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že vzdálenost všech úseků je stejná – 5 km. A B C D AB BC CD AD Dráha [km] 5 15 Rychlost [km/h] 40 50 60 Čas [h] 5/40 5/50 5/60 5/40 + 5/50 + 5/60 Harmonický průměr

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,60AD Rychlost [km/h] 40 50 60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60

Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60

Vážený harmonický průměr Nákladní automobil jel z města A do města B rychlostí 40 km/h, z města B do města C rychlostí 50 km/h a z města C do města D rychlostí 60 km/h. Vypočítejte průměrnou rychlost, které dosáhl automobil na celé trase, víte-li, že Vzdálenost z A do B je 15% trasy a vzdálenost z C do D je 60% trasy. A B C D AB BC CD AD Dráha [km] 0,15AD 0,25AD 0,60AD Rychlost [km/h] 40 50 60 Čas [h] 0,15AD/40 0,25AD/50 0,60AD/60 + 0,25AD/50 + 0,60AD/60 Vážený harmonický průměr

Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Cena akcie [Kč] 13. března 952,50 14. března ? 15. března 982,0

Průměrný denní relativní přírůstek ceny akcie byl 1,5%. Cena jedné akcie energetické společnosti vzrostla na burze XY v období od 13. do 15. března téhož roku z 952,50 Kč na 982,00 Kč. Jaký byl průměrný denní relativní přírůstek ceny této akcie? Průměrný denní relativní přírůstek ceny akcie byl 1,5%. Cena akcie [Kč] Koeficient růstu 13. března 952,50 14. března ? ?/952,5 15. března 982,0 982,0/? Geometrický průměr

(100p% hodnot datového souboru je menších než toto číslo.) Výběrové kvantily 100p %-ní kvantil 𝑥 𝑝 odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné výběrové kvantily Kvartily Dolní kvartil 𝑥 0,25 Medián 𝑥 0,5 Horní kvartil 𝑥 0,75 Decily – 𝑥 0,1 ; 𝑥 0,2 ; ... ; 𝑥 0,9 Percentily – 𝑥 0,01 ; 𝑥 0,02 ; …; 𝑥 0,03 Minimum 𝑥 𝑚𝑖𝑛 a Maximum 𝑥 𝑚𝑎𝑥

Kde se s kvantily setkáme v praxi? Vyhodnocení Národních srovnávacích zkoušek, … Zdroj: https://scio.cz/nsz/vyhodnoceni.asp

Kde se s kvantily setkáme v praxi? vyhodnocení Národních srovnávacích zkoušek, … růstové grafy

Jak se výběrové kvantily určují? Jedna z používaných metod: Výběrový soubor uspořádáme podle velikosti. Jednotlivým hodnotám proměnné přiřadíme pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru). 100p%- ní kvantil je roven hodnotě proměnné s pořadím 𝑧 𝑝 , kde 𝑧 𝑝 =𝑛𝑝+0,5. Není-li 𝑧 𝑝 celé číslo, pak daný kvantil určíme jako průměr prvků s pořadím 𝑧 𝑝 a 𝑧 𝑝 .

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] 8,7 7,8 6,8 9,7 15,7 4,9 𝑧 𝑝 =𝑛𝑝+0,5

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

V předložených datech určete 0,3 kvantil (30-ti procentní kvantil): MN [%] MN [%] (seřazeno) 8,7 4,9 7,8 6,8 9,7 15,7 16 𝑥 0,3 = 6,8+6,8 2 =𝟔,𝟖 𝑧 𝑝 =𝑛𝑝+0,5 ⇒ 𝑧 0,3 =10∙0,3+0,5=3,5

Efekt změny jednotky Jak se změní míry polohy, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, tak se průměr i medián změní o tutéž konstantu. Když každou hodnotu násobíme konstantou, průměr i medián jsou násobeny toutéž konstantou.

Míry variability

Míry variability Charakteristiky hodnotící rozptýlenost hodnot statistického souboru kolem nějaké míry polohy. Patří mezi ně: (variační) rozpětí, mezikvartilové (interkvartilové) rozpětí, rozptyl, směrodatná odchylka a variační koeficient.

K čemu potřebujeme míry variability?

  Zásahy střelce A Zásahy střelce B 4 1 5 6 9 Průměr ?

Zásahy střelce A Zásahy střelce B   Zásahy střelce A Zásahy střelce B 4 1 5 6 9 Průměr Zdroj: [1]

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka

Jakou představu o variabilitě dat nám dává sm. odchylka? Čebyševova nerovnost: ∀𝑘>0: 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 >1− 1 𝑘 2 k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 >0 2 >0,75 3 >0,89 Empirické pravidlo 3 sigma k 𝑃 𝜇−𝑘𝜎<𝑋<𝜇+𝑘𝜎 1 0,682 2 0,954 3 0,998

Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) Čím nižší var. koeficient, tím homogennější soubor. Vx > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Interkvartilové rozpětí 𝐼𝑄𝑅= 𝑥 0,75 - 𝑥 0,25 Užití: např. při identifikaci odlehlých pozorování

Efekt změny jednotky Jak se změní míry variability, změníme-li jednotku měřené veličiny (minuty  hodiny, metr  palec, atd.)? Když přičteme konstantu ke každé hodnotě, vzdálenosti mezi hodnotami zůstanou zachovány. V důsledku toho se rozptyl ani směrodatná odchylka nezmění. Když každou hodnotu násobíme konstantou, rozptyl je násoben kvadrátem této konstanty (viz definice rozptylu), směrodatná odchylka je násobena danou konstantou.

Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C2 Průměrná roční teplota v Praze je 10,40°C, rozptyl teploty je 0,25°C2. Určete průměrnou roční teplotu v Praze a její rozptyl ve stupních Fahrenheita. 𝐹= 9𝐶 5 +32 𝑥 °𝐹 = 9 5 𝑥 °𝐶 +32=50,72°F 𝑠 2 °𝐹 2 = 9 5 2 𝑠 2 °𝐶 2 =0,81°F2

MAD median absolute deviation from the median, čili česky: medián absolutních odchylek od mediánu pomocná proměnná pro identifikaci odlehlých pozorování Jak jej určíme? Výběrový soubor uspořádáme podle velikosti. Určíme medián souboru. Pro každou hodnotu souboru určíme absolutní hodnotu její odchylky od mediánu. Absolutní odchylky od mediánu uspořádáme podle velikosti. Určíme medián absolutních odchylek od mediánu, tj. MAD.

Odlehlá pozorování ty hodnoty proměnné, které se mimořádně liší od ostatních hodnot a tím ovlivňují např. vypovídací hodnotu průměru. Jak postupovat v případě, že v datech identifikujeme odlehlá pozorování? V případě, že odlehlost pozorování je způsobena: hrubými chybami, překlepy, prokazatelným selháním lidí či techniky ... důsledky poruch, chybného měření, technologických chyb ... tzn., známe-li příčinu odlehlosti a předpokládáme-li, že již nenastane, jsme oprávněni tato pozorování vyloučit z dalšího zpracování. V ostatních případech je nutno zvážit, zda se vyloučením odlehlých pozorování nepřipravíme o důležité informace o jevech vyskytujících se s nízkou četností.

Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

V předložených datech identifikujte odlehlá pozorování: MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 MN0,5=7,3 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

V předložených datech identifikujte odlehlá pozorování: MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 MN0,5=7,3 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

Identifikace odlehlých pozorování z-souřadnice 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Zase nový vzorec?

Identifikace odlehlých pozorování z-souřadnice 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 Je-li 𝑧−𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním. Ne, jde jen o jinou podobu pravidla 3𝜎!

Identifikace odlehlých pozorování 𝑥 0,5 -souřadnice 𝑥 0,5 −𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 = 𝑥 𝑖 − 𝑥 0,5 1,483𝑀𝐴𝐷 Je-li 𝑥 0,5 −𝑠𝑜𝑢ř𝑎𝑑𝑛𝑖𝑐𝑒 𝑖 >3, je 𝑥 𝑖 odlehlým pozorováním.

Míry šikmosti a špičatosti

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé.

Výběrová šikmost (standardizovaná) 𝑎= 𝑛 𝑛−1 𝑛−2 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 3 𝑠 3 x 𝑓 (x) x 𝑓 (x) x 𝑓 (x) 𝑎<0 negativně zešikmené rozdělení 𝑎=0 symetrické rozdělení 𝑎>0 pozitivně zešikmené rozdělení 𝑥 < 𝑥 0,5 < 𝑥 𝑥 > 𝑥 0,5 > 𝑥 𝑥 = 𝑥 0,5 = 𝑥 obvykle

Výběrová špičatost (standardizovaná) míra koncentrace kolem průměru 𝑏= 𝑛 𝑛+1 𝑛−1 𝑛−2 𝑛−3 ∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 4 𝑠 4 −3 𝑛−1 2 𝑛−2 𝑛−3   x 𝑓 (x) x 𝑓 (x) x 𝑓 (x) 𝑏<0 špičatost menší než u norm. rozdělení (plošší rozdělení) 𝑏=0 špičatost odpovídající normálnímu rozdělení 𝑏>0 špičatost větší než u norm. rozdělení (špičatější rozdělení)

Jsou míry polohy a míry variability dostatečné pro posouzení rozdělení sledovaných veličin? Zdroj: TVRDÍK, J.: Základy matematické statistiky, Ostravská univerzita, 2008 Všech pět ukázek má stejné charakteristiky polohy i variability (průměry i směrodatné odchylky jsou shodné). Přesto na první pohled vidíme, že tvary rozdělení dat jsou různé. K číselnému vyjádření těchto rozdílů nám slouží další charakteristiky - šikmost (g1, angl. skewness) a špičatost (g2, angl. kurtosis).

Přesnost číselných charakteristik

Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný?

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst.

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky.

Chybný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Různý počet des. míst. 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 567 Medián 2,68 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? 3 platné cifry u směrodatné odchylky. Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Oprava Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 128 14 567 Medián 2,675 118 13 700 Směrodatná odchylka 0,78 24 1 200 (před zaokrouhlením 1235) Proč je zápis chybný? Nejnižší zapsaný řád průměru (jednotky) neodpovídá nejnižšímu zapsanému řádu směrodatné odchylky (stovky)+ směr. odch. není zaokrouhlena nahoru.

Správný zápis číselných charakteristik Délka [m] Váha [kg] Teplota [0C] Průměr 2,26 127,6 14 600 Medián 2,675 117,8 13 700 Směrodatná odchylka 0,78 23,7 1 300

Grafické znázornění num. proměnné A.) Krabicový graf (Box plot)

Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor?

Grafické znázornění num. proměnné B.) Histogram

Grafické znázornění num. proměnné B.) Histogram MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy V java appletu Výběrové charakteristiky sledujte souvislost mezi číselnými charakteristikami a grafy numerické proměnné.

Zajímavé odkazy k tématu Exploratorní statistika Slovníček pojmů z exploratorní statistiky aneb co by se Vám mohlo hodit při práci se statistickým softwarem v angličtině Interstat – sylabus popisné statistiky (nedokončeno) Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide Real Time Statistics Project Projekt Gapminder Circular Statistics Toolbox (Matlab)

Děkuji za pozornost!