Okna vesmíru statistiky dokořán

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Histogram představuje grafické zobrazení intervalového zobrazení četnosti znaku jakosti slouží k názornému zobrazení „struktury“ naměřených dat hranice.
Testování neparametrických hypotéz
Statistické charakteristiky variability
Odhady parametrů základního souboru
POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik
Statistika I 2. cvičení.
EXPLORATORNÍ STATISTIKA
Charakteristiky variability
KVANTILY OA a VOŠ Příbram.
Popisná statistika - pokračování
BOX - PLOT OA a VOŠ Příbram.
Statistika Vypracoval: Mgr. Lukáš Bičík
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Základní statistické pojmy a postupy
PRAVDĚPODOBNOST A STATISTIKA
Obsah statistiky Jana Zvárová
Statistika 8. ročník Autorem materiálu je Mgr. Jana Čulíková
Analýza dat.
Řízení a supervize v sociálních a zdravotnických organizacích
Základní statistické charakteristiky
Charakteristiky variability
Biostatistika 4. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Charakteristiky variability
Popisná statistika III
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
VY_32_INOVACE_21-15 Statistika 1 Základní pojmy.
Pohled z ptačí perspektivy
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Výběrová šetření, Exploratorní analýza
RNDr. Monika Pávková Goldbergová
REGIONÁLNÍ ANALÝZA Cvičení 2 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Název projektu: Kvalitní vzdělání je efektivní investice.
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Popisná analýza v programu Statistica
Statistika Statistika je matematická disciplína, která zpracovává výsledky hromadného pozorování (o objemu výroby, dovozu či vývozu zboží, výdajích a příjmech.
Základy popisné statistiky
Výběrová šetření, Exploratorní analýza
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/
Charakteristiky variability Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulky v Excelu Základní popisné statistiky.
Statistika 1 Ústav lékařské informatiky, 2. LF UK 2008.
Statistika 1.cvičení. Základní informace Ing. Daniela Krbcová Materiály ze cvičení, přednášky Skripta k předmětu,
Martina Litschmannová
Popisná statistika I tabulky četností
Statistika 2.cvičení
Popisná statistika: přehled
Popisná analýza v programu Statistica
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
METODOLOGIE MAGISTERSKÉ PRÁCE
Spojitá a kategoriální data Základní popisné statistiky
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Deskriptivní statistika
Kapitola 3: Centrální tendence a variabilita
Metodologie pro ISK 2 Úvod do práce s daty
Základní zpracování dat Příklad
ASTAc Biostatistika 2. cvičení
Střední škola obchodně technická s. r. o.
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina) Co je to statistika? Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace….“ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

Proč je dobré znát (alespoň) základy statistiky? „Informace, informace….“ „Ó, data! “ Číslo 5 žije Kvantitativní výzkum Teorie Hypotéza Sběr dat Analýza dat Vyhodnocení Hledání pravdy Zdroj: technet.idnes.cz

Základní pojmy ze statistické metodologie Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie úplné šetření výběrové šetření Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. (Statistické) jednotky - prvky populace (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

Exploratorní analýza dat

Typy proměnných Kvantitativní proměnná (numerická, číselná ...) Kvalitativní proměnná (kategoriální, slovní...) Ordinální proměnná (lze uspořádat) Nominální proměnná (nelze uspořádat) Kvantitativní proměnná (numerická, číselná ...)

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi x1 n1 p1=n1 /n x2 n2 p2=n2 /n xk nk pk=nk /n Celkem: n1+n2+…+nk=n 1 + Modus (název nejčetnější varianty)

Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Pohlaví Absolutní četnosti Relativní četnosti [%] Muž 457 58,2 Žena 328 41,8 Celkem: 785 100,0 Modus = Muž

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“ http://office.microsoft.com/cs-cz/excel-help/prezentace-dat-ve-sloupcovem-grafu-HA010218663.aspx

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart)

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat: http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Sloupcový graf (bar chart) Grafické znázornění Sloupcový graf (bar chart) Na co si dát pozor? Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. Nadbytečné názvy grafu, legendy, … Neefektivní nuly A na co ještě?

Který z grafů je „správný“?

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

Jste pro navýšení hodinové dotace matematiky na SŠ? Anketa Jste pro navýšení hodinové dotace matematiky na SŠ? TAKHLE NE!!!

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu

Krevní skupina Rh faktor Celkem Rh+ Rh- 38 7 45 A 34 6 40 B 9 2 11 AB 3 1 4 84 16 100

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka A na co ještě?

2 grafy ještě chybí …

100% skládaný pruhový graf

B) Výsečový graf – koláčový graf (pie chart) Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu Nadbytečné názvy grafu, legendy, … Ne vždy je graf přehlednější než tabulka „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

TABULKA ROZDĚLENÍ ČETNOSTI Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty xi Absolutní četnosti ni Relativní četnosti pi Kumulativní četnosti mi Kumulativní relativní četnosti Fi x1 n1 p1=n1/n p1 x2 n2 p2=n2/n n1+n2 p1+p2 xk nk pk=nk/n n1+n2+…+nk=n p1+p2+…+pk=1 Celkem: 1 ---- Seřazené podle velikosti + Modus

TABULKA ROZDĚLENÍ ČETNOSTI Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti Kumulativní relativní četnosti nízká 27 13,6 střední 146 73,7 173 87,4 vysoká 25 12,6 198 100,0 Celkem: Modus = střední

Grafické znázornění Sloupcový graf (bar chart) B) Výsečový graf – koláčový graf (pie chart)

EDA pro numerická data

Číselné charakteristiky Míry polohy Míry variability

Míry polohy

Aritmetický průměr Na co si dát pozor? Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) Geometrický průměr (tempa růstu) Vážený průměr Průměrování dat na cirkulární škále Průměr není rezistentní vůči odlehlým pozorováním! Circular Statistics Toolbox

Kvantily 100p %-ní kvantil xp odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

Význačné kvantily Kvartily Dolní kvartil x0,25 Medián x0,5 Horní kvartil x0,75 Decily – x0,1; x0,2; ... ; x0,9 Percentily – x0,01; x0,02; …; x0,99 Minimum xmin a Maximum xmax

Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování

Identifikace odlehlých pozorování Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

Identifikace extrémních pozorování Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 8,7 7,8 6,8 9,7 15,7 4,9

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

Míry variability

Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka Empirické pravidlo 6 sigma k 1 0,682 2 0,954 3 0,998

Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) Čím nižší var. koeficient, tím homogennější soubor. Vx > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

Grafické znázornění num. proměnné A.) Krabicový graf (Box plot)

Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor?

Grafické znázornění num. proměnné B.) Histogram

Grafické znázornění num. proměnné B.) Histogram MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza (excel, projekt MI21) Na co si dát pozor?

Souvislost mezi číselnými charakteristikami a grafy Java applet – Výběrové charakteristiky projekt MI21

Odkazy Litschmannová, M. (2011), Úvod do statistiky, skripta - pilotní verze Interstat – sylabus popisné statistiky (nedokončeno) Jak nevytvářet grafy (anglicky) The Evil Tutor‘s Guide Real Time Statistics Project Circular Statistics Toolbox (Matlab)

A jsme téměř na konci… Ještě otázka pro ŠKOMAM CUP!

Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně? A) 25% B) 50% C) 0% D) 25%

A to už je opravdu konec! Děkuji za pozornost