Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava.

Podobné prezentace


Prezentace na téma: "Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava."— Transkript prezentace:

1 Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

2 Co je to statistika? Google – odkazů (čeština), 2, odkazů (angličtina) • Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …)  Český statistický úřad, Real Time Statistics ProjectČeský statistický úřadReal Time Statistics Project • Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika) • Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

3 Proč je dobré znát (alespoň) základy statistiky? Kvantitativní výzkum Hypotéza Sběr dat Analýza dat Vyhodnocení Zdroj: technet.idnes.cz „Informace, informace….“ „Ó, data! “ Číslo 5 žije Teorie Hledání pravdy

4 Proč je dobré znát (alespoň) základy statistiky? Kvantitativní výzkum Hypotéza Sběr dat Analýza dat Vyhodnocení Zdroj: technet.idnes.cz „Informace, informace….“ „Ó, data! “ Číslo 5 žije Teorie Hledání pravdy

5 Základní pojmy ze statistické metodologie • Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme • Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

6 Základní pojmy ze statistické metodologie výběrové šetření úplné šetření • Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností. • (Statistické) jednotky - prvky populace • (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme • Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

7 Základní pojmy ze statistické metodologie • Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr • Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr výběrové šetření Exploratorní (popisná) statistika

8 Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika • Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

9 Základní pojmy ze statistické metodologie výběrové šetření Exploratorní (popisná) statistika

10 Exploratorní analýza dat

11 Typy proměnných Kvalitativní proměnná (kategoriální, slovní...) Ordinální proměnná (lze uspořádat) Nominální proměnná (nelze uspořádat) Kvantitativní proměnná (numerická, číselná...)

12 EDA pro kategoriální veličinu

13 Kategoriální veličina nominální (nemá smysl uspořádání) (např. Typ SŠ, Barva auta, Pohlaví, …)

14 Číselné charakteristiky + Modus (název nejčetnější varianty) TABULKA ROZDĚLENÍ ČETNOSTI Varianty x i Absolutní četnosti n i Relativní četnosti p i x1x1 n1n1 p 1 =n 1 /n x2x2 n2n2 p 2 =n 2 /n xkxk nknk p k =n k /n Celkem:n 1 +n 2 +…+n k =n1

15 Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI PohlavíAbsolutní četnosti Relativní četnosti [%] Muž 45758,2 Žena 32841,8 Celkem:785100,0 Modus = Muž

16 Grafické znázornění A)Sloupcový graf (bar chart) „…můžete vytvořit sloupcový graf a dodat mu zcela nový a přitažlivý vzhled“

17 Grafické znázornění A)Sloupcový graf (bar chart)

18 Grafické znázornění A)Sloupcový graf (bar chart)

19 Grafické znázornění A)Sloupcový graf (bar chart)

20 Grafické znázornění A)Sloupcový graf (bar chart)

21 Grafické znázornění A)Sloupcový graf (bar chart)

22 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

23 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? zdroj dat:

24 Grafické znázornění A)Sloupcový graf (bar chart) Na co si dát pozor? • Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“. • Nadbytečné názvy grafu, legendy, … • Neefektivní nuly A na co ještě?

25 Který z grafů je „správný“?

26 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

27 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)

28 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor?

29 Anketa Jste pro navýšení hodinové dotace matematiky na SŠ? TAKHLE NE!!!

30 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu

31 Krevní skupina Rh faktor Celkem Rh+Rh A34640 B9211 AB314 Celkem

32 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka A na co ještě?

33

34 2 grafy ještě chybí …

35 100% skládaný pruhový graf

36 Grafické znázornění B) Výsečový graf – koláčový graf (pie chart) Na co si dát pozor? • Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu • Nadbytečné názvy grafu, legendy, … • Ne vždy je graf přehlednější než tabulka • „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“ Van Belle

37 Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

38 Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Varianty x i Absolutní četnosti n i Relativní četnosti p i Kumulativní četnosti m i Kumulativní relativní četnosti F i x1x1 n1n1 p 1 =n 1 /nn1n1 p1p1 x2x2 n2n2 p 2 =n 2 /nn1+n2n1+n2 p1+p2p1+p2 xkxk nknk p k =n k /n n 1 +n 2 +…+n k =np 1 +p 2 +…+p k =1 Celkem:n 1 +n 2 +…+n k =n Modus Seřazené podle velikosti

39 Číselné charakteristiky TABULKA ROZDĚLENÍ ČETNOSTI Míra nezaměstnanosti Absolutní četnosti Relativní četnosti [%) Kumulativní četnosti Kumulativní relativní četnosti [%) nízká 2713,62713,6 střední 14673,717387,4 vysoká 2512, ,0 Celkem:198100,0 Modus = střední

40 Grafické znázornění A)Sloupcový graf (bar chart) B) Výsečový graf – koláčový graf (pie chart)

41 EDA pro numerická data

42 Číselné charakteristiky A)Míry polohy B)Míry variability

43 Míry polohy

44 Aritmetický průměr Na co si dát pozor? • Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla) • Geometrický průměr (tempa růstu) • Vážený průměr • Průměrování dat na cirkulární škále • Průměr není rezistentní vůči odlehlým pozorováním! Circular Statistics Toolbox

45 Kvantily 100p %-ní kvantil x p odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)

46 Význačné kvantily • Kvartily Dolní kvartil x 0,25 Medián x 0,5 Horní kvartil x 0,75 • Decily – x 0,1 ; x 0,2 ;... ; x 0,9 • Percentily – x 0,01 ; x 0,02 ; …; x 0,99 • Minimum x min a Maximum x max

47 Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování

48 Identifikace odlehlých pozorování • Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb

49 Identifikace extrémních pozorování • Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb

50 Příklad V předložených datech identifikujte odlehlá pozorování: MN [%] 8,7 7,8 6,8 7,8 9,7 15,7 6,8 4,9 6,8

51 MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 Příklad V předložených datech identifikujte odlehlá pozorování:

52 MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 Příklad V předložených datech identifikujte odlehlá pozorování:

53 MN [%] 4,9 6,8 7,8 8,7 9,7 15,7 MN 0,5 =7,3 MN 0,25 =6,8 MN 0,75 =8,7 IQR=MN 0,75 -MN 0,25 =1,9 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55 1,5.IQR=2,85 Příklad V předložených datech identifikujte odlehlá pozorování:

54 Míry variability

55 Výběrový rozptyl Na co si dát pozor? Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

56 Výběrová směrodatná odchylka Empirické pravidlo 6 sigma k 10,682 20,954 30,998

57 Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) • Čím nižší var. koeficient, tím homogennější soubor. • V x > 50% značí silně rozptýlený soubor. Proč potřebujeme bezrozměrnou míru variability? Umožňuje srovnání variability proměnných, které mají různé jednotky.

58 Grafické znázornění num. proměnné A.) Krabicový graf (Box plot)

59 Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor?

60 Grafické znázornění num. proměnné B.) Histogram

61 Grafické znázornění num. proměnné B.) Histogram Na co si dát pozor? MS Excel 2007, funkce Histogram Výpočetní applet Explorační analýza Výpočetní applet Explorační analýza (excel, projekt MI21)

62 Souvislost mezi číselnými charakteristikami a grafy Java applet – Výběrové charakteristikyVýběrové charakteristiky projekt MI21

63 Odkazy • LITSCHMANNOVÁ, M. (2011), Úvod do statistiky, skripta - pilotní verzeÚvod do statistiky • Interstat – sylabus popisné statistiky (nedokončeno) Interstat • Jak nevytvářet grafy (anglicky) The Evil Tutor‘s GuideThe Evil Tutor‘s Guide • Real Time Statistics ProjectReal Time Statistics Project • Circular Statistics Toolbox (Matlab) Circular Statistics Toolbox

64 A jsme téměř na konci… Ještě otázka pro ŠKOMAM CUP!

65 Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně? A) 25% B) 50% C) 0% D) 25%

66 A to už je opravdu konec! Děkuji za pozornost


Stáhnout ppt "Okna vesmíru statistiky dokořán Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava."

Podobné prezentace


Reklamy Google