Kapitola 2: Frekvenční tabulky a grafy

Slides:



Advertisements
Podobné prezentace
Poměrní ukazatelé Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Advertisements

Kuchařka na práci s mnohočleny Matematika pro ZŠ Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je David Salač. Dostupné z Metodického portálu.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Výukový materiál zpracovaný v rámci projektu EU peníze školám Registrační číslo projektu:CZ.1.07/1.4.00/ Šablona:III/2 Inovace a zkvalitnění výuky.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
VZNIK PRACOVNÍHO POM Ě RU Název školy: Základní škola Karla Klíče Hostinné Autor: Mgr. Helena Baculáková Název: VY_32_INOVACE_01_B_08_VZNIK PRACOVNÍHO.
STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet.
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU:CZ.1.07/1.4.00/ AUTOR:Mgr. Vladimír.
Základní škola a Mateřská škola, Liberec, Barvířská 38/6, příspěvková organizace Název : VY_32_inovace_18 Informatika - MS Excel – Typy grafů Autor: Pavlína.
1 Obhajoba diplomové práce Sluneční záření a atmosféra Autor: Tomáš Miléř Vedoucí: Doc. RNDr. Petr Sládek, CSc. Oponent: RNDr. Jan Hollan BRNO 2007Katedra.
Práce se spojnicovým diagramem Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_30-03 Název školy Střední průmyslová škola stavební, České Budějovice, Resslova 2 AutorRNDr.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
Inf Vizualizace dat a tvorba grafů. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011.
Induktivní statistika
Testování hypotéz Testování hypotéz o rozdílu průměrů
Podpora v nezaměstnanosti
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Interpolace funkčních závislostí
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Odborný výcvik ve 3. tisíciletí
Lineární funkce - příklady
STATISTICKÉ METODY V GEOGRAFII
Testování hypotéz Testování hypotéz o rozdílu průměrů
Sloupkový diagram Tematická oblast
Algoritmizace - opakování
Algoritmizace - opakování
„Svět se skládá z atomů“
2. cvičení
Jednotné principy klasifikace na GJKT
8.1 Aritmetické vektory.
NÁZEV ŠKOLY: ZŠ J. E. Purkyně Libochovice
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Název školy: Speciální základní škola, Louny,
Opakování na 4. písemnou práci
Párový neparametrický test
Základy statistické indukce
Název školy Gymnázium, střední odborná škola, střední odborné učiliště a vyšší odborná škola, Hořice Číslo projektu CZ.1.07/1.5.00/ Název materiálu.
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Digitální učební materiál
V.a1 Teoretické pozadí statistické analýzy
(a s Coriolisovou silou)
Spojité VELIČINY Vyšetřování normality dat
Rovnice základní pojmy.
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
Rovnice s absolutními hodnotami
Odborný výcvik ve 3. tisíciletí
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
Metody sociálního výzkumu 6. blok
Úvod do praktické fyziky
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
DIGITÁLNÍ UČEBNÍ MATERIÁL
Lineární regrese.
Metody sociálních výzkumů
KOMBINACE BEZ OPAKOVÁNÍ
Jiří Šafr jiri.safr(zavináč)seznam.cz
Projekt Karmelka: Školní kiosek
Lineární funkce a její vlastnosti
Vzdělávání jako hlavní složka řízení lidských zdrojů
… jak přesně počítat s nepřesnými čísly
Grafy kvadratických funkcí
Průměr
Teorie chyb a vyrovnávací počet 2
Tečné a normálové zrychlení
Transkript prezentace:

Kapitola 2: Frekvenční tabulky a grafy = sumarizace, „uvaření syrových (původních) dat“ do srozumitelné, interpretovatelné, prezentovatelné podoby 2 způsoby: Frekvenční/četnostní tabulky Grafy Vizualizují data, ukazují prvotní trendy

Frekvenční tabulky 1 „Syrová data“ Jméno Věk jméno věk Kolik lidí spadá pod danou kategorii proměnné?=frekvence neboli četnost kategorie = shrnují četnosti každé hodnoty proměnné Př. Sharon administrativní pracovnice zařízení sociálních služeb chce vědět zda zařízení opravdu slouží starším lidem (+=50) 1) zaznamená si věk všech klientů za měsíc říjen, vznikne seznam 20 klientů, vidí že jen David je +50 „Syrová data“ Jméno Věk jméno věk Rashad 32 David 69 Clarisse 37 Rosina 27 Herb 26 Karen Brad Vincent 31 Elwin 49 Chuck 21 Rose Tony Shanti Marguerite Leon Kathy Raquel Mario Antoinette Peter

„Syrová data“ seřazená podle velikosti Jméno Věk jméno věk Chuck 21 Leon 27 Shanti 37 Tony Kathy 31 Rose Brad 26 Vincent Clarisse Herb Raquel Marguerite 49 Karen Mario Elwin Rosina Rashad 32 David 69 Peter Antoinette Sharon seřadí klienty podle věku a vznikne přehlednější seznam Přehlednost je zřetelnější pokud např. N=250 namísto N=20 Nyní může Sharon sjednocením dat konečně vytvořit první frekvenční tabulku, která je ještě přehlednější Frekvenční tabulky 2

=tabulka absolutních četností Tabulka 1: absolutních četností (proměnná věk) Jméno Věk Abs. četnost Chuck+Tony 21 2 Brad+Herb+Karen 26 3 Rosina+Peter+Leon 27 Kathy+Vincent +Raquel+Mario 31 4 Rashad+Antoinette 32 Shanti+Rose+Clarisse 37 Marguerite+Elwin 49 David 69 1 Total 20 =tabulka absolutních četností Každé hodnotě proměnné je přiřazeno číslo, podle toho kolikrát se vyskytuje Lze sestrojit pro každý typ proměnné Př. 3 z 20 klientů mají 37 let Frekvenční tabulky 3

= tabulka kumulativních četností (proměnná věk) Jméno Věk Abs. četnost Kum. Chuck+Tony 21 2 Brad+Herb+Karen 26 3 5 Rosina+Peter+Leon 27 8 Kathy+Vincent +Raquel+Mario 31 4 12 Rashad+Antoinette 32 14 Shanti+Rose+Clarisse 37 17 Marguerite+Elwin 49 19 David 69 1 20 Total = tabulka kumulativních četností = kumulativní četnost hodnoty X je rovna součtu všech absolutních četností hodnot <=X Př. 17 klientů (2+3+3+4+2+3) z 20 má 37 let a méně (smysl interpretace pouze u nejméně ordinálních proměnných) Poslední řádek kumulativní četnosti = celkový počet případů Frekvenční tabulky 4

= tabulka relativních četností máme-li 20 lidí ve vzorku, pak každý člen reprezentuje 5% (100/20) – viz David Př. 15 % lidí ve vzorku má 37 let důkaz (3/20)*100=15% Tabulka 3: relativních četností (proměnná věk) Jméno Věk Abs. četnost Rel. Chuck+Tony 21 2 10 Brad+Herb+Karen 26 3 15 Rosina+Peter+Leon 27 Kathy+Vincent +Raquel+Mario 31 4 20 Rashad+Antoinette 32 Shanti+Rose+Clarisse 37 Marguerite+Elwin 49 David 69 1 5 Total 100 Frekvenční tabulky 5

=tabulka relativních kumulativních četností Relativní kumulativní četnost pro hodnotu X je rovna součtu všech relativních četností hodnot <= X Př. 85% klientů má 37 let a méně (10+15+15+20+10+15=85) Užitečné chcem-li znát relativní pozici určité hondoty vzhledem k ostatním v datech (viz též percentil) Tabulka 4: relativních kumulativních četností Jméno Věk Abs. četnost Rel. Rel. Kum. četnost Chuck+Tony 21 2 10 Brad+Herb+Karen 26 3 15 25 Rosina+Peter+Leon 27 40 Kathy+Vincent +Raquel+Mario 31 4 20 60 Rashad+Antoinette 32 70 Shanti+Rose+Clarisse 37 85 Marguerite+Elwin 49 95 David 69 1 5 100 Total Frekvenční tabulky 6

Jak široké mají intervaly být? 2 hlediska: Pokud mnoho dat (zvláště spojitých), je přehlednější vytvořit skupiny (intervaly) Jak široké mají intervaly být? 2 hlediska: a) dostatečný počet případů v každé skupině b) logika skupin (homogenita uvnitř skupiny) Pokud jsou hodnoty rovnoměrně rozložené, pak v každém intervalu stejně případů. Pokud ne, pak snaha o smysluplné skupiny zhledem k určité vlivné proměnné Každý případ musí spadat pouze do jednoho intervalu Pokud je případ na hranici např. 29.6 pak zaokrouhlujeme (dolní hranice intervalu 30-39 =29.5, horní hranice=39.49) Tabulka 5: seskupených relativních kumulativní četností (proměnná věk) Věkové skupiny Abs.Rel.četnost Kum.rel. četnost 20-29 40 30-39 45 85 40-49 10 95 50-59 60-69 5 100 Total Frekvenční tabulky 7

Užití frekvenčních tabulek v analýze 1 Př. Jennifer chce prozkoumat neomluvené absence personálu, zda neexistuje nějaké sezónní vzorce, které by mohly být odstraněny přizpůsobením politiky dovolených. Vidí, že zatímco na jaře (duben+květen) bylo zaznamenáno 70 (35 %) případů, tak v létě (červen+červenec) jich bylo 130 (65 %) Počet denních absencí personálu podle měsíců (N=200) (celkem v měsíci) měsíc Abs. četnost Kum.rel. četnost Duben 30 15 Květen 40 35 Červen 60 65 Červenec 70 100

Užití frekvenčních tabulek v analýze 2 Užitečné chceme-li srovnat měření z dvou rozdílných skupin nebo databází Př. SoPka Sue vytvořila studijní příručku - je příručka efektivní? Jak zjistit? Srovnat zkouškové body lidí kteří použili příručku (experimentální skupina X) a kteří ji nepoužili (kontrolní skupina C) Vidí že: 20 % lidí v X skórovalo nad 90 zatímco v C pouze 5 % v X skórovalo pouze 10 % pod 70, zatímco v C relativně 2x více (20 %) – příručka zdá se pomohla! Na základě rel.kum.četn. lze určit pořadí – tzv. percentil = percentilové pořadí určuje procento případů jejichž hodnota je nižší než příslušná hodnota Př. Clarice skórovala 90 bodů – skončila lépe než nejméně 80 % všech lidí v X skupině Všimnětě si různé velikosti skupin (N=200 a N=300) – použití procent umožňuje srovnání skupin Skóre experimentální skupiny (X) (N=300) Skóre Abs.Rel.četnost Kum.rel. četnost 50-59 60-69 10 70-79 40 50 80-89 30 80 90-100 20 100 Skóre kontrolní skupiny (C) (N=200) 5 15 60 35 95 Užití frekvenčních tabulek v analýze 2

Chybná prezentace výsledků 1 Př. Personální pracovnice Emma pyšně sděluje řediteli firmy, že její snaha zaměstnat více žen byla velmi úspěšná Emma: „v 5 ze 6 sektorů jsem přijala relativně (vyšší procento) více žen než mužů“ Pravda ale: celkově přijala jen 21% žen vs. 78 % mužů Chyba Emmy: používala nestejně velké skupiny (D>A+B+C+E+F) Obecně je lepší používat procenta pouze u vysokých četností jako 146 z 411, u četností jako 3 z 5 lépe používat absolutní hodnoty Tabulka náborů 2001 2002 ve firmě XYZ podle pohlaví Klasifikace pracovního místa Muži ženy Počet Rel. Četnost počet četnost A 3 ze 6 50 4 ze 6 67 B 1 ze 3 33 1 ze 2 C 0 z 1 1 z 10 10 D 85 ze 100 85 2 ze 40 5 E 2 ze 3 2 ze 2 100 F 3 ze 7 43 4 ze 7 57 Celkem 94 ze 120 78 14 ze 67 21 Užití frekvenčních tabulek v analýze 3

Způsobuje chudoba delikvenci? 1. tabulka: nedostatek evidence – třeba porovnat s bohatými (2.tabulka) Chudí Delikventní 7 Nedelikventní 93 100 (400) Chudí Bohatí Delikventní 7 Nedelikventní 93 100 (400) (654)

Grafická prezentace dat Grafická prezentace obětuje přesnost (detail) za komunikativnost sdělení o distribuci hodnot proměnné vhodné pokud publikum není např. vědecká rada Existuje mnoho grafů – který použít? a) jasnost prezentace b) úroveň měření proměnné Většina grafů používá osy x(pro hodnoty proměnné) a y(pro četnost)

Sloupcové/čárové diagramy/grafy (bar/line graphs/charts) Nominální data Každý sloupec stejná šířka Pořadí sloupců nehraje roli (mezi kategoriemi pouze kvalitativní rozdíly) Sloupce se nedotýkají (nespojitost) Výška sloupce reflektuje četnost hodnoty Př. 2x vyšší sloupec=2x vyšší četnost

Koláčové diagramy/grafy (pie graphs/charts) Celý koláč = proměnná = 100 % Jednotlivé porce (trojúhelníčky) = kategorie proměnné Čím větší porce, tím větší četnost Výhoda: nabízí okamžitý pohled na distribuci proměnné Nevýhoda: nehodí se na proměnné s více kategoriemi - nepřehledné

histogramy Podobné sloupcovým grafům Rozdíly: šířka jednotlivých sloupců=šířka intervalu (intervalové/poměrové proměnné seskupené do intervalů) Pořadí sloupců=pořadí kategorií (ordinální proměnná)

Frekveční mnohoúhelník (polygon) Totéž jako histogram Rozdíl: namísto sloupců linka spojující středy vrcholů každého sloupce histogramu vytvářející polygon

Paretův diagram (Pareto chart) Řadí hodnoty proměnné podle četnosti s klesající tendencí (nejčetnější vlevo) Čára nad četnostními sloupci představuje jak kumulativní četnost (levá vertikála) tak relativní kumulativní četnost (pravá vertikála) viz alternativní formy vyrobené v excelu

Graf stonků a listů (Stem and leaf plot) Stonek=první číslo hodnoty proměnné List=poslední číslo hodnoty proměnné Graf stonků a listů: věk klientů rezidenční péče N=40 Frekv. Stonek listy 1 5 9 2 6 24 566889 4 7 1144 16 5577777777788999 8 014444 3 558 10 Př. Jeden klient má 62 let a druhý 64 let