RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Základní statistické pojmy
Statistická indukce Teorie odhadu.
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
Testování neparametrických hypotéz
Statistické charakteristiky variability
Odhady parametrů základního souboru
Statistika I 2. cvičení.
EXPLORATORNÍ STATISTIKA
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL
KVANTILY OA a VOŠ Příbram.
Obsah statistiky Jana Zvárová
Analýza dat.
Odhady parametrů základního souboru
Zkvalitnění kompetencí pedagogů ISŠ Rakovník IV/2 Inovace a zkvalitnění výuky směřující k rozvoji matematické gramotnosti žáků středních škol Integrovaná.
Statistika 2. přednáška Ing. Marcela Čapková.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Statistika – základní pojmy, diagramy
Popisná analýza v programu Statistica
1. cvičení
Statistika Statistika je matematická disciplína, která zpracovává výsledky hromadného pozorování (o objemu výroby, dovozu či vývozu zboží, výdajích a příjmech.
Inferenční statistika - úvod
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet.
STATISTIKA 1. DISTRIBUČNÍ FUNKCE Slouží k popisu rozdělení (distribuce) číselných dat Je zobecněním relativních četností F(y) = p(Y≤ y) F(y) … udává podíl.
Popisná statistika Přednáška č.1. Požadavky k zápočtu Na Tamtéž studijní literatura.
Statistika 1.cvičení. Základní informace Ing. Daniela Krbcová Materiály ze cvičení, přednášky Skripta k předmětu,
Odhady odhady bodové a intervalové odhady
Číslo a název projektu: CZ /1. 5
Testování hypotéz párový test
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Odhady parametrů základního souboru
Popisná analýza v programu Statistica
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Výukový materiál zpracován v rámci projektu EU peníze školám
METODOLOGIE MAGISTERSKÉ PRÁCE
DOTAZNÍK Zásady tvorby dotazníku Termín návratnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Metodologie pro ISK 2 Úvod do práce s daty
RNDr. M. Žambochová, Ph.D. (KMS, M308)
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
Základní zpracování dat Příklad
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Náhodné výběry a jejich zpracování
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet

„Není hanba, že nevíš, ale že se neptáš.“ (Turecké přísloví) KONZULTACE „Není hanba, že nevíš, ale že se neptáš.“ (Turecké přísloví)

STATISTIKA Činnost vedoucí k získávání dat Instituce zajišťující tuto činnost Jakákoli shromažďovaná data Údaje získané výpočtem z dat Matematická teorie o chování dat

DESKRIPCE (popis) ANALÝZA (modely, odhady, testy) STATISTIKA DESKRIPCE (popis) ANALÝZA (modely, odhady, testy)

Základní pojmy STATISTICKÁ JEDNOTKA = = na kom (čem) zjišťujeme STATISTICKÉ ŠETŘENÍ = = jak zjišťujeme STATISTICKÁ VELIČINA = = co zjišťujeme

STATISTICKÁ JEDNOTKA výrobek … nutno jednoznačně definovat: věcně místně časově např. každý(á) obyvatel rodina územní celek - obec; - region; - země firma výrobek …

STATISTICKÉ ŠETŘENÍ ÚPLNÉ  informace od všech stat.jednotek (od celé populace) VÝBĚROVÉ  informace od vybraných stat. jednotek (od „výběru“) nevýhody versus výhody výběru? * neúplnost informace * rychlejší a levnější informace

VÝBĚROVÉ ŠETŘENÍ - výběr zcela náhodný systematický stratifikovaný (oblastní) skupinový vícestupňový

VÝBĚROVÉ ŠETŘENÍ - průběh anketa řízený rozhovor vyplnění dotazníku …

Jak jinak získat data (např. k BP)? JIŽ „HOTOVÁ“ (tj. sebraná), NAPŘ OD: ČSÚ (www stránky) Eurostatu (www stránky) úřadů státní (samo)správy firem (?) …

Zpracování dat a) „ručně“ b) pomocí SW MS Excel STATISTICA, SPSS, … freeware (R-project)

DOTAZNÍK pro zaměstnance firmy JMÉNO DOBA ÚKOL POHLAVÍ VZDĚLÁNÍ VĚK POBOČKA POČET DĚTÍ

DOTAZNÍK pro zaměstnance firmy JMÉNO identifikátor DOBA veličina (značena např. X) ÚKOL veličina (značena např. Q) POHLAVÍ … VZDĚLÁNÍ VĚK POBOČKA POČET DĚTÍ veličina (značena např. Y)

DOTAZNÍK pro zaměstnance firmy možné hodnoty : JMÉNO textový řetězec DOBA 1,2,…(počet dní proškolení) ÚKOL ano / ne (splněn nový úkol?) POHLAVÍ m / z VZDĚLÁNÍ z, s, v (nejvyšší dosažené) VĚK v rocích POBOČKA a,b,c (1 ze 3 poboček firmy) POČET DĚTÍ 0,1,2,…

DOTAZNÍK - příklad vyplnění (1. statistická jednotka) JMÉNO Frank DOBA 14 ÚKOL ne POHLAVÍ m VZDĚLÁNÍ z VĚK 30 POBOČKA a POČET DĚTÍ 1

DOTAZNÍK data (začátek)

DOTAZNÍK data (dokončení)

Značení dat (pozorování) Např. veličina X – DOBA: 1. pozorování: x1=14 2. pozorování: x2=29 … n. (poslední) pozorování: xn= x25 = 8 n značí počet pozorování (rozsah souboru), zde n=25

DOTAZNÍKY - značení a data

TYPY VELIČIN (X, Y,…) (proměnných; znaků) KATEGORIÁLNÍ nominální (slovní – neuspořádané ) má smysl pouze porovnání rovno – není rovno např. POBOCKA (a, b, c) alternativní (2 možnosti: 0-1) např. POHL (m/z), UKOL (splněn: ano/ne) ordinální (slovní – uspořádané) má smysl srovnání menší-větší, lepší-horší, … např. VZDEL (z < s < v) kardinální (číselné - diskrétní) má smysl počítání (sčítání, násobení, …) např. DETI (počet dětí)

TYPY VELIČIN (X, Y,…) (proměnných; znaků) NEKATEGORIÁLNÍ kardinální (číselné - spojité) má smysl počítání (sčítání, násobení, …) nabývá širokého spektra hodnot, nevytváří skupiny objektů se stejnými hodnotami např. DOBA (počet dní výcviku), VĚK (v letech), HMOTNOST (kg), PLAT (tis.Kč)… v příkladech je údaj vlastně zaokrouhlen, záleží na zvolené přesnosti; lze převést na kategoriální typ (jak, jaký?)

DOTAZNÍKY – příklad zpracování (Y) POZOR NA PODOBNÉ ZNAČENÍ! pro jednotlivá pozorování veličiny Y bylo y1=1, y2=3, …, y25 =0 (n =25) b) pro kategorie veličiny Y bylo y1=0, y2=1, …, y6 =5 (K=6) V praxi je rozdíl v použití jasný z kontextu.

ČETNOSTI ABSOLUTNÍ ni … počet výskytů i-té kategorie, i=1…K Σ ni = n RELATIVNÍ pi … rel. výskyt i-té kategorie, i=1…K pi = ni /n Σ pi =1 pi = (ni /n)·100% Σ pi =100 (%) Oba typy lze určit u každé kategoriální veličiny (K=počet kategorií).

ČETNOSTI Příklad 1. Y - známky žáka. Popořadě: 3, 4, 2, 3, 2, 3, 3, 3. Tabulka četností: i 1 2 3 suma yi 4 xxx ni 5 8 pi 0,250 0,625 0,125 1,000

GRAFICKÉ ZNÁZORNĚNÍ DAT

GRAFICKÉ ZNÁZORNĚNÍ DAT Kategoriální veličiny - graf četností (vel. DETI): KRUHOVÝ (výsečový, HISTOGRAM „koláčový“) GRAF

ČETNOSTI MODUS Je (jsou) kategorie s největší četností Značen ŷ (se stříškou). Lze určit u každé kategoriální veličiny. Příklad 1 – pokračování: ŷ=3 (druhá kategorie se vyskytla nejčastěji, a to pětkrát; nejčastější známkou byla trojka)

ČETNOSTI KUMULOVANÉ ABSOLUTNÍ ni* … počet výskytů do i-té kategorie včetně, ni* = n1+…+ni KUMULOVANÉ RELATIVNÍ pi* … rel. výskyt do i-té kategorie včetně, pi* = p1+…+pi pi* = ni*/n Oba typy mají smysl jen u veličin ordinálních či diskrétních.

ČETNOSTI Příklad 1 - pokračování. 2 3 suma yi 4 xxx ni 5 8 pi 0,250 0,625 0,125 1,000 ni* 7 pi* 0,875

DISTRIBUČNÍ FUNKCE Slouží k popisu rozdělení (distribuce) číselných dat F(y) = p(Y ≤ y) F(y) … udává podíl pozorování s hodnotou nejvýše y, viz graf pro data z příkladu 1:

F(y) = p(Y ≤ y) F(-20) = p(Y ≤ 20) = 0 F(2,6) = p(Y ≤ 2,6) = 0,25 F(0) = p(Y ≤ 0) = 0 F(3) = p(Y ≤ 3) = 0,875 F(0,4) = p(Y ≤ 0,4) = 0 F(3,4) =p(Y ≤ 3,4)= 0,875 F(1,9) = p(Y ≤ 1) = 0 F(4) = p(Y ≤ 4) = 1 F(2) = p(Y ≤ 2) = 0,25 F(50) = p(Y ≤ 50) = 1

KVANTILY Udávají pro číselnou veličinu Y hodnotu y, pod níž leží požadovaný podíl pozorování Značíme ỹ100p, kde p je onen podíl (údaj mezi 0 – 1) p=0,5 … 50% kvantil – medián (odděluje polovinu nižších od zbytku vyšších pozorování; značen obvykle jen ỹ ) p=0,25 … 25% kvantil – dolní kvartil ỹ25 p=0,75 … 75% kvantil – horní kvartil ỹ75

KVANTILY 1. Určení pomocí distribuční funkce Najdeme bod y, v němž poprvé F(y) dosáhne úroveň p. Příklad 1 – pokračování: Nalezněte medián známek žáka. Medián…tj. p=0,5. Kde poprvé příslušná F(y) dosáhla úroveň 0,5? Podle grafu je mediánem hodnota ỹ =3. Interpretace: Polovina známek měla hodnotu nejvýše 3 (tj. 3 nebo nižší)

KVANTILY 2. Určení přímo pomocí dat a) Data uspořádáme vzestupně dle velikosti b) Nalezneme celočíselné z vyhovující nerovnicím: n·p < z < n·p +1 c) Hledaným kvantilem je hodnota s pořadovým číslem z. Příklad 1 – pokračování: Nalezněte 60% kvantil známek žáka. Známky seřadíme: 2, 2, 3, 3, 3, 3, 3, 4. Jelikož n=8 a p=0,6, vyjde n·p=4,8, takže hledáme z : 4,8 < z < 5,8 Tudíž z=5, aneb hledaným kvantilem je 5. známka, čili trojka: ỹ60=3.

KVANTILY Příklad 1 – pokračování: Interpretujte nalezený výsledek: ỹ60=3. Znamená to, že 60 % zjištěných známek mělo hodnotu nejvýše 3 (tj. 3 nebo nižší). Podobně interpretujte to, kdyby pro veličinu plat měl např. horní kvartil hodnotu 32 tis. Kč: Znamenalo by to, že 75 % zjištěných platů mělo hodnotu nejvýše 32 tis. Kč (tj. zbylých 25 % platů bylo jakých?)

KVANTILY 2. Určení přímo pomocí dat – možný problém a) Data uspořádáme vzestupně dle velikosti b) Nenalezneme celočíselné z vyhovující nerovnicím: n·p < z < n·p +1 Stane se to tehdy, když obě hodnoty (n·p ; n·p+1) vyjdou přesně celočíselně. c) Nalezneme hodnotu s pořadovým číslem n·p a s následujícím pořadovým číslem n·p+1. d) Za hledaný kvantil prohlásíme průměr obou nalezených hodnot.

4 < z < 5 (neexistuje) KVANTILY 2. Určení přímo pomocí dat – možný problém Příklad 1 – pokračování: Nalezněte medián známek žáka. Známky seřadíme: 2, 2, 3, 3, 3, 3, 3, 4. Jelikož n=8 a p=0,5, vyjde n·p =4, takže hledáme z : 4 < z < 5 (neexistuje) Najdeme tedy jak 4., tak 5. známku. Jelikož jsou obě trojky, jejich průměrem je také trojka a to je hledaný medián: ỹ=3.

KVANTILY Poznámka 1: Není chybou, že nám pro tato data vyšly 50% a 60% kvantil shodně (=3), ale na druhou stranu to není pravidlo. Pro jiná data můžou tyto kvantily vyjít různě – v takovém případě pak ale určitě bude ỹ < ỹ60. Poznámka 2: Může se stát, že postup pomocí distribuční funkce a postup přímo z dat skončí různými výsledky (v případě problému s neexistencí z, a to kdyby se hodnoty s pořadím n·p a n·p+1 lišily). Rozdíl však obvykle bývá zanedbatelný.