STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet.

Slides:



Advertisements
Podobné prezentace
Poměrní ukazatelé Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Advertisements

Úhel Převody jednotek velikosti úhlů Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Radomír Macháň. Dostupné z Metodického portálu.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Josef Ledvoň. Dostupné z Metodického portálu ISSN: , financovaného.
Statistika Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
Grafy Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011.
Induktivní statistika
Věcné autority v roce 2016
Testování hypotéz Testování hypotéz o rozdílu průměrů
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Náhodná veličina je veličina, která při opakování náhodného pokusu mění své hodnoty v závislosti na náhodě Náhodné veličiny označujeme X, Y, Z, ... hodnoty.
Interpolace funkčních závislostí
Základní škola T. G. Masaryka a Mateřská škola Poříčany, okr. Kolín
MATEMATIKA Čísla celá základní pojmy.
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Lineární funkce - příklady
Řešení nerovnic Lineární nerovnice
STATISTICKÉ METODY V GEOGRAFII
Testování hypotéz Testování hypotéz o rozdílu průměrů
Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
Grafické řešení lineárních rovnic
„Svět se skládá z atomů“
Charakteristiky variability
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
8.1.2 Podprostory.
Popisná /deskriptivní/ statistika
Základy statistické indukce
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
V.a1 Teoretické pozadí statistické analýzy
Řešení nerovnic Lineární nerovnice
Finanční gramotnost Inflace ZŠ Hejnice Mgr. Jan Kašpar.
Spojité VELIČINY Vyšetřování normality dat
Rovnice základní pojmy.
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Číslicové měřící přístroje
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet
RNDr. M. Žambochová, Ph.D. (KMS, M308)
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
XII. Binomické rozložení
Metody sociálního výzkumu 6. blok
Základní statistické pojmy
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
Metody sociálních výzkumů
Příklad postupu operačního výzkumu
Náhodný jev, náhodná proměnná
Jiří Šafr jiri.safr(zavináč)seznam.cz
Centrální limitní věta
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Konstrukce trojúhelníku - Ssu
Více náhodných veličin
… jak přesně počítat s nepřesnými čísly
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

STATISTIKA 1 RNDr. M. Žambochová, Ph.D. (KMS, M308) zápočet

KONZULTACE „Není hanba, že nevíš, ale že se neptáš.“ (Turecké přísloví)

STATISTIKA Činnost vedoucí k získávání dat Činnost vedoucí k získávání dat Instituce zajišťující tuto činnost Instituce zajišťující tuto činnost Jakákoli shromažďovaná data Jakákoli shromažďovaná data Údaje získané výpočtem z dat Údaje získané výpočtem z dat Matematická teorie o chování dat Matematická teorie o chování dat

STATISTIKA DESKRIPCE (popis) ANALÝZA (modely, odhady, testy)

Základní pojmy STATISTICKÁ JEDNOTKA = STATISTICKÁ JEDNOTKA = = na kom (čem) zjišťujeme STATISTICKÉ ŠETŘENÍ = STATISTICKÉ ŠETŘENÍ = = jak zjišťujeme STATISTICKÁ VELIČINA = STATISTICKÁ VELIČINA = = co zjišťujeme

STATISTICKÁ JEDNOTKA nutno jednoznačně definovat: věcně místně místněčasově např. každý(á)obyvatel rodina územní celek - obec; - region; - země firma výrobek …

STATISTICKÉ ŠETŘENÍ ÚPLNÉ  ÚPLNÉ  informace od všech stat.jednotek (od celé populace) VÝBĚROVÉ  VÝBĚROVÉ  informace od vybraných stat. jednotek (od „výběru“) informace od vybraných stat. jednotek (od „výběru“) nevýhody versus výhody výběru? nevýhody versus výhody výběru? * neúplnost informace * neúplnost informace * rychlejší a levnější informace * rychlejší a levnější informace

VÝBĚROVÉ ŠETŘENÍ - výběr zcela náhodný zcela náhodný systematický systematický stratifikovaný (oblastní) stratifikovaný (oblastní) skupinový skupinový vícestupňový vícestupňový

VÝBĚROVÉ ŠETŘENÍ - průběh anketa anketa řízený rozhovor řízený rozhovor vyplnění dotazníku … vyplnění dotazníku …

Jak jinak získat data (např. k BP)? JIŽ „HOTOVÁ“ (tj. sebraná), NAPŘ OD: ČSÚ (www stránky) ČSÚ (www stránky) Eurostatu (www stránky) Eurostatu (www stránky) úřadů státní (samo)správy úřadů státní (samo)správy firem (?) … firem (?) …

Zpracování dat a) „ručně“ b) pomocí SW MS Excel MS Excel STATISTICA, SPSS, … STATISTICA, SPSS, … freeware (R-project) freeware (R-project)

DOTAZNÍK pro zaměstnance firmy JMÉNO DOBA ÚKOL POHLAVÍ VZDĚLÁNÍ VĚK POBOČKA POČET DĚTÍ

DOTAZNÍK pro zaměstnance firmy JMÉNOidentifikátor DOBA veličina (značena např. X) ÚKOL veličina (značena např. Q) POHLAVÍ… VZDĚLÁNÍ… VĚK… POBOČKA… POČET DĚTÍ veličina (značena např. Y)

DOTAZNÍK pro zaměstnance firmy možné hodnoty : JMÉNO textový řetězec DOBA 1,2,…(počet dní proškolení) ÚKOL ano / ne (splněn nový úkol?) POHLAVÍ m / z VZDĚLÁNÍ z, s, v (nejvyšší dosažené) VĚK v rocích POBOČKA a,b,c (1 ze 3 poboček firmy) POČET DĚTÍ 0,1,2,…

DOTAZNÍK - příklad vyplnění (1. statistická jednotka) JMÉNO Frank Frank DOBA ÚKOL ne ne POHLAVÍ m VZDĚLÁNÍ z VĚK POBOČKA a POČET DĚTÍ 1

DOTAZNÍK data (začátek)

DOTAZNÍK data (dokončení)

Značení dat (pozorování) Např. veličina X – DOBA: 1. pozorování: x 1 =14 2. pozorování: x 2 =29 … n. (poslední) pozorování: x n = x 25 = 8 n značí počet pozorování (rozsah souboru), zde n=25

DOTAZNÍKY - značení a data

TYPY VELIČIN (X, Y,…) (proměnných; znaků) KATEGORIÁLNÍ nominální (slovní – neuspořádané ) nominální (slovní – neuspořádané ) má smysl pouze porovnání rovno – není rovno má smysl pouze porovnání rovno – není rovno např. POBOCKA (a, b, c) alternativní (2 možnosti: 0-1) alternativní (2 možnosti: 0-1) např. POHL (m/z), UKOL (splněn: ano/ne) ordinální (slovní – uspořádané) ordinální (slovní – uspořádané) má smysl srovnání menší-větší, lepší-horší, … např. VZDEL (z < s < v) např. VZDEL (z < s < v) kardinální (číselné - diskrétní) kardinální (číselné - diskrétní) má smysl počítání (sčítání, násobení, …) např. DETI (počet dětí) např. DETI (počet dětí)

TYPY VELIČIN (X, Y,…) (proměnných; znaků) NEKATEGORIÁLNÍ kardinální (číselné - spojité) kardinální (číselné - spojité) má smysl počítání (sčítání, násobení, …) nabývá širokého spektra hodnot, nevytváří skupiny objektů se stejnými hodnotami např. DOBA (počet dní výcviku), VĚK (v letech), HMOTNOST (kg), PLAT (tis.Kč)… v příkladech je údaj vlastně zaokrouhlen, záleží na zvolené přesnosti; v příkladech je údaj vlastně zaokrouhlen, záleží na zvolené přesnosti; lze převést na kategoriální typ (jak, jaký?)

DOTAZNÍKY – příklad zpracování (Y) POZOR NA PODOBNÉ ZNAČENÍ! a) pro jednotlivá pozorování veličiny Y bylo y 1 =1, y 2 =3, …, y 25 =0 (n =25) b) pro kategorie veličiny Y bylo y 1 =0, y 2 =1, …, y 6 =5 (K=6) V praxi je rozdíl v použití jasný z kontextu.

ČETNOSTI ABSOLUTNÍ n i … počet výskytů i-té kategorie, i=1…K Σ n i = n RELATIVNÍ p i … rel. výskyt i-té kategorie, i=1…K p i = n i /n Σ p i =1 p i = (n i /n)·100% Σ p i =100 (%) Oba typy lze určit u každé kategoriální veličiny (K=počet kategorií).

ČETNOSTI Příklad 1. Y - známky žáka. Popořadě: 3, 4, 2, 3, 2, 3, 3, 3. i123suma yiyiyiyi234xxx nininini2518 pipipipi0,2500,6250,1251,000 Tabulka četností:

GRAFICKÉ ZNÁZORNĚNÍ DAT

Kategoriální veličiny - graf četností (vel. DETI): Kategoriální veličiny - graf četností (vel. DETI): KRUHOVÝ (výsečový, HISTOGRAM „koláčový“) GRAF

ČETNOSTI MODUS Je (jsou) kategorie s největší četností Značen ŷ (se stříškou). Lze určit u každé kategoriální veličiny. Příklad 1 – pokračování: ŷ =3 (druhá kategorie se vyskytla nejčastěji, a to pětkrát; nejčastější známkou byla trojka)

ČETNOSTI KUMULOVANÉ ABSOLUTNÍ n i * … počet výskytů do i-té kategorie včetně, n i * = n 1 +…+n i KUMULOVANÉ RELATIVNÍ p i * … rel. výskyt do i-té kategorie včetně, p i * = p 1 +…+p i p i * = n i * /n Oba typy mají smysl jen u veličin ordinálních či diskrétních.

ČETNOSTI Příklad 1 - pokračování. i123suma yiyiyiyi234xxx nininini2518 pipipipi0,2500,6250,1251,000 ni*ni*ni*ni*278xxx pi*pi*pi*pi*0,2500,8751,000xxx

DISTRIBUČNÍ FUNKCE Slouží k popisu rozdělení (distribuce) číselných dat Slouží k popisu rozdělení (distribuce) číselných dat F(y) = p(Y ≤ y) F(y) = p(Y ≤ y) F(y) … udává podíl pozorování s hodnotou nejvýše y, viz graf pro data z příkladu 1: F(y) … udává podíl pozorování s hodnotou nejvýše y, viz graf pro data z příkladu 1:

F(y) = p(Y ≤ y) F(-20) = p(Y ≤ 20) = 0 F(2,6) = p(Y ≤ 2,6) = 0,25 F(0) = p(Y ≤ 0) = 0 F(3) = p(Y ≤ 3) = 0,875 F(0,4) = p(Y ≤ 0,4) = 0 F(3,4) =p(Y ≤ 3,4)= 0,875 F(1,9) = p(Y ≤ 1) = 0 F(4) = p(Y ≤ 4) = 1 F(2) = p(Y ≤ 2) = 0,25 F(50) = p(Y ≤ 50) = 1 F(y) = p(Y ≤ y) F(-20) = p(Y ≤ 20) = 0 F(2,6) = p(Y ≤ 2,6) = 0,25 F(0) = p(Y ≤ 0) = 0 F(3) = p(Y ≤ 3) = 0,875 F(0,4) = p(Y ≤ 0,4) = 0 F(3,4) =p(Y ≤ 3,4)= 0,875 F(1,9) = p(Y ≤ 1) = 0 F(4) = p(Y ≤ 4) = 1 F(2) = p(Y ≤ 2) = 0,25 F(50) = p(Y ≤ 50) = 1

KVANTILY Udávají pro číselnou veličinu Y hodnotu y, pod níž leží požadovaný podíl pozorování Udávají pro číselnou veličinu Y hodnotu y, pod níž leží požadovaný podíl pozorování Značíme ỹ 100 p, kde p je onen podíl (údaj mezi 0 – 1) Značíme ỹ 100 p, kde p je onen podíl (údaj mezi 0 – 1) p=0,5 … 50% kvantil – medián p=0,5 … 50% kvantil – medián (odděluje polovinu nižších od zbytku vyšších pozorování; značen obvykle jen ỹ ) p=0,25 … 25% kvantil – dolní kvartil ỹ 25 p=0,25 … 25% kvantil – dolní kvartil ỹ 25 p=0,75 … 75% kvantil – horní kvartil ỹ 75 p=0,75 … 75% kvantil – horní kvartil ỹ 75

KVANTILY 1. Určení pomocí distribuční funkce Najdeme bod y, v němž poprvé F(y) dosáhne úroveň p. Příklad 1 – pokračování: Nalezněte medián známek žáka. Medián…tj. p=0,5. Kde poprvé příslušná F(y) dosáhla úroveň 0,5? Podle grafu je mediánem hodnota ỹ =3. Interpretace: Polovina známek měla hodnotu nejvýše 3 (tj. 3 nebo nižší)

KVANTILY 2. Určení přímo pomocí dat a) Data uspořádáme vzestupně dle velikosti b) Nalezneme celočíselné z vyhovující nerovnicím: n·p < z < n·p +1 c) Hledaným kvantilem je hodnota s pořadovým číslem z. Příklad 1 – pokračování: Nalezněte 60% kvantil známek žáka. Známky seřadíme: 2, 2, 3, 3, 3, 3, 3, 4. Jelikož n=8 a p=0,6, vyjde n·p=4,8, takže hledáme z : 4,8 < z < 5,8 Tudíž z=5, aneb hledaným kvantilem je 5. známka, čili trojka: ỹ 60 =3.

KVANTILY Příklad 1 – pokračování: Interpretujte nalezený výsledek: ỹ 60 =3. Znamená to, že 60 % zjištěných známek mělo hodnotu nejvýše 3 (tj. 3 nebo nižší). Podobně interpretujte to, kdyby pro veličinu plat měl např. horní kvartil hodnotu 32 tis. Kč: Znamenalo by to, že 75 % zjištěných platů mělo hodnotu nejvýše 32 tis. Kč (tj. zbylých 25 % platů bylo jakých?)

KVANTILY 2. Určení přímo pomocí dat – možný problém a) Data uspořádáme vzestupně dle velikosti b) Nenalezneme celočíselné z vyhovující nerovnicím: n·p < z < n·p +1 Stane se to tehdy, když obě hodnoty (n·p ; n·p+1) vyjdou přesně celočíselně. c) Nalezneme hodnotu s pořadovým číslem n·p a s následujícím pořadovým číslem n·p+1. d) Za hledaný kvantil prohlásíme průměr obou nalezených hodnot.

KVANTILY 2. Určení přímo pomocí dat – možný problém Příklad 1 – pokračování: Nalezněte medián známek žáka. Známky seřadíme: 2, 2, 3, 3, 3, 3, 3, 4. Jelikož n=8 a p=0,5, vyjde n·p =4, takže hledáme z : 4 < z < 5 (neexistuje) Najdeme tedy jak 4., tak 5. známku. Jelikož jsou obě trojky, jejich průměrem je také trojka a to je hledaný medián: ỹ=3.

KVANTILY Poznámka 1: Není chybou, že nám pro tato data vyšly 50% a 60% kvantil shodně (=3), ale na druhou stranu to není pravidlo. Pro jiná data můžou tyto kvantily vyjít různě – v takovém případě pak ale určitě bude ỹ < ỹ 60. Poznámka 2: Může se stát, že postup pomocí distribuční funkce a postup přímo z dat skončí různými výsledky (v případě problému s neexistencí z, a to kdyby se hodnoty s pořadím n·p a n·p+1 lišily). Rozdíl však obvykle bývá zanedbatelný.