Úvod do pravděpodobnosti a statistiky

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.
Základní statistické pojmy
Sčítání celých čísel.
Charakteristiky úrovně
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
Statistické charakteristiky variability
„EU peníze středním školám“
POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik
Statistika I 2. cvičení.
EXPLORATORNÍ STATISTIKA
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Základní číselné množiny
Zábavná matematika.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Popisná statistika - pokračování
Statistika Vypracoval: Mgr. Lukáš Bičík
Statistika Střední hodnoty
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Pavel Najman. Obchodní akademie a Střední odborná škola logistická, Opava, příspěvková.
Základní statistické pojmy a postupy
„EU peníze středním školám“
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Obsah statistiky Jana Zvárová
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Náhoda, generátory náhodných čísel
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
SČÍTÁNÍ A ODČÍTÁNÍ V OBORU DO 100
Statistika 8. ročník Autorem materiálu je Mgr. Jana Čulíková
Analýza dat.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
Statistický soubor, jednotka, znak.
Charakteristické rysy a typy jednorozměrného rozdělení četností.
ZÁKLADNÍ POJMY STATISTIKY
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Zkvalitnění kompetencí pedagogů ISŠ Rakovník IV/2 Inovace a zkvalitnění výuky směřující k rozvoji matematické gramotnosti žáků středních škol Integrovaná.
Elektronický materiál byl vytvořen v rámci projektu OP VK CZ.1.07/1.1.24/ Zvyšování kvality vzdělávání v Moravskoslezském kraji Střední průmyslová.
Statistika 2 Aritmetický průměr, Modus, Medián
Statistika 2. přednáška Ing. Marcela Čapková.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.
VY_32_INOVACE_21-15 Statistika 1 Základní pojmy.
Základy zpracování geologických dat
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Základy statistiky Autor: Jana Buršová.
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Statistika – základní pojmy, diagramy
Kombinatorika, pravděpodobnost, statistika
Statistika Statistika je matematická disciplína, která zpracovává výsledky hromadného pozorování (o objemu výroby, dovozu či vývozu zboží, výdajích a příjmech.
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
Charakteristiky úrovně Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Zlepšení podmínek pro vzdělávání na středních školách Operačního programu Vzdělávání pro konkurenceschopnost Název a adresa školy: Integrovaná střední.
Statistika 1.cvičení. Základní informace Ing. Daniela Krbcová Materiály ze cvičení, přednášky Skripta k předmětu,
Číslo a název projektu: CZ /1. 5
Statistika 2.cvičení
Statistika - opakovací test k procvičení
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Výukový materiál zpracován v rámci projektu EU peníze školám
METODOLOGIE MAGISTERSKÉ PRÁCE
Spojitá a kategoriální data Základní popisné statistiky
Metodologie pro ISK 2 Úvod do práce s daty
Základní zpracování dat Příklad
Střední škola obchodně technická s. r. o.
Autor: Honnerová Helena
Statistika.
Základy popisné statistiky
Charakteristiky polohy
Transkript prezentace:

Úvod do pravděpodobnosti a statistiky (UVMATST)

Úloha statistiky „Statistika je věda, která se zabývá kvantitativní stránkou hromadných jevů.“ V současnosti jsme zahlceni množstvím informací, které jsou často v číselné podobě. Snaha vyznat se v tom množství údajů nás vede k tomu, abychom je nahradili pouze několika čísly a přitom uchovali (a dokonce i odhalili) ty informace, jež byly v původních číslech ukryty.

Příklad 1: Věk nezaměstnaných mužů starších 49 let (výběr z CPS-Current Population Survey, USA 1989) 67 53 62 66 53 64 51 63 62 60 66 60 61 56 55 54 55 61 64 63 64 56 63 57 68 67 61 64 66 63 65 61 64 64 64 66 61 64 63 67 60 68 53 68 68 52 62 60 67 57 60 68 63 54 67 61 68 61 68 61 67 61 62 52 61 61 66 61 67 62 65 66 49 66 56 61 62 67 68 56 61 68 61 67 63 60 65 66 60 67 64 56 68 58 63 68 61 68 59 56 68 66 61 58 50 67 55 62 68 60 66 62 68 60 49 63 68 68 52 51 59 65 67 63 63 66 67 57 58 65 66 63 57 67 66 59 67 61 60 63 58 61 53 67 66 65 61 64 61 66 62 60 50 57 60 68 68 65 68 65 65 62 67 68 67 68 60 66 67 62 62 65 55 57 65 64 64 64 57 59 56 68 59 67 54 58 65 57 61 66 52 68 63 54 68 57 68 68 57 64 68 63 67 62 64 67 63 65 61 65 58 58 68 55 63 57 67 62 62 67 58 51 53 60 59 63 58 68 49 65 55 64 58 61 49 62 62 63 58 59 67 54 68 67 64 58 65 66 64 67 60 54 67 68 66 66 53 65 66 55 65 57 57 63 66 62 68 60 62 53 63 68 62 68 65 59 64 65 54 49 64 60 68 61 68 57 65 55 58 68 62 62 60 68 60 62 62 64 65 58 67 51 64 67 66 62 49 63 68 57 62 66 64 61 68 54 65 60 68 54 66 68 66 61 60 63 65 67 66 68 67 55 55 59 60 62 64 65 66 68 64 67 65 49 51 57 65 65 66 65 64 64 62 56 59 62 63 61 66 64 63 67 62 57 58 68 51 64 64 67 66 54 65 49 64 67 67 67 68 68 60 60 68 65 66 59 65 60 62 65 67 62 65 56 58 68 66 63 62 62 53 66 67 62 58 62 68 65 63 66 63 65 65 65 65 57 59 61 66 63 66 64 57 59 64 64 65 67 65 55 49 63 66 68 66 60 64 62 59 63 64 67 50 60 64 58 65 64 59 64 67 62 60 65 67 61 65 64 67 58 65 66 65 67 56 65 67 58 62 63 67 51 65 67 68 68 61 62 68 65 57 67 67 65 64 58 50 68 63 68 60 67 66 49 61 61 64 68 61 66 Tato data na první pohled neříkají nic. Obsahují nepřehledné množství údajů. Je potřeba použít některých statistických metod, abychom tato čísla nahradili pouze několika, přitom však neztratili některé cenné informace v nich obsažené.

Cíl kurzu Cílem tohoto kurzu bude představit základní metody, jež se uplatňují při statistickém zpracování dat a upozornit na jejich případná úskalí.

Základní pojmy statistické jednotky – jsou předmětem našeho zkoumání (osoby, předměty, výrobky,…) statistický soubor – tvoří jej statistické jednotky rozsah souboru – počet statistických jednotek ve statistickém souboru Vždy nutné jasně vymezit, které prvky do statistického souboru patří a které nikoliv!

Základní pojmy statistický znak – určitá vlastnost statistické jednotky, která nás při statistickém šetření zajímá. Stat. znak musí být zjistitelný u každé jednotky ze statistického souboru! Příklady stat. znaků pro osoby: věk, pohlaví, tělesná výška, výše platu, vzdělání, barva očí, …

Základní dělení statistických znaků kvantitativní (číselný) znak – hodnota znaku má podobu čísla (věk, tělesná výška, výše platu, …) kvalitativní (slovní) znak – hodnota znaku se vyjadřuje slovně (pohlaví, vzdělání, barva očí, …)

Další dělení statistických znaků nominální (názvový) znak – jeho hodnoty není možné (nemá smysl) seřadit (pohlaví, barva očí, …) ordinální (pořadový) znak – jeho hodnoty je možné seřadit (věk, tělesná výška, výše platu, ale i vzdělání, …) Je jasné, že každý číselný znak je pořadový, existují však slovní znaky, které mohou být pořadové (například různé škály typu: nesouhlasím, částečně nesouhlasím, neutrální postoj, částečně souhlasím, souhlasím, apod.)

Četnosti četnost – ke každé obměně (hodnotě) statistického znaku je možné uvést kolikrát se ve statistickém souboru vyskytla rozdělení četností – vznikne tehdy, pokud pro každou z hodnot určitého statistického znaku uvedu její četnost

Rozdělení četností statistický znak hodnoty statistického znaku počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností 10 15 23 28 četnosti

Grafické znázornění četností histogram (sloupcový diagram) polygon četností

Intervalové rozdělení četností Počet kilometrů bez nehod 1 - 50 50 - 200 200 - 500 500 -      Počet řidičů 5 12 48 10 Jaký počet intervalů je optimální? příliš mnoho – informace je „roztřištěná“ příliš málo – informace se ztrácí

Histogramy pro věk nezaměstnaných mužů (CPS – 1989)

Optimální počet intervalů Sturgesovo pravidlo: k = 1 + 3,3 · log n, kde k je počet intervalů a n je rozsah souboru. V našem případě je n = 500 (výběr CPS představovalo 500 nezaměstnaných mužů), k = 1 + 3,3 · log 500 = 9,9, tj. podle Sturgesova pravidla je optimální počet intervalů 10.

Absolutní a relativní četnosti absolutní četnost – četnost tak, jak jsme o ni doposud mluvili se nazývá někdy absolutní relativní četnost – absolutní četnost vztáhnutá na rozsah souboru

Absolutní a relativní četnosti počet členů domácnosti 1 2 3 4 5 6 7 8 9 počet domácností (absolutní četnost) 10 15 23 28 relativní četnost 0,109 0,163 0,25 … relativní četnost (v %) 10,9 16,3 25

Statistické charakteristiky úrovně Skupinu dat se budeme snažit nahradit jedinou hodnou, která by měla vyjadřovat typickou hodnotu oné skupiny. aritmetický průměr modus medián

Aritmetický průměr Zavedeme označení: x – statistický znak, n – rozsah souboru, x1 … xn – hodnoty statistického znaku u prvního až n-tého prvku statistického souboru. Aritmetický průměr se určí podle vzorce

Vážený aritmetický průměr Upravíme a doplníme značení: x1 … xk – různé hodnoty (možné obměny) statistického znaku n1 … nk – četnosti těchto obměn Vážený aritmetický průměr se určí podle vzorce

Modus je hodnota statistického znaku s největší četností (nejčastěji se vyskytující hodnotu statistického znaku v souboru). značí se

Medián je prostřední hodnota statistického znaku, jsou-li všechny hodnoty x1 … xn uspořádány podle velikosti značí se

Medián Příklad 1: Jsou dány hodnoty 2, 8, 7, 5, 6, 5, 3. Po seřazení máme 2, 3, 5, 5, 6, 7, 8, vidíme, že uprostřed leží číslo 5. Medián je 5. Příklad 2: Jsou dány hodnoty 11, 18, 13, 12, 19, 15, 12, 21. Po seřazení máme 11, 12, 12, 13,| 15, 18, 19, 21, vidíme, že přímo uprostřed neleží žádná hodnota, ale nejblíže jsou dvě hodnoty 13 a 15. Medián pak definujeme jako jejich aritmetický průměr (13 + 15) : 2 = 14.

Určení mediánu z tabulky četností Označíme-li n rozsah souboru a z pořadové číslo mediánu, platí jednoduchý vztah: Příklady: pro n = 7 je po dosazení: 3,5  z  4,5, z toho plyne, že z = 4 a tedy medián je 4. hodnota v pořadí mezi 7 hodnotami. pro n = 8 je po dosazení: 4  z  5, z toho plyne, že z = 4 nebo z = 5, medián je průměrem ze 4. a 5. hodnoty v pořadí mezi 8 hodnotami.

Některé vlastnosti statistických charakteristik úrovně Příklad: V tabulce jsou uvedeny platy ve skupině 25 osob. Příjem (v tisících Kč) 13 18 20 25 40 60 100 četnost 12 1 5 3 2 kumulativní četnost 21 23 24 aritmetický průměr je 23 560 Kč medián je 18 000 Kč modus je 13 000 Kč

Některé vlastnosti statistických charakteristik úrovně aritmetický průměr nemusí se vyskytovat mezi hodnotami má na něj vliv extrémní hodnota (zvláště při malém rozsahu souboru), pokud se plat 100 000 Kč sníží na 60 000 Kč i průměr podstatně klesne na 21 960 Kč zakrývá existenci extrémů – je někdy zbytečně vysoký nebo nízký podprůměrný plat má 18 osob, tj. nemusí ležet přibližně uprostřed aritmetický průměr se proto vždy má doplnit údajem o variabilitě (viz dále), případně mediánem

Některé vlastnosti statistických charakteristik úrovně medián většinou se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota (sníží-li se plat 100 tisíc na 60 tisíc medián se nezmění), protože je to prostřední hodnota, „je mu jedno, co se děje na kraji“ jeho hodnota je spjata s jedinou hodnotou ze stat. souboru, takže kdyby náš člověk s 18 000 Kč dostal jen 15 000 Kč, stále by to byl medián medián je velice vhodný do situací, kdy pracujeme s veličinami porovnatelnými, ale těžko se nalézá stupnice pro jejich rigorózní změření (např. ohodnocení statečnosti, adaptability, úrovně znalostí)

Některé vlastnosti statistických charakteristik úrovně modus vždy se vyskytuje mezi hodnotami oproti průměru na něj nemá vliv extrémní hodnota

Kdy je lze použít? aritmetický průměr – pouze pro číselné znaky, nelze pro slovní medián – pouze pro pořadové znaky (ty mohou být i číselné i slovní), nelze pro názvové modus – použitelný je vždy, i pro slovní, i pro číselné.