Spojitá a kategoriální data Základní popisné statistiky

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Statistika I 2. cvičení.
MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL
Základní statistické pojmy a postupy
Tloušťková struktura porostu
Obsah statistiky Jana Zvárová
také Gaussovo rozdělení (normal or Gaussian distribution)
Nechť (, , P) je pravděpodobnostní prostor:
Charakteristiky variability
Test dobré shody Fisherův přesný test McNemar test
Popisná statistika III
Teorie psychodiagnostiky a psychometrie
Rozdělení diskrétních veličin. Příklady diskrétních náhodných veličin Pokus jev nastaljev nenastal pnS hod mincírublíc1/2počet hodůpočet rubů celkem narození.
Základy zpracování geologických dat
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Jak vznikají informace Rozložení dat 1.
(Popis náhodné veličiny)
Popisná analýza v programu Statistica
1. cvičení
Inferenční statistika - úvod
Základy popisné statistiky
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Charakteristiky variability Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Kontingenční tabulky v Excelu Základní popisné statistiky.
Statistika 1.cvičení. Základní informace Ing. Daniela Krbcová Materiály ze cvičení, přednášky Skripta k předmětu,
Ukládání dat biodiverzity a jejich vizualizace
Stručný přehled modelových rozložení I.
Spojitá náhodná veličina
Induktivní statistika - úvod
Induktivní statistika
Biostatistika Základní popisné statistiky
- váhy jednotlivých studií
8. Modelová rozdělení pravděpodobnosti, popisné statistiky
Statistika 2.cvičení
8. Modelová rozdělení pravděpodobnosti, popisné statistiky
Popisná statistika: přehled
Popisná analýza v programu Statistica
STATISTICKÉ CHARAKTERISTIKY
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Základy zpracování geologických dat Rozdělení pravděpodobnosti
METODOLOGIE MAGISTERSKÉ PRÁCE
DOTAZNÍK Zásady tvorby dotazníku Termín návratnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
V.a1 Teoretické pozadí statistické analýzy
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Kapitola 3: Centrální tendence a variabilita
Metodologie pro ISK 2 Úvod do práce s daty
Základní zpracování dat Příklad
ASTAc Biostatistika 2. cvičení
Střední škola obchodně technická s. r. o.
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
1. Statistická analýza dat
Transkript prezentace:

Spojitá a kategoriální data Základní popisné statistiky 2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod – od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené. Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Nominální = kategoriální data Typy proměnných (dat) Binární = dummy data Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE × FALSE, 1 × 0). Nominální = kategoriální data Proměnná, která může nabývat počtu hodnot (n ∊ ℕ), pro které neexistuje přirozené pořadí (např. barvy vzorků). Ordinální data Nominální proměnná, pro kterou ale existuje jasné pořadí kategorií (např. velikost oděvů S, M, L, XL). Kardinální data Ordinální proměnná, u které lze určit rozdíl mezi kategoriemi. Ty jsou stejně vzdálené (např. počet dětí v rodině). Intervalová data Spojitá proměnná, u které můžeme určit rozdíl mezi kategoriemi – obvykle jde o počet (např. teplota ve °C, čas). Poměrová data Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost, vzdálenost). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? – různé typy dat znamenají různou informaci Spojitá data Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Kolikrát ? Podíl hodnot větší/menší než specifikovaná hodnota ? O kolik ? Diskrétní data Procenta odvozené hodnoty Větší, menší ? Kategoriální otázky Otázky „Ano/Ne“ Rovná se ? Samotná znalost typu dat ale na dosažení informace nestačí… Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? – různé typy dat znamenají různou informaci Spojitá data Data poměrová Data intervalová Data kardinální Data ordinální Data nominální Data binární Y = f PRŮMĚR Diskrétní data MEDIÁN X MODUS Samotná znalost typu dat ale na dosažení informace nestačí… Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? – různé typy dat znamenají různou informaci Data: p-tý kvantil Průměr: Medián: Rozptyl (výběrový): Modus: Směrodatná odchylka (výběrová): Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

JAK vznikají informace ? - opakovaná měření informují rozložením hodnot Y: frekvence - absolutní / relativní KOLIK se naměřilo y y x x CO se naměřilo X: měřený znak Diskrétní data Spojitá data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Odvozená data: Pozor na odvozené indexy Znak X: Hmotnost Příklad I: Znak Y: Plocha X: Průměrný počet výrobků v prodejně Příklad II: Y: Odhad prostoru průměrně nabízeného k vystavení výrobku : průměr (min - max) X: 1,2 : (1,15 - 1,24) Y: 1,8 : (1,75 - 1,84) + / - 3,8 % + / - 2,5 % ( ) 1,15 1,24 - X/Y = 0,667 : + / - 6,2 % 1,84 1,75 Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu DISKRÉTNÍ DATA Primární data Frekvenční sumarizace 1 2 3 . n = 100 N: 100 dětí (hemofiliků) x: znak: počet krvácivých epizod za měsíc n(x) – absolutní četnost x N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t) p(x) – relativní četnost; p(x) = n(x) / n F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n x n(x) N(x) p(x) F(x) 20 0,2 1 10 30 0,1 0,3 2 60 0,6 3 40 100 0,4 1,0 Počty epizod pro n = 100 hemofiliků t Ł x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? Grafické výstupy z frekvenční tabulky n(x) p(x) 30 - 0,3 - 20 - 0,2 - 10 - 0,1 - x x 1 2 3 1 2 3 N(x) F(x) 60 - 0,6 - 40 - 0,4 - 20 - 0,2 - x 1 2 3 x 1 2 3 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Frekvenční sumarizace Jak vznikají informace ? - frekvenční tabulka jako základní nástroj popisu SPOJITÁ DATA Příklad: x: koncentrace látky v krvi n = 100 pacientů Frekvenční sumarizace n = 100 opakovaných měření (100 pacientů) x: koncentrace sledované látky v krvi (20 – 100 jednotek) d(l) – šířka intervalu n(l) – absolutní četnost n(l) / n – intervalová relativní četnost N(x’’) – intervalová kumulativní četnost do horní hranice X’’ F(x’’) – intervalová relativní kumulativní četnost do horní hranice X’’ Primární data interv d(l) n(l) n(l)/n N(x’’) F(x’’) <20, 40) 20 0,2 <40, 60) 10 0,1 30 0,3 <60, 80) 40 0,4 70 0,7 <80, 100) 100 1,0 1,21 1,48 1,56 0,31 1,33 0,33 . n = 100 Hodnoty pro n = 100 osob Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? - frekvenční sumarizace spojitých dat Histogram Výběrová distribuční funkce Plocha: n(l) / n x x 20 40 60 80 100 f(x)= F(x) Intervalová relativní kumulativní četnost Intervalová hustota četnosti n(l) / n d(l) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Počet zvolených tříd a velikost souboru určují kvalitu výstupu k = 5 tříd k = 10 tříd 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 1 2 3 4 5 k = 20 tříd 1,0 2,0 3,0 4,0 5,0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Histogram vyjadřuje tvar výběrového rozložení f(x) f(x) x x f(x) f(x) x x f(x) x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Příklad: věk účastníků vážných dopravních nehod Správný histogram ? Kategorie na ose x nemusí být ekvidistantní. Frekvence Věk 0 - 4 5 - 9 10 - 15 16 - 19 20 - 24 25 - 59 > 60 f 28 46 58 20 114 316 103 Věk (roky) Plocha histogramu odpovídá počtu případů (pokud jde o pravděpodobnost, je plocha 1). Správný histogram ? Frekvence po roce věku Věk (roky) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Pojem ROZLOŽENÍ - příklad spojitých dat j(x) Rozložení Je - li dána distribuční funkce, je dáno rozložení x F(x) Distribuční funkce x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Výběrové rozložení hodnot lze modelově popsat a odhadnout tak pravděpodobnost výskytu X f(x) j(x) x f(x) j(x) x f(x) j(x) x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Distribuční funkce jako užitečný nástroj pro práci s rozložením Plocha = relativní četnost F(x): Pravděpodobnost, že se X vyskytuje v intervalu (−Ą;x). j(x) −Ą Ą j(x) d(x) =1 j(x) x 1,00 x1 x2 F(x) P(X Ł x) = −Ą x j(x) = F(x) P(X∊(x1;x2)) = x1 x2 j(x) = F(x2)−F(x1) x F(x) … distribuční funkce Známe-li distribuční funkci, pak známe rozložení sledované veličiny. Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Jak vznikají informace ? - frekvenční sumarizace spojitých dat Grafické výstupy z frekvenční tabulky – spojitá data Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé jednotlivé hodnoty f(x) x 20 40 60 80 100 F(x) KVANTIL X0.1; X0.9; X0.5; Xq x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina

Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním? q = 0,95 … pravděpodobnost Hledáme: P(X Ł xq) = 0,95 = q xq = (x0,95) = ? j(x) 5 % F (xq ) = q X0,95 x 0,95 Kvantil je číslo, jehož hodnota distribuční funkce je rovna P, pro kterou je kvantil definován F(x) Jakékoliv číslo na ose x je kvantilem Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina