Jevy a náhodná veličina Výsledky některých jevů jsou vyjádřeny číselně - na hrací kostce padne číslo 1, 4, 6 .., jiným jevům můžeme čísla přiřadit (stupeň školního vzdělání: ZŠ, SŠ, VŠ) Data jsme rozdělili na dvě základní skupiny – diskrétní data a spojitá data. Přiřadit číslo můžeme každému pokusu nebo měření dat bez ohledu na to, do které skupiny patří. Čísla přiřazená elementárním jevům tvoří obor hodnot M Proměnnou, které jsme čísla přiřadili, nazýváme náhodná veličina a značíme např. X, Y, Z,…
Náhodná veličina Diskrétní náhodné veličině přiřazujeme Data jsou výsledkem měření nebo zkoumání náhodné veličiny. Obor hodnot M pro veličinu: diskrétní - je konečná nebo nekonečná posloupnost spojitou - je otevřený nebo uzavřený interval Diskrétní náhodné veličině přiřazujeme pravděpodobnostní funkci P(X = x) = p(x) a čteme: pravděpodobnost, že funkce X = x je p(x). Vlastnosti pravděpodobnostní funkce: a) p(xi) ≥ 0 plyne z definice pravděpodobnostní funkce b) nám říká, že sečteme-li všechny možné výsledky pokusu, dostáváme jev jistý s pravděpodobností 1.
Pravděpodobnostní funkce diskrétní NV Pokud na osu y vyneseme relativní četnosti, tj. pravděpodobnost, dostaneme pravděpodobnostní funkci Pro diskrétní veličinu jsou to jednotlivé nespojité oddělené body xi P(X=xi) F(x) 0,15 1 0,35 2 0,25 0,5 3 0,75 4 0,1 0,9 > 4
Distribuční funkce diskrétní náhodné veličiny Pokud na osu y vyneseme relativní kumulativní četnosti, tj. kumulativní pravděpodobnost, dostaneme neklesající distribuční funkci, kterou značíme F(x). Pro diskrétní veličinu je to schodovitá nespojitá funkce xi P(X=xi) F(x) 0,15 1 0,35 2 0,25 0,5 3 0,75 4 0,1 0,9 > 4
Distribuční funkce diskrétní náhodné veličiny Jedná se o pravděpodobnost, se kterou X nabude hodnoty menší než jistá mez Reálná funkce, která přiřazuje každé hodnotě xi náhodné veličiny X pravděpodobnost, že X nabude hodnoty menší než toto xi, se nazývá distribuční funkce F(x). Je definována vztahem F(x) = P(X < x) = Vlastnosti distribuční funkce F(x) diskrétní NV: -- je schodovitá křivka zleva spojitá v bodech x = xi, i = 1,2,..., -- je nezáporná -- je neklesající -- nejvýše = 1
Spojitá náhodná veličina Také u spojité náhodné veličiny se užívá k jejímu popisu distribuční funkce F(x), která je definovaná stejně jako u diskrétní náhodné veličiny vztahem: F(xi) = P(X < xi) Vlastnosti F(x) pro spojitou NV: 0 ≤ F(x) ≤ 1 P(x1 ≤ X < x2) = F(x2) - F(x1) pro x1 < x2 F(x) je neklesající funkce F(- ∞) = 0, F(∞) = 1 F(x) je spojitá funkce ve všech svých bodech
Analogie distribuční funkce diskrétní a spojité NV Diskrétní náhodná veličina nabývá konečně nebo nejvýše spočetně mnoha hodnot, distribuční funkce je schodovitá křivka s body skoku v hodnotách xi Spojitá náhodná veličina nabývá nekonečně mnoha hodnot, distribuční funkce má tvar esovité křivky
Rozložení (rozdělení) náhodné veličiny Pro diskrétní veličinu nazýváme rozložení v dvourozměrném prostoru pravděpodobnostní funkcí pro spojitou veličinu - hustotou pravděpodobnosti Na osu x (nezávisle proměnná) vynášíme naměřené hodnoty, na osu y (závisle proměnná) počty naměřených hodnot.
Hustota pravděpodobnosti spojité NV Spojitou NV měříme s omezenou přesností (přesnost omezená měřicími přístroji nebo našimi schopnostmi) a zobrazujeme ji také histogramem četností nebo sloupcovým grafem Červená křivka proložená histogramem je hustota pravděpodobnosti někdy se jí říká také frekvenční funkce Hmotnost narozených dětí 5000 4500 4000 3500 3000 2500 2000 1500
Distribuční funkce spojité náhodné veličiny je nezáporná neklesající nejvýše = 1 Grafy distribuční funkce Normálního rozdělení Exponenciálního rozdělení
Popis spojitých dat Zobrazení spojitých dat histogramem nebo empirickou distribuční funkcí zahrnuje velké množství čísel. Někdy potřebujeme popis dat zjednodušit i za cenu ztráty určité informace. K tomuto účelu slouží ČÍSELNÉ CHARAKTERISTIKY Číselné charakteristiky počítáme nebo odhadujeme pro: celou populaci výběrový soubor Číselné charakteristiky dělíme na: míry polohy míry variability (měřítka)
Míry polohy Měly by být typickou hodnotou statistického znaku sledovaného statistického souboru (schopnost jedné hodnoty reprezentovat celý soubor) Jsou jednoznačně definované a relativně jednoduše zjistitelné Slouží k porovnání různých statistických souborů nebo vývoje statistického souboru v čase Měly by co nejméně podléhat nahodilostem výběru a odlehlým hodnotám měření - požadavek robustnosti.
ARITMETICKÝ PRŮMĚR základního souboru výběrového souboru Průměr má tu vlastnost, že je minimální právě pro a = Můžeme si ho představit jako takový bod číselné osy, od nějž součet druhých mocnin vzdáleností všech hodnot xi je minimální. Průměr je těžiště dat a nejpoužívanější míra polohy je jedním z přirozených parametrů normálního rozdělení lze snadno vypočíst Pro jiné typy rozdělení však už nemusí být vždy vhodný
GEOMETRICKÝ PRŮMĚR Pokud rozložení nesplňuje podmínku normality dat, nemusí být odhad střední hodnoty pomocí aritmetického průměru vhodný. Např. pokud sledujeme koncentraci látky, časové řady nebo i např. hmotnost postavy*, mluvíme o logaritmicko-normálním rozložení (viz přednáška o rozložení veličin) a pro výpočet střední hodnoty použijeme GEOMETRICKÝ PRŮMĚR: Je to nerobustní charakteristika ovlivněná odlehlými hodnotami Pokud počítáme střední hodnotu hmotnosti pomocí geometrického průměru, znamená to, že nás nezajímá o kolik se liší hmotnost, ale kolikrát se liší.
HARMONICKÝ PRŮMĚR Příklad: Jedeme autem 30 km, z toho 10 km rychlostí 60 km/h, další úsek 10 km rychlostí 80 km/h a posledních 10 km rychlostí 100 km/h. Kdybychom zkusili vypočítat průměrnou rychlost pomocí aritmetického průměru rychlostí, dojdeme k nesprávnému výsledku: 60 + 80 + 100 = 240 240 / 3 = 80 km/h Pokud správně použijeme harmonický průměr podle vzorce dojdeme ke správnému výsledku: Pokud bychom si totéž vyjádřili podle klasického vzorce pro výpočet rychlosti, dostaneme totéž:
MEDIÁN je prostřední měřená hodnota získáme ho tak, že data seřadíme podle velikosti a každou hodnotu v řadě označíme jako xi , kde i je pořadí seřazených dat. pro lichý počet hodnot je medián prostřední hodnota pro sudý počet je to součet obou prostředních hodnot dělený dvěma MEDIÁN nemusí být nejlepším odhadem pro normální rozdělení, ale je velmi stabilní - neovlivní jej odlehlé hodnoty. Protože je prostřední hodnota, všechny ostatní hodnoty na něj mají stejný vliv bez ohledu na to, jak jsou od něj vzdáleny.
MEDIÁN MEDIÁN používáme nejčastěji v situaci kdy nelze předpokládat normalitu rozdělení zkoumané náhodné veličiny a / nebo pokud předpokládáme odlehlé hodnoty, např. díky selhání měření ve statistikách, které by byly zkresleny odlehlými hodnotami např. když nevíme, zda se jedná o chybu měření nebo odlehlou hodnotu
Medián jako míra polohy pro spojité i diskrétní veličiny se používá: v topologických řadách (stupnicích): zjištění průměrného žáka – místo aritmetického průměru součtu známek je ve třídě s 31 žáky nad mediánem 15 lepších žáků a pod mediánem 15 horších žáků v otevřených stupnicích chybí omezení shora: při zjišťování příjmu nejsou vyloučeny odpovědi typu: - vydělávám „přes 100 000 Kč“ aritmetický průměr by nebylo možno vypočítat stejně tak ve stupnicích, kde chybí omezení zdola: - relativní počet onemocnění na 100.000 obyvatel je > 0
Medián jako míra polohy pro spojité i diskrétní veličiny Stejně jako všechny míry polohy má i medián své nevýhody: prostřední akcionář může být ten, který vlastní 1 akcii mediánem nemůžeme stanovit průměrný počet dětí v rodině obecně: nesmíme ho použít v případě malých výběrových souborů, kdy je dílem náhody, která hodnota se stane mediánem Medián je tedy taková hodnota, kdy 50% hodnot leží pod ním a 50% hodnot nad ním. Podobným způsobem můžeme definovat další statistické charakteristiky zvané kvantily, z nichž nejpoužívanější jsou dolní a horní kvartil, decily a percentily.
Dolní a horní kvartil, kvantily, decily Jsou další charakteristiky založené na relativní četnosti hodnot v datech, které jsou menší nebo rovny této charakteristice. Označme tuto relativní četnost p, kde 0 ≤ p ≤ 1, a příslušnou charakteristiku x(p). Pro medián bylo p rovno jedné polovině, tedy 0,5 a místo bychom mohli psát x(0,5). Hodnotě x(p) se říká p-kvantil Často užívané kvantily jsou: x(0,5) - medián x(0,25) - dolní kvartil, x(0,75) - horní kvartil x(0,1) - dolní decil, x(0,9) - horní decil Dolní kvartil určíme jako medián „dolní poloviny“ dat, horní kvartil jako medián „horní poloviny“ dat.
Medián, dolní a horní kvartil Příklad: Lékařské studie nozokomiálních infekcí na odděleních JIP a ARO se zúčastnilo 100 zdravotnických zařízení (dále jen ZZ). Celkem v nich bylo sledováno 1615 pacientů. U 369 z nich byla diagnostikována nozokomiální infekce, což odpovídá průměrné prevalenci* 22,8 %. V následující tabulce jsou seřazeny vzestupně prevalence v jednotlivých ZZ. Zajímá nás medián a dolní a horní kvantil. Podívejte se, zda je můžeme z tabulky zjistit. * Prevalence je podíl počtu jedinců trpících danou nemocí a počtu všech jedinců ve sledované populaci. Je vztažena k určitému časovému okamžiku (momentu) a obvykle se vyjadřuje v procentech
Kvantily a medián - příklad PREVALENCE | Frekv Procento Kum. -----------+----------------------- 0.0 | 21 21.0% 21.0% 5.9 | 1 1.0% 22.0% 7.1 | 1 1.0% 23.0% 9.5 | 1 1.0% 24.0% 11.1 | 1 1.0% 25.0% 12.5 | 1 1.0% 26.0% 14.3 | 3 3.0% 29.0% 15.3 | 1 1.0% 30.0% 15.4 | 2 2.0% 32.0% 15.8 | 1 1.0% 33.0% 16.4 | 1 1.0% 34.0% 16.5 | 1 1.0% 35.0% 16.7 | 2 2.0% 37.0% 18.2 | 1 1.0% 38.0% 18.4 | 1 1.0% 39.0% 18.8 | 1 1.0% 40.0% 20.0 | 3 3.0% 43.0% 20.4 | 2 2.0% 45.0% 20.7 | 1 1.0% 46.0% 22.0 | 1 1.0% 47.0% 23.5 | 1 1.0% 48.0% 25.0 | 10 10.0% 58.0% 25.3 | 1 1.0% 59.0% PREVALENCE | Frekv Procento Kum. -----------+----------------------- 25.8 | 1 1.0% 60.0% 26.1 | 1 1.0% 61.0% 28.1 | 1 1.0% 62.0% 28.6 | 1 1.0% 63.0% 29.0 | 1 1.0% 64.0% 29.4 | 1 1.0% 65.0% 30.4 | 1 1.0% 66.0% 30.6 | 1 1.0% 67.0% 30.8 | 1 1.0% 68.0% 31.3 | 1 1.0% 69.0% 33.3 | 6 6.0% 75.0% 35.7 | 1 1.0% 76.0% 40.0 | 5 5.0% 81.0% 42.1 | 1 1.0% 82.0% 45.5 | 2 2.0% 84.0% 50.0 | 5 5.0% 89.0% 55.6 | 1 1.0% 90.0% 58.3 | 1 1.0% 91.0% 60.0 | 2 2.0% 93.0% 66.7 | 3 3.0% 96.0% 75.0 | 2 2.0% 98.0% 100.0 | 2 2.0% 100.0% -----------+----------------------- Celkem 100 100.0%
POPISNÁ STATISTIKA
POPISNÁ STATISTIKA
Modus je nejpravděpodobnější hodnota jako výběrový odhad MODU je používána nejčastěji pozorovaná hodnota. pro veličiny měřené s velkou přesností je tento odhad nepoužitelný, protože velká většina hodnot je naměřená pouze jednou Pokud máme větší počet pozorování, je podobně stabilní jako medián a mnohem stabilnější než průměr. U vícevrcholových rozdělení používáme popis i podle několika módů, jindy je zjištění dvou nebo více modů znakem, že data jsou nehomogenní a do šetření jsou zahrnuti jedinci dvou nebo více skupin.
Najděte modus a rozhodněte, zda reprezentuje střední hodnotu PREVALENCE | Frekv Procento Kum. -----------+----------------------- 0.0 | 21 21.0% 21.0% 5.9 | 1 1.0% 22.0% 7.1 | 1 1.0% 23.0% 9.5 | 1 1.0% 24.0% 11.1 | 1 1.0% 25.0% 12.5 | 1 1.0% 26.0% 14.3 | 3 3.0% 29.0% 15.3 | 1 1.0% 30.0% 15.4 | 2 2.0% 32.0% 15.8 | 1 1.0% 33.0% 16.4 | 1 1.0% 34.0% 16.5 | 1 1.0% 35.0% 16.7 | 2 2.0% 37.0% 18.2 | 1 1.0% 38.0% 18.4 | 1 1.0% 39.0% 18.8 | 1 1.0% 40.0% 20.0 | 3 3.0% 43.0% 20.4 | 2 2.0% 45.0% 20.7 | 1 1.0% 46.0% 22.0 | 1 1.0% 47.0% 23.5 | 1 1.0% 48.0% 25.0 | 10 10.0% 58.0% 25.3 | 1 1.0% 59.0% PREVALENCE | Frekv Procento Kum. -----------+----------------------- 25.8 | 1 1.0% 60.0% 26.1 | 1 1.0% 61.0% 28.1 | 1 1.0% 62.0% 28.6 | 1 1.0% 63.0% 29.0 | 1 1.0% 64.0% 29.4 | 1 1.0% 65.0% 30.4 | 1 1.0% 66.0% 30.6 | 1 1.0% 67.0% 30.8 | 1 1.0% 68.0% 31.3 | 1 1.0% 69.0% 33.3 | 6 6.0% 75.0% 35.7 | 1 1.0% 76.0% 40.0 | 5 5.0% 81.0% 42.1 | 1 1.0% 82.0% 45.5 | 2 2.0% 84.0% 50.0 | 5 5.0% 89.0% 55.6 | 1 1.0% 90.0% 58.3 | 1 1.0% 91.0% 60.0 | 2 2.0% 93.0% 66.7 | 3 3.0% 96.0% 75.0 | 2 2.0% 98.0% 100.0 | 2 2.0% 100.0% -----------+----------------------- Celkem 100 100.0%
Další míry polohy a míry variability Minimum je nejmenší pozorovaná hodnota Maximum je největší pozorovaná hodnota Rozpětí je rozdíl max - min Rozpětí je první orientační míra variability. Zajímá nás totiž nejen střední nebo nejčetnější hodnota, ale také zjištění jak jsou ostatní hodnoty od té prostřední vzdáleny do jaké míry jsou na číselné ose rozházeny (rozptýleny) Tyto odlišnosti můžeme vyjádřit číselně pomocí charakteristik měřítka (variability, rozptýlenosti, „rozházenosti“) naměřených hodnot
Míry variability - míry měřítka Vypovídají o variabilitě (proměnlivosti) hodnot sledovaného statistického znaku z daného statistického souboru Slouží k porovnání variability různých statistických souborů nebo vývoje statistického souboru v čase Měly by být robustní - nepodléhat nahodilostem výběru, příp. odlehlým hodnotám. Některé vycházejí v jiných jednotkách než je posuzovaný statistický znak (rozptyl) nebo jsou relativní mírou variability (variační koeficient).
Míry variability - ROZPTYL Střední hodnota náhodné veličiny je číslo, kolem kterého hodnoty NV kolísají. Neposkytuje však informaci, jak je toto kolísání velké. Velikost (míru) kolísání zjišťujeme pomocí druhé skupiny charakteristik, které nazýváme MÍRY VARIABILITY. Nejčastěji používanou mírou variability je ROZPTYL neboli VARIANCE (někdy DISPERZE - odtud značení D(X)). Je definován jako střední hodnota čtverce odchylky náhodné veličiny X od její střední hodnoty E(X): D(X) = E[X-E(X)]2
Míry variability - ROZPTYL Variabilitu nemůžeme charakterizovat součtem odchylek od průměru, neboť je vždy roven nule. Abychom obešli problém, že kladné a záporné odchylky od průměru se v součtu „vyruší“, používají se charakteristiky variability založené na součtu druhých mocnin (tzv. čtverců) odchylek od průměru. Základní vzorec pro ROZPTYL základního souboru Výběrovým protějškem je výběrový rozptyl
VÝBĚROVÝ ROZPTYL Matematicky je to „průměr čtverců vzdáleností naměřených od aritmetického průměru“. Značíme také var(X), kde symbol X označuje sledovanou veličinu V definici výběrového rozptylu je součet čtverců dělen (n-1) místo n. Je to proto, že ve vzorci pro výpočet výběrového rozptylu používáme odhad průměru. Odhadujeme jeden parametr, proto odečítáme jedničku od počtu měření, aby vypočtený rozptyl byl tzv. „nestranný“.
Směrodatná odchylka a střední chyba průměru ve výběrovém souboru značíme s v základním souboru značíme σ nazývá se také standardní odchylka anglicky Standard Deviation S.D. počítá se jako druhá odmocnina rozptylu na rozdíl od rozptylu je ve stejných jednotkách jako sledovaná veličina STŘEDNÍ CHYBA PRŮMĚRU anglicky Standard Error S.E. nebo Standard Error of Mean S.E.M není populační charakteristikou, ale charakteristikou výběru je to odhad charakteristiky měřítka výběrového průměru
Rozpětí (rozsah) Rozpětí (variační rozpětí) R je vzdálenost nejmenší a největší pozorované hodnoty čím více pozorování máme k dispozici, tím větší může být maximální, případně menší minimální hodnota rozpětí má ovšem tu nevýhodu, že může být ovlivněno jednou extrémně odlišnou hodnotou. Mezikvartilové rozpětí IQR vhodné zvlášť pro jiné než normální rozložení veličiny eliminuje odlehlá pozorování je definována jako rozdíl třetího a prvního kvartilu na rozdíl od ROZPĚTÍ se neprojevuje efekt maxima a minima na vychýlení by soubor musel obsahovat více než 25% hodnot
Variační koeficient Variační koeficient je relativní vyjádření míry variability počítá se jako podíl směrodatné odchylky a průměru Používá se na porovnávání variability mezi soubory dat s odlišnými průměry. Je to bezrozměrná charakteristika, můžeme ji udávat i v procentech. Variační koeficient je relativní míra variability, což umožňuje porovnání variability statistických znaků s odlišnými jednotkami s odlišnými mírami polohy Interpretace: Variační koeficient udává z kolika procent se podílí směrodatná odchylka na aritmetickém průměru