Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jevy a náhodná veličina

Podobné prezentace


Prezentace na téma: "Jevy a náhodná veličina"— Transkript prezentace:

1 Jevy a náhodná veličina
Výsledky některých jevů jsou vyjádřeny číselně: - na hrací kostce padne 1, 4, .. u jiných tomu tak není: - pacient se uzdravil Také těmto jevům je ve statistice účelné přiřadit čísla. Rozdělili jsme si data na dvě velké skupiny – diskrétní a spojitá. Přiřadit číslo můžeme každému pokusu nebo měření dat bez ohledu na to, do které skupiny patří. Čísla přiřazená elementárním jevům tvoří obor hodnot M Proměnnou, které jsme čísla přiřadili, nazýváme náhodná veličina a značíme X, Y, Z,…

2 Náhodná veličina Data jsou výsledkem měření nebo zkoumání náhodné veličiny. Náhodné veličiny dělíme podle oboru hodnot M na: diskrétní obor hodnot M je konečná nebo nekonečná posloupnost spojité obor hodnot M je otevřený nebo uzavřený interval Diskrétní náhodné veličině přiřazujeme pravděpodobnostní funkci P(X = x) = p(x) a čteme: pravděpodobnost, že funkce X = x je p(x). Hodnoty, kterých diskrétní funkce nabývá, a hodnoty pravděpodobností k nim přiřazeným můžeme zapisovat do tabulky.

3 Vlastnosti pravděpodobnostní funkce
a) p(xi) ≥ 0 plyne z definice pravděpodobnostní funkce b) plyne z toho, že náhodné veličině X je přiřazeno číslo xi právě tehdy, když nastane jev s hodnotou xi a jevy X1, X2, ..., Xn tvoří úplnou skupinu vzájemně disjunktních jevů, protože v jednom pokusu nabývá náhodná veličina X právě jedné hodnoty z oboru M. Zjednodušeně: Sečteme-li všechny možné výsledky pokusu, dostáváme jev jistý s pravděpodobností 1.

4 Pravděpodobnostní funkce diskrétní NV
Pokud na osu y vyneseme relativní četnosti, tj. pravděpodobnost, dostaneme pravděpodobnostní funkci Pro diskrétní veličinu jsou to jednotlivé oddělené body xi P(X=xi) F(x) 0,15 1 0,35 2 0,25 0,5 3 0,75 4 0,1 0,9 > 4

5 Distribuční funkce diskrétní náhodné veličiny
Pokud na osu y vyneseme relativní kumulativní četnosti, dostaneme neklesající pravděpodobnostní funkci. Pro diskrétní veličinu je to schodovitá nespojitá funkce xi P(X=xi) F(x) 0,15 1 0,35 2 0,25 0,5 3 0,75 4 0,1 0,9 > 4

6 Distribuční funkce diskrétní náhodné veličiny
Jedná se o pravděpodobnost, se kterou X nabude hodnoty menší než jistá mez Reálná funkce, která přiřazuje každé hodnotě xi náhodné veličiny X pravděpodobnost, že X nabude hodnoty menší než toto xi, se nazývá distribuční funkce F(x). Je definována vztahem F(x) = P(X < x) = Vlastnosti distribuční funkce F(x) diskrétní NV: -- je schodovitá křivka zleva spojitá v bodech x = xi, i = 1,2,..., -- je nezáporná -- je neklesající -- nejvýše = 1

7 Spojitá náhodná veličina
Také u spojité náhodné veličiny se užívá k jejímu popisu distribuční funkce F(x), která je definovaná stejně jako u diskrétní náhodné veličiny vztahem: F(xi) = P(X < xi) Vlastnosti F(x) pro spojitou NV: 0 ≤ F(x) ≤ 1 P(x1 ≤ X < x2) = F(x2) - F(x1) pro x1 < x2 F(x) je neklesající funkce F(- ∞) = 0, F(∞) = 1 F(x) je spojitá funkce ve všech svých bodech

8 Analogie distribuční funkce diskrétní a spojité NV
Diskrétní náhodná veličina nabývá konečně nebo nejvýše spočetně mnoha hodnot, distribuční funkce je schodovitá křivka s body skoku v hodnotách xi Spojitá náhodná veličina nabývá nekonečně mnoha hodnot, distribuční funkce má tvar esovité křivky

9 Hustota pravděpodobnosti spojité NV
Pro spojitou náhodnou veličinu zavádíme místo pravděpodobnostní funkce hustotu pravděpodobnosti: Hustota pravděpodobnosti náhodné veličiny X definované na intervalu je nezáporná, reálná funkce definovaná vztahem: kde pro x  je f(x) = 0; x, x+h 

10 Rozložení (rozdělení) náhodné veličiny
Pro diskrétní veličinu nazýváme rozložení v dvourozměrném prostoru pravděpodobnostní funkcí pro spojitou veličinu - hustotou pravděpodobnosti Na osu x (nezávisle proměnná) vynášíme naměřené hodnoty, na osu y (závisle proměnná) počty naměřených hodnot.

11 Hustota pravděpodobnosti spojité NV
Spojitou NV měříme s omezenou přesností (přesnost omezená měřicími přístroji nebo našimi schopnostmi) a zobrazujeme ji také histogramem četností nebo sloupcovým grafem Červená křivka proložená histogramem je hustota pravděpodobnosti někdy se jí říká také frekvenční funkce Hmotnost narozených dětí 5000 4500 4000 3500 3000 2500 2000 1500

12 Graf hustoty pravděpodobnosti Odpovídající graf distribuční funkce

13 Distribuční funkce spojité náhodné veličiny
je nezáporná neklesající nejvýše = 1 Grafy distribuční funkce Normálního rozdělení Exponenciálního rozdělení

14 Popis spojitých dat Zobrazení spojitých dat histogramem nebo empirickou distribuční funkcí zahrnuje velké množství čísel. Někdy potřebujeme popis dat zjednodušit i za cenu ztráty určité informace. K tomuto účelu slouží ČÍSELNÉ CHARAKTERISTIKY Číselné charakteristiky počítáme nebo odhadujeme pro: celou populaci výběrový soubor Číselné charakteristiky dělíme na: míry polohy míry variability (měřítka)

15 Míry polohy Měly by být typickou hodnotou statistického znaku z daného statistického souboru (schopnost jedné hodnoty reprezentovat celý soubor) Jsou jednoznačně definované a relativně jednoduše zjistitelné Slouží k porovnání různých statistických souborů nebo vývoje statistického souboru v čase Měly by co nejméně podléhat nahodilostem výběru a odlehlým hodnotám měření - požadavek robustnosti.

16 ARITMETICKÝ PRŮMĚR základního souboru výběrového souboru
Průměr má tu vlastnost, že je minimální právě pro a = Můžeme si ho představit jako takový bod číselné osy, od nějž součet druhých mocnin vzdáleností všech hodnot xi je minimální. Průměr je těžiště dat a nejpoužívanější míra polohy je jedním z přirozených parametrů normálního rozdělení lze snadno vypočíst Pro jiné typy rozdělení však už nemusí být vždy vhodný

17 GEOMETRICKÝ PRŮMĚR Pokud rozložení nesplňuje podmínku normality dat, nemusí být odhad střední hodnoty pomocí aritmetického průměru vhodný. Např. pokud sledujeme koncentraci látky, časové řady nebo i např. hmotnost postavy*, mluvíme o logaritmicko-normálním rozložení (viz přednáška o rozložení veličin) a pro výpočet střední hodnoty použijeme GEOMETRICKÝ PRŮMĚR: Je to nerobustní charakteristika ovlivněná odlehlými hodnotami Pokud počítáme střední hodnotu hmotnosti pomocí geometrického průměru, znamená to, že nás nezajímá o kolik se liší hmotnost, ale kolikrát se liší.

18 HARMONICKÝ PRŮMĚR Příklad: Jedeme autem 30 km, z toho 10 km rychlostí 60 km/h, další úsek 10 km rychlostí 80 km/h a posledních 10 km rychlostí 100 km/h. Kdybychom zkusili vypočítat průměrnou rychlost pomocí aritmetického průměru rychlostí, dojdeme k nesprávnému výsledku: = / 3 = 80 km/h Pokud správně použijeme harmonický průměr podle vzorce dojdeme ke správnému výsledku: Pokud bychom si totéž vyjádřili podle klasického vzorce pro výpočet rychlosti, dostaneme totéž:

19 MEDIÁN je prostřední měřená hodnota
získáme ho tak, že data seřadíme podle velikosti a každou hodnotu v řadě označíme jako xi , kde i je pořadí seřazených dat. pro lichý počet hodnot je medián prostřední hodnota pro sudý počet je to součet obou prostředních hodnot dělený dvěma MEDIÁN nemusí být nejlepším odhadem pro normální rozdělení, ale je velmi stabilní - neovlivní jej odlehlé hodnoty. Protože je prostřední hodnota, všechny ostatní hodnoty na něj mají stejný vliv bez ohledu na to, jak jsou od něj vzdáleny.

20 MEDIÁN MEDIÁN používáme nejčastěji v situaci
kdy nelze předpokládat normalitu rozdělení zkoumané náhodné veličiny a / nebo pokud předpokládáme odlehlé hodnoty, např. díky selhání měření ve statistikách, které by byly zkresleny odlehlými hodnotami např. když nevíme, zda se jedná o chybu měření nebo odlehlou hodnotu

21 Medián jako míra polohy pro spojité i diskrétní veličiny
se používá: v topologických řadách (stupnicích): zjištění průměrného žáka – místo aritmetického průměru součtu známek je ve třídě s 31 žáky nad mediánem 15 lepších žáků a pod mediánem 15 horších žáků v otevřených stupnicích chybí omezení shora: při zjišťování příjmu nejsou vyloučeny odpovědi typu: - vydělávám „přes Kč“ aritmetický průměr by nebylo možno vypočítat stejně tak ve stupnicích, kde chybí omezení zdola: - relativní počet onemocnění na obyvatel je > 0

22 Medián jako míra polohy pro spojité i diskrétní veličiny
Stejně jako všechny míry polohy má i medián své nevýhody: prostřední akcionář může být ten, který vlastní 1 akcii mediánem nemůžeme stanovit průměrný počet dětí v rodině obecně: nesmíme ho použít v případě malých výběrových souborů, kdy je dílem náhody, která hodnota se stane mediánem Medián je tedy taková hodnota, kdy 50% hodnot leží pod ním a 50% hodnot nad ním. Podobným způsobem můžeme definovat další statistické charakteristiky zvané kvantily, z nichž nejpoužívanější jsou dolní a horní kvartil, decily a percentily.

23 Dolní a horní kvartil, kvantily, decily
Jsou další charakteristiky založené na relativní četnosti hodnot v datech, které jsou menší nebo rovny této charakteristice. Označme tuto relativní četnost p, kde 0 ≤ p ≤ 1, a příslušnou charakteristiku x(p). Pro medián bylo p rovno jedné polovině, tedy 0,5 a místo bychom mohli psát x(0,5). Hodnotě x(p) se říká p-kvantil Často užívané kvantily jsou: x(0,5) - medián x(0,25) - dolní kvartil, x(0,75) - horní kvartil x(0,1) - dolní decil, x(0,9) - horní decil Dolní kvartil určíme jako medián „dolní poloviny“ dat, horní kvartil jako medián „horní poloviny“ dat.

24 Medián, dolní a horní kvartil
Příklad: Lékařské studie nozokomiálních infekcí na odděleních JIP a ARO se zúčastnilo 100 zdravotnických zařízení (dále jen ZZ). Celkem v nich bylo sledováno 1615 pacientů. U 369 z nich byla diagnostikována nozokomiální infekce, což odpovídá průměrné prevalenci* 22,8 %. V následující tabulce jsou seřazeny vzestupně prevalence v jednotlivých ZZ. Zajímá nás medián a dolní a horní kvantil. Podívejte se, zda je můžeme z tabulky zjistit. * Prevalence je podíl počtu jedinců trpících danou nemocí a počtu všech jedinců ve sledované populaci. Je vztažena k určitému časovému okamžiku (momentu) a obvykle se vyjadřuje v procentech

25 Kvantily a medián - příklad
PREVALENCE | Frekv Procento Kum. 0.0 | % % 5.9 | % % 7.1 | % % 9.5 | % % 11.1 | % % 12.5 | % % 14.3 | % % 15.3 | % % 15.4 | % % 15.8 | % % 16.4 | % % 16.5 | % % 16.7 | % % 18.2 | % % 18.4 | % % 18.8 | % % 20.0 | % % 20.4 | % % 20.7 | % % 22.0 | % % 23.5 | % % 25.0 | % % 25.3 | % % PREVALENCE | Frekv Procento Kum. 25.8 | % % 26.1 | % % 28.1 | % % 28.6 | % % 29.0 | % % 29.4 | % % 30.4 | % % 30.6 | % % 30.8 | % % 31.3 | % % 33.3 | % % 35.7 | % % 40.0 | % % 42.1 | % % 45.5 | % % 50.0 | % % 55.6 | % % 58.3 | % % 60.0 | % % 66.7 | % % 75.0 | % % 100.0 | % % Celkem %

26 POPISNÁ STATISTIKA

27 POPISNÁ STATISTIKA

28

29

30 Modus je nejpravděpodobnější hodnota
jako výběrový odhad MODU je používána nejčastěji pozorovaná hodnota. pro veličiny měřené s velkou přesností je tento odhad nepoužitelný, protože velká většina hodnot je naměřená pouze jednou Pokud máme větší počet pozorování, je podobně stabilní jako medián a mnohem stabilnější než průměr. U vícevrcholových rozdělení používáme popis i podle několika módů, jindy je zjištění dvou nebo více modů znakem, že data jsou nehomogenní a do šetření jsou zahrnuti jedinci dvou nebo více skupin.

31 Najděte modus a zdůvodněte
PREVALENCE | Frekv Procento Kum. 0.0 | % % 5.9 | % % 7.1 | % % 9.5 | % % 11.1 | % % 12.5 | % % 14.3 | % % 15.3 | % % 15.4 | % % 15.8 | % % 16.4 | % % 16.5 | % % 16.7 | % % 18.2 | % % 18.4 | % % 18.8 | % % 20.0 | % % 20.4 | % % 20.7 | % % 22.0 | % % 23.5 | % % 25.0 | % % 25.3 | % % PREVALENCE | Frekv Procento Kum. 25.8 | % % 26.1 | % % 28.1 | % % 28.6 | % % 29.0 | % % 29.4 | % % 30.4 | % % 30.6 | % % 30.8 | % % 31.3 | % % 33.3 | % % 35.7 | % % 40.0 | % % 42.1 | % % 45.5 | % % 50.0 | % % 55.6 | % % 58.3 | % % 60.0 | % % 66.7 | % % 75.0 | % % 100.0 | % % Celkem %

32 Další míry polohy a míry variability
Minimum je nejmenší pozorovaná hodnota Maximum je největší pozorovaná hodnota Rozsah je rozdíl max - min Rozsah je míra variability. Zajímá nás totiž nejen střední nebo nejčetnější hodnota, ale také zjištění jak jsou ostatní hodnoty od té prostřední vzdáleny do jaké míry jsou na číselné ose rozházeny (rozptýleny) Tyto odlišnosti můžeme vyjádřit číselně pomocí charakteristik měřítka (variability, rozptýlenosti, „rozházenosti“) naměřených hodnot

33 Míry variability - míry měřítka
Vypovídají o variabilitě (proměnlivosti) hodnot sledovaného statistického znaku z daného statistického souboru Slouží k porovnání variability různých statistických souborů nebo vývoje statistického souboru v čase Měly by být robustní - nepodléhat nahodilostem výběru, příp. odlehlým hodnotám. Některé vycházejí v jiných jednotkách než je posuzovaný statistický znak (rozptyl) nebo jsou relativní mírou variability (variační koeficient).

34 Míry variability - ROZPTYL
Střední hodnota náhodné veličiny je číslo, kolem kterého hodnoty NV kolísají. Neposkytuje však informaci, jak je toto kolísání velké. Velikost (míru) kolísání zjišťujeme pomocí druhé skupiny charakteristik, které nazýváme MÍRY VARIABILITY. Nejčastěji používanou mírou variability je ROZPTYL neboli VARIANCE (někdy DISPERZE - odtud značení D(X)). Je definován jako střední hodnota čtverce odchylky náhodné veličiny X od její střední hodnoty E(X): D(X) = E[X-E(X)]2

35 Míry variability - ROZPTYL
Variabilitu nemůžeme charakterizovat součtem odchylek od průměru, neboť je vždy roven nule. Abychom obešli problém, že kladné a záporné odchylky od průměru se v součtu „vyruší“, používají se charakteristiky variability založené na součtu druhých mocnin (tzv. čtverců) odchylek od průměru. Často se využívá těchto vlastností rozptylu: Rozptyl součtu párově nezávislých NV = součtu rozptylů těchto veličin Rozptyl rozdílu dvou nezávislých NV = součtu rozptylů těchto veličin Základní vzorec pro ROZPTYL základního souboru

36 VÝBĚROVÝ ROZPTYL Výběrovým protějškem je výběrový rozptyl
Matematicky je to „průměr čtverců vzdáleností naměřených od aritmetického průměru“. Značíme také var(X), kde symbol X označuje sledovanou veličinu V definici výběrového rozptylu je součet čtverců dělen (n-1) místo n. Je to proto, že ve vzorci pro výpočet výběrového rozptylu používáme odhad průměru. Odhadujeme jeden parametr, proto odečítáme jedničku od počtu měření, aby vypočtený rozptyl byl tzv. „nestranný“.

37 Směrodatná odchylka a střední chyba průměru
ve výběrovém souboru značíme s v základním souboru značíme σ nazývá se také standardní odchylka anglicky Standard Deviation S.D. počítá se jako druhá odmocnina rozptylu na rozdíl od rozptylu je ve stejných jednotkách jako sledovaná veličina STŘEDNÍ CHYBA PRŮMĚRU anglicky Standard Error S.E. nebo Standard Error of Mean S.E.M není populační charakteristikou, ale charakteristikou výběru je to odhad charakteristiky měřítka výběrového průměru

38 Rozpětí (rozsah) Rozpětí (variační rozpětí) R
je vzdálenost nejmenší a největší pozorované hodnoty čím více pozorování máme k dispozici, tím větší může být maximální, případně menší minimální hodnota rozpětí má ovšem tu nevýhodu, že může být ovlivněno jednou extrémně odlišnou hodnotou. Mezikvartilové rozpětí IQR vhodné zvlášť pro jiné než normální rozložení veličiny eliminuje odlehlá pozorování je definována jako rozdíl třetího a prvního kvartilu na rozdíl od ROZPĚTÍ se neprojevuje efekt maxima a minima na vychýlení by soubor musel obsahovat více než 25% hodnot

39 Variační koeficient Variační koeficient je relativní vyjádření míry polohy vzhledem k měřítku je to bezrozměrná charakteristika, můžeme ji udávat i v procentech. Interpretace: Variační koeficient udává z kolika procent se podílí směrodatná odchylka na aritmetickém průměru Variační koeficient je relativní míra variability, což umožňuje porovnání variability statistických znaků s odlišnými jednotkami s odlišnými mírami polohy


Stáhnout ppt "Jevy a náhodná veličina"

Podobné prezentace


Reklamy Google