STATISTIKA I.
náhodný pokus –neznáme předem výsledek –můžeme libovolněkrát opakovat –př. hod kostkou, vybrání náhodné osoby, … náhodný jev –výsledek náhodného pokusu –př. „padne 6“, „padne sudé“, „padne méně než 7“, „padne více než 10“, … elementární jev –jev, který nelze rozdělit –př. „padne 6“, „padne 1“, … NÁHODNÝ JEV
PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Ω={ω 1,…, ω k } množina elementárních jevů (všech možných výsledků náhod.pokusu) Náh.jevy A, B,…libovolné podmnožiny Ω Příklad: Náh.pokus hod kostkou Ω={1,2,…,6} A={6} hození šestky B={2,4,6} hození sudého čísla C= {1,2,3,4,5,6} hození čísla menšího než 7 D= Ø hození čísla většího než 7
PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT PRAVDĚPODOBNOST je vhodně definovaná relativní míra výskytu náh.jevů KLASICKÁ DEFINICE ||A|| ( A) značí počet elem.jevů tvořících A: P(A) = ||A|| / ||Ω|| Příklad – pokračování: P(A) = 1/6 P(B) = 3/6 = ½ P(C) = 6/6 = 1 P(D) = 0/6 = 0
jistý jev –P(A) = 1 nemožný jev –P(A) = 0 možný jev NÁHODNÝ JEV – II.
Plocha čtverce = 2 2 = 4 Plocha kruhu = . 1 2 = Pravděpodobnost, že se trefíme do kruhu: /4 PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT 2 Geometrická definice
OPERACE S JEVY Průnik A B A BSjednocení A B A B A B A B
OPERACE S JEVY Doplněk Ā, A’, A C Ā, A’, A CPodmíněnost A|B A|B A A B
PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Základní vlastnosti pravděpodobnosti: a) P(Ø) = P({ }) = 0, P(Ω) = 1 b)0 ≤ P(A) ≤ 1 c)A je podmnožina B => P(A) P(A)<P(B) d)P(Ā) = P(A’) = P(A C ) = 1 − P(A) ( doplněk ) e)P(A U B) = P(A) + P(B) − P(A∩B) f) P(A|B) = ||A∩B || / ||B|| = P(A∩B) / P(B) ( podmínka )
NEZÁVISLOST JEVŮ Jevy A a B jsou nezávislé, pokud platí P(B|A) = P(B|Ā) = P(B) Nutná a postačující podmínka nezávislosti P(A∩B) = P(A) · P(B) A,B nezávislé
Rozklad Ω Náhodné jevy (množiny) A 1 až A K jsou rozklad Ω A i ∩ A j = Ø pro i≠j, A 1 U…U A K =Ω
Bayesova věta Nechť známe P(B|A 1 ) až P(B|A 5 ). Pak: P(A 1 |B) = P(B|A 1 )·P(A 1 ) / [Σ P(B|A i )·P(A i )] analogicky pro ostatní části rozkladu, obecně: P(A j |B) = P(B|A j )·P(A j ) / [Σ P(B|A i )·P(A i )]
Bayesova věta Nechť známe P(A), P(Ā), P(B|A) a P(B|Ā). Pak: P(A|B) = P(B|A)·P(A) / [ P(B|A)·P(A)+ P(B|Ā )·P(Ā)] AĀ B
Bayesova věta (ilustrace) Nechť v populaci je 60 % mužů. Víme, že mezi muži je 10% nezaměstnanost, zatímco mezi ženami je 20% nezaměstnanost. a) Určete, jaká je celková míra nezaměstnanosti. b) Určete, jakou část z nezaměstnaných tvoří muži. Zadáno: P(M)=0,6 P(M’)=0,4 P(N|M)=0,1P(N|M’)=0,2 a) P(N∩M)=0,1·0,6=0,06 P(N∩M’)=0,2·0,4=0,08 P(N)=0,06+0,08=0,14 b) P(M|N)=P(N|M)·P(M)/[P(N|M)·P(M)+P(N|M’)·P(M’)]= = P(N∩M)/P(N) = 0,06 / 0,14 = 0,43
1,11,21,31,41,51,6 2,12,22,32,42,52,6 3,13,23,33,43,53,6 4,14,24,34,44,54,6 5,15,25,35,45,55,6 6,16,26,36,46,56,6 Ω: výsledky 2 hodů kostkou (X=počet šestek) A 1 …nehozena ani jedna šestka (X=0) A 2 …hozena jedna šestka (X=1) A 3 …hozeny dvě šestky (X=2) Náhodná veličina X
Pravděpodobnost hodnot náhodné veličiny P(A 1 )=25/36 P(A 2 )=10/36 P(A 3 )=1/36 P(X=0)=25/36 P(X=1)=10/36 P(X=2)=1/36 Píšeme: P(X=0) = P(0) = P 1 Zákon rozdělení pravděpodobnosti: Σ P i =1 ( neb A i tvoří rozklad Ω )
Pravděpodobnostní funkce P(x) = P(X=x) P(0) = P(X=0)=25/36P(-3) = P(X=-3)=0 P(1) = P(X=1)=10/36P(1,4)=P(X=1,4)=0 P(2) = P(X=2)=1/36 P(8) = P(X=8)=0 25/36 10/36 1/36 012
Modus=0 (nejpravděpodobnější hodnota X) První obecný moment aneb: Střední hodnota: EX = Σ x i ·P(x i ) = Σ x i ·P i, i=1…K EX = 0·25/36+1·10/36+2·1/36 = 12/36 = 1/3 Druhý obecný moment: E(X 2 )= Σ x i 2 ·P(x i ) = Σ x i 2 ·P i, i=1…K E(X 2 )= 0 2 ·25/ ·10/ ·1/36 = 14/36 = 7/18 Charakteristiky náhodné veličiny
Druhý centrovaný moment (rozptyl): DX = Σ (x i −EX) 2 ·P(x i )= Σ (x i −EX) 2 ·P i, i=1…K DX = (0−1/3) 2 ·25/ (1−1/3) 2 ·10/ (2−1/3) 2 ·1/36 = … = 5/18 + (2−1/3) 2 ·1/36 = … = 5/18 Druhý centrovaný moment pomocí obecných: DX = E(X 2 )−(EX) 2 DX = 7/18−(1/3) 2 = 5/18 Medián (obecně: kvantily)?
Lze využít: Distribuční funkce F(x)= P(X≤x) =„kumulovaná pravděpodobnost“ F(0)= P(0)= 25/36 F(1)= P(0)+P(1)= 25/36+10/36 = 35/36 F(2)= P(0)+P(1)+P(2)= 25/36+10/36+1/36 = 1
Alternativní rozdělení X~Alt(π) A…sledovaný jev, π=P(A) X=počet výskytů A při jediném pokusu X=0 nebo 1 P(X=0) = P(A’) = 1−π, P(X=1) = π EX = 0·(1−π)+1·π = π, E(X 2 ) = 0 2 ·(1−π)+1 2 ·π = π, DX = π−π 2 = π·(1−π)
Binomické rozdělení X~Bi(n,π) π=P(A), A…sledovaný jev n=počet nezávislých pokusů ( P(A) se v nich nemění ) X=počet výskytů A při n pokusech X=0,1,…,n P(X=x) = π x (1−π) n-x EX = n·π DX = n·π·(1−π) Příklad: Počet šestek při 2 hodech kostkou. (=Př.4) Příklad: Počet „úspěchů“ při losování s vracením.
Hypergeometrické rozdělení X~Hpg(n,M,N) A…sledovaný jev n=počet závislých pokusů (losování bez vracení z osudí s N prvky, z nichž M vyhovuje jevu A) X=počet výskytů A při n pokusech X=0,1,…,n ( může dojít k „posunu“ minima i maxima ) EX = n·M/N Příklad: Ze skupiny 20 lidí (z nich 4 muži) vybíráme bez vracení pětici, sledujeme počet vybraných mužů.
Poznámka: V případě, kdy sice vybíráme technikou bez vracení (čili správný je hypergeometrický model), ale výběr probíhá z velké populace, použijme binomický model. Proč? Když např. z obyvatel, kde jevu A vyhovovalo obyvatel (tj.M/N=0,5) ubereme 30 jedinců technikou bez vracení, bude poté jevu A vyhovovat podíl z rozmezí (dle postupu vybírání) / až / ,498 až 0,502 což se příliš nezměnilo oproti hodnotě 0,5 aneb pravděpodobnost výskytu jevu A téměř nezávisí na pořadí výběru.
Poissonovo rozdělení X~Po( λ ) A…sledovaný jev X=počet výskytů A při nekonečně mnoha pokusech X=0,1, 2,… P(x) =λ x e λ /x! EX = DX = λ Příklad: Na výrobní lince se zhruba každé dvě hodiny vyskytne porucha. S jakou pravděpodob- ností se na této lince během osmihodinové pracovní směny vyskytnou nejvýše dvě poruchy?
Rovnoměrné rozdělení (kategoriální typ) X~R(K) X=hodnoty 1, 2,…, K stejně pravděpodobné P(X=x) = 1/K, EX = (1+K)/2 Příklad: X=výsledek hodu kostkou (K=6). Graf distribuční funkce F(x) = P(X≤x)
Rovnoměrné rozdělení (spojitý typ) X~R(0,K) X=kterékoli reálné číslo mezi 0 až K Distribuční funkce F(x) = P(X≤x) = x/K ( mezi 0 až K, jinde konstanta viz graf ) Hustota Hustota f(x) = F’(x) = 1/K ( mezi 0 až K, jinde 0 )
Zákon rozdělení: f(x)dx=1 … integrály určité (zde meze integrálu: min X až max X) modus…hodnota, v níž je hustota max. Distribuční funkce: F(b) = P(X<b) … všeobecně platná definice F(b) = f(x) dx … meze integrálu: min X až b F(b) = velikost plochy pod hustotou mezi minX až b Důsledky pro určování pravděpodobností: P(X>a) = 1–F(a) = f(x) dx ( integrál od a do max X ) P(a<X<b)= F(b)–F(a) = f(x) dx ( integrál od a do b )
Střední hodnota: EX = x·f(x)dx Druhý obecný moment: E(X 2 )= x 2 ·f(x)dx Druhý centrovaný moment (rozptyl):DX=E(X 2 )−(EX) 2 Př. (rovnom.spojitá veličina, meze: 0 až K) 1/K dx = [x/K] = K/K – 0/K = 1–0 = 1 modus…není definován EX = x·1/K dx= [x 2 /(2K)] = K 2 /(2K)–0 = K/2 EX 2 = x 2 ·1/K dx= [x 3 /(3K)] = K 3 /(3K)–0 = K 2 /3 DX = K 2 /3 – (K/2) 2 = K 2 /3 – K 2 /4 = K 2 /12
Gaussovo normální rozdělení X~N(μ,σ 2 ) Grafem hustoty f(x) ( vzorec viz skripta ) Gaussova křivka ( centrována kolem μ=EX, ale je to též modus – hodnota s max. hustotou a medián ). ( centrována kolem μ=EX, ale je to též modus – hodnota s max. hustotou a medián ). Graf zde je spec.(normovaný) U-případ (μ=0, σ 2 =1): Graf zde je spec.(normovaný) U-případ (μ=0, σ 2 =1):
Gaussovo normální rozdělení
Princip normování spočívá v převodu veličiny X~N(μ,σ 2 ) na veličinu U~N(0,1): U=(X−μ)/σ Pro U≥0 je tabelována distribuční funkce (viz Pro U<0 využijeme symetrii kolem 0: F(-u) = 1−F(u)
Gaussovo normální rozdělení Příklad 5: Nechť je hmotnost X~N(80,100). Určíme P(X≤90), P(X≤75) a P(75≤X≤90). Využijeme princip normování a tabulku distribuční funkce: a) P(X≤90) = P(U≤(90-80)/10) = P(U≤1) = = F(1) = 0,84 = 84 % b) P(X≤75) = P(U≤(75-80)/10) = P(U≤-0,5) = = F(-0,5) = 1- F(0,5) = 1-0,69 = 0,31 = 31 % c) P(75≤X≤90) = P(X≤90)–P(X≤75) = 0,84-0,31 = =0,53 = 53 %.
Exponenciální rozdělení X~Exp(δ) X = jakákoli kladná hodnota (doba čekání) Distribuční funkce (x>0) F(x) = P(X≤x) = 1 e - x/δ Hustota (x>0) Hustota (x>0) f(x) = F’(x) = e - x/δ /δ EX = δ, DX = δ 2, x 0,5 = δln2, = 1/ EX = δ, DX = δ 2, x 0,5 = δln2, = 1/ Příklad: Stř.doba čeká- ní je 5 min; určit prst, že čekání bude max.6 min. Příklad: Stř.doba čeká- ní je 5 min; určit prst, že čekání bude max.6 min.
Exponenciální rozdělení Pokud X značí dobu do poruchy nějakého zařízení, pak pravděpodobnost, že zařízení, které pracovalo bez poruchy po dobu a hodin, bude pracovat bez poruchy ještě alespoň x hodin, je rovna pravděpodobnosti, že zařízení, které dosud nebylo v provozu, bude pracovat alespoň x hodin. Dříve odpracovaná doba je zanedbána. To lze aplikovat pro zařízení u kterých není doba životnosti ovlivněna dobou provozu.
Exponenciální rozdělení - příklad Střední doba čekání zákazníka na obsluhu v prodejně je 50 sekund. Doba čekání se řídí exponenciálním rozdělením (pravděpodobnost, že zákazník nebude obsloužen s rostoucím časem klesá exponenciálně). Jaká je pravděpodobnost, že náhodný zákazník bude obsloužen dříve než za 30 sekund? Řešení: Zákazník bude obsloužen dříve než za 30 sekund s pravděpodobností 45,1 %.
Základy statistické indukce Pro stat.data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat.veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm.průměr) vykazují vlastnosti pravděpodobnostních rozdělení.
Základy statistické indukce BODOVÉ ODHADY ( tj. odhady jedním číslem ) T n ( např. aritm.průměr či medián ) je z dat získaný bodový odhad pro neznámý parametr v pravděpodobnostním modelu pro sledovanou veličinu ( např. pro střední hodnotu v normálním rozdělení ). Je to odhad nestranný E(T n )= .
Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR JEHO BODOVÝ ODHAD T n π = P(A) p = relativní četnost jevu A μ ( střední hodnota ) aritmetický průměr σ 2 ( rozptyl ) s 2 =M 2 ·n/(n-1)