Pravděpodobnost a statistika opakování základních pojmů Václav Hlaváč katedra kybernetiky FEL ČVUT hlavac@fel.cvut.cz poděkování: Martinovi Urbanovi za první verzi přednášky v říjnu 2005
Obsah Pravěpodobnost - Definice, základní vztahy - Koncept náhodné veličiny Statistika - Náhodný výběr - Odhad parametrů Literatura J. Novovičová, Pravděpodobnost a Matematiská Statistika. ČVUT 2002 A. Papoulis, Probability, Random Variables and Stochatic Processes, McGraw Hill, Edition 4, 2002. http://mathworld.wolfram.com/
Úvod Pravděpodobnost - abstraktní matematický model neurčitosti - modeluje děje, v nichž hraje roli náhodnost Statistika - sběr a analýza dat - pracuje s omezenými / konečnými vzorky - odhad parametrů, testování hypotéz, atd.
Část 1 Pravděpodobnost
Pravděpodobnost: definice, základní vztahy Definice pravděpodobnosti: Klasická: Limitní (četnostní): Axiomatická (Andreje Kolmogorova)
Axiomatická (Kolmogorova) definice pravděpodobnosti
Odvozené vztahy
Podmíněná pravděpodobnost Příklad: Hod kostkou. Jaká je pravděpodobnost, že padne číslo větší než 3 za podmínky, že padlo liché číslo.
Sdružená pravděpodobnost Nezávislé jevy: Příklad: Jsou jevy A a B nezavislé?
Pojem náhodné veličiny Náhodná veličina přiřazuje každému elementárnímu jevu reálné číslo Proč se zavádí? Umožňuje zavést pojmy hustota pravděpodobnosti, distribuční funkce, střední hodnota atd. Dva základní typy náhodných veličin Spojité (nabývá spočetně mnoha hodnot) Diskrétní (nabývá hodnoty z nějakého intervalu R)
Koncept náhodné veličiny (2) Diskrétní náhodná veličina - nabývá konečně/spočetně mnoha hodnot - příklady: hod kostkou, počet projetých aut za 1 hod. - rozdělení se popisuje pravděpodobnostní funkcí: P(X=ai) = p(ai) ~ diskrétní rozdělení pravděpodobnosti Spojitá náhodná veličina - může nabývá nespočetně mnoha hodnot - příklad: výška osob - rozdělení se popisuje hustotou pravděpodobnosti - P(X=a)=0, a 2 R
Distribuční funkce (Kumulativní) Distribuční funkce: Funkce náhodné veličiny definována vztahem Příklady: a) rovnoměrné rozdělení b) normální rozdělemí
Hustota pravděpodobnosti nebo Příklady: a) rovnoměrné b) normální
Podmíněná distribuční funkce a hustota pravděpodobnosti Příklad: Délka vlasů. Předpokládejme, že rozložení délky vlasů u dívek má normální (gaussovské) rozdělení N(15,25) a u chlapců N(6,4) a tedy, že rozdělení u všech dětí má charakter směsi dvou normálních rozdělení. W={děti} F(X) ... d.f. délky vlasů všech dětí A={dívky} F(X|A) ... d.f. délky vlasů u dívek B={chlapci} F(X|B) ... d.f. délky vlasů u chlapců - náhodná veličina X ... délka vlasů fděti = wd N(15,25) + whN(6,4) = wd f(x|A) + wh f(x|B)
Základní charakteristiky náhodné veličiny Střední hodnota (též očekávaná hodnota) K-tý obecný moment K-tý centrální moment
Rozptyl, též disperze Druhý centrální moment
Kovariance Kovariance dvou veličin X, Y Kovarianční matice n veličin veličin X1,...,Xn - symetrická, positivně definitní
Kvantily, medián p-kvantil Qp medián je p -kvantil pro p =0.5
Rovnoměrné rozdělení, diskrétní Diskrétní rovnoměrné rozdělení DU(m) - příklady: hodnota první číslice na SPZ hod kostkou
Binomické rozdělení, diskrétní Binomické rozdělení B(n,p) n nezávislých pokusů, při nichž může nastat jev A s pravděp. p a nenastat s pravděp. (1-p) x udává počet, kolikrát nastal jev A při n pokusech
Geometrické rozdělení, diskrétní Geometrické rozdělení G(p) - opakujeme nezávislé pokusy, při nichž může nastat jev A s pravděp. p - x udává počet neúspěšných pokusů, než poprvé nastane jev A
Rovnoměrné rozdělení, spojité Rovnoměrné rozdělení U(a,b)
Normální rozdělení, spojité Normální rozdělení N(m,s2) Vícerozměrné normální rozdělení N(m,å)
Centrální limitní věta Mějme n nezávislých náhodných veličin Xi. Jejich součet S=X1+…+Xn je také náhodná veličina se střední hodnotou m=m1 + … + mn a rozptylem s2=s12 + … + sn2. Centrální limitní věta: S rostoucím n se distribuce F(S) blíží normálnímu rozdělení N(m,s2).
Pravděpodobnost: Koncept náhodné veličiny
Centrální limitní věta, příklad x1 x2 x3 x4 x5 x6 S 13 Předpokládejme, že hodnoty číslic na SPZ jsou náhodné veličiny X1, X2, ... , X6, nabývající hodnot {0,1,…,9}. Výskyt každé číslice má rovnoměrné rozložení. Součet všech číslic na SPZ S = X1+X2+ ... +X6 je také náhodná veličina. Nabývá hodnot {0,1,…,54} a blíží se normálnímu rozložení. 23 16 .
Část 2 Statistika
Náhodný výběr Výběrový průměr Výběrové momenty Výběrový rozptyl Náhodný výběr rozsahu n - n nezávislých opakování téhož pokusu - posloupnost n nezávislých náhodných veličin se stejným rozdělením X1.,..., Xn Výběrový průměr Výběrové momenty Výběrový rozptyl Poznámka
Odhad parametrů f(x|q) = N(m,s2), q = {m,s2} Formulace úlohy: - mějme n nezávislých měření {x1,…,xn} - známe parametrický model hustoty f(X)= f(x|q), případně diskrétní p(xi|q), až na neznámou hodnotu parametru q Cíl: Na základě naměřených {x1,…,xn} určit hodnotu q Příklad: Předpokládejme, že rozložení výšky lidí lze popsat normálním rozdělením s neznámou střední hodnotou m a rozptylem s2. Na základě náhodného vzorku 100 lidí chceme odhadnout m,s2 f(x|q) = N(m,s2), q = {m,s2}
Odhad, metoda maxim. věrohodnosti ML-odhad (Maximal Likelihood) : Hledáme takové q* , které maximalizuje P({x1,…,xn} ) Přesněji pro spojitý případ: hledámeq , které maximalizuje sdruženou hustotu L(q,x) – věrohodnost:
ML-odhad, možné postupy řešení Hledá se : a) analyticky b) numericky - metody gradientního sestupu - EM algoritmus