Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilVlastimil Müller
1
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
2
Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)
3
Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu
4
ZÁKLADNÍ POJMY universum (diskrétní, spojité) jev jistý , jev nemožný sjednocení jevů i=1..n A i průnik jevů i=1..n A i jev opačnýA c = A elementární jev algebra A : systém podmnožin uzavřený na sjednocení, průnik, doplněk; , A náhodný jev A A
5
ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A A P (A) A A,B vzájemně disjunktní P(A B)=P(A) + P(B) P P
6
Klasický pravděpodobnostní prostor konečný prostor elementárních jevů, algebra A A A A A c A A, B A A B A A, B A A B A pravd ě podobnost P P(A) = A (na konečné množině zavedena pravděpodobnost)
7
Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny? = ?, A = ?, P(A) = ? = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3 8
8
přechod od konečného prostoru elementárních jevů k prostoru spočetnému
9
Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů, algebra, A A A A A c A A i A i=1.. A i A (A i A i=1.. A i A)
10
Kolgomorova df psti (pokračování) P : A P (A) A P P A 1, A 2,... vz. disjunktní množiny A, P ( i=1.. A i ) = i=1.. P (A i ) P = ?
11
Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé P(A,B)=P(A)*P(B)
12
Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)
13
Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)
14
Náhodná veličina X ; X : R X = x] = P({ P[X = x] = P({ ; X( ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[ ]= 1/ X( )= x x P[X = x]
15
Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)
16
Teorie informace
17
TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)
18
jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční 110 - domácí 111 - zahraniční
19
„Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?
20
Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn. n (p 1, p 2,...,p n ) 1. Hodnota fce n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce 2 (p 1, p 2 ) je spojitá 3. n (p 1, p 2,...,p n ) = n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 ) 2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4. n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste
21
ad vlastnost č. 3 n=3, H(X) = (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) = (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X) H(Y)
22
ad vlastnost č.3 H(Y´) = ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´) (p 1,p 2,p 3 ) = (p 1 +p 2,p 3 ) + (p 1 + p 2 ) (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))
23
Jediná funkce, která splňuje podmínky 1.- 4., má tvar: (bez důkazu) n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp 2 -...-p n logp n ) (c log a p = log b p, kde b c = a)
24
Entropie X - diskrétní náhodná veličina H(X) = - x F p(x)log 2 p(x) (H(X) H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)
25
Vlastnosti entropie H(X) 0 H b (X) = (log b a)H(X) p,q - x F p(x)log 2 p(x) - x F p(x)log 2 q(x) (Jensenova nerovnost)
26
X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p
27
Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny 1-42 - 42 uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”
28
Shannonova hra - výsledky
29
Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = - x F y G p(x,y)log p(x,y) H(Y/X) = x F p(x)H(Y/X = x) = - x F p(x) Y G p(y/x)log p(y/x) = - x F y G p(x)p(x/y)log p(y/x) = - x F y G p(x,y) log p(y/x) H(X) H(X/Y), H(X) + H(Y) H(X,Y)
30
Chain rule H(X,Y) = - x F y G p(x,y) log p(x,y) = - x F y G p(x,y) log p(x)p(y/x) = - x F y G p(x,y) log p(x) - x F y G p(x,y)log p(y/x) = - x F p(x)log p(x) - x F y G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X) H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)
31
Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní? Křížová entropie H(p,q) = def - x F p(x)log q(x) Křížová entropie na slovo (1/n)H(X) = def - (1/n) x F p(x)log q(x) Křížová entropie jazyka H(L, q) = lim n (1/n) x F p(x)log q(x)
32
Relativní entropie (Kullback-Leibler vzdálenost) 0 x F p(x) log 2 p(x) - x F p(x) log 2 q(x) = H(p,q) - H(p) x F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) = x F y G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)
33
D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = ( x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y) 0, m(X,Y) = 0 X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y) m(X,Z) + m(Z,Y)
34
Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = - i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = - i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N
35
Vzájemná informace vs entropie I(X;Y) = x,y p(x,y) log (p(x,y)/p(x)p(y)) = x,y p(x,y) log (p(x/y)/p(x)) = - x,y p(x,y) log p(x) + x,y p(x,y) log p(x/y) = - x p(x) log p(x) - (- x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)
36
Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)
37
H(X 1, X 2,…,X n ) = i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)= i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) = i=1..n H(X i /X i-1, …,X 1 ) - i=1..n H(X i /X i-1, …,X 1,Y) = i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y) q(x,y)) = D(p(x) q(x)) + D(p(y/x) q(y/x))
38
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (2. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
39
Náhodná veličina X náhodný jev chceme popsat prostřednictvím některé jeho číselné charakteristiky X( ), kterou nazveme náhodná veličina; X : R diskrétní (nabývá konečného nebo spočetného počtu hodnot), spojitá (nabývá všech hodnot z daného intervalu) základní charakteristiky: průměr, rozptyl
40
Diskrétní pravděpodobnostní rozdělení (i=1 … ) P[X=x i ] = 1 seznam hodnot, kterých nabývá diskrétní náhodná veličina, a seznam pravděpodobností, s nimiž těchto hodnot náhodná veličina nabývá, udává diskrétní pravděpodobnostní rozdělení
41
Střední hodnota (průměr) diskrétní náhodné veličiny E[X] i=1…n x i P(X=x i ) ( ) E[X] i=1… x i P(X=x i )
42
Rozptyl (variance) popisuje velikost kolísání náhodné veličiny kolem střední hodnoty var [X] = E (X-E[X]) 2 ( 2 )
43
Směrodatná odchylka = var[X]
44
Spojitá náhodná veličina pravděpodobnostní rozdělení je popsáno hustotou (frekvenční fcí) f(x)
45
Binomické rozdělení - motivace hod mincí: panna? orel? Jaká je pravděpodobnost p, že padne panna? Házejme n- krát, z toho r -krát padla panna p = r/n opakujme n hodů mincí; r´ r, p´ p
46
Binomické rozdělení – motivace (pokračování) binomické rozdělení popisuje, pro libovolnou hodnotu r, pravděpodobnost jevu, že při n nezávislých hodech mincí právě r -krát padne panna za předpokladu, že pravděpodobnost panny v jednotlivých hodech je p
47
Kdy binomické rozdělení? 1. výsledky pokusu se dají popsat náhodnou veličinou X, která má dvě možné hodnoty {0,1} 2. P(X=1) je dáno konstantou p, nezávislou na výsledku jakéhokoli pokusu; většinou je p neznámé – JAK ODHADNOUT?
48
Binomické rozdělení Bin(n,p) n nezávislých pokusů, zdar/nezdar - prostor elementárních jevů = {0,1} n náhodná veličina X( ) = (i=1 …n) i vyjadřuje počet (0,1,…n) úspěchů v n nezávislých pokusech, kdy v každém z jednotlivých pokusů je pravděpodobnost úspěchu rovna p , =( 1, 2,…, n ), i je počet zdarů v i-tém pokusu, p( i ) = p i (1-p) (1- i) nezávislost pokusů: p( ) = (i=1..n) p( i ) = p i (1-p) (n- i) pro k= (i=1 …n) i, je počet elem. jevů = n!/k!(n-k)! P(X=k)= n!/k!(n-k)! p k (1-p) (n-k)
49
Binomické rozdělení: střední hodnota, rozptyl, směrodatná odchylka E[X] = np var[X] = np(1-p) = np(1-p)
50
Normální rozdělení (spojité) N( , 2 ) f(x) = 1/( 2 2 )e –1/2((x- )/ ) 2 normální rozdělení je určeno parametry (střední hodnotou) a (sm. odchylkou) a jsou konstanty, které určují polohu křivky na ose x ( ) a její roztažení podél osy x ( )
51
Normální rozdělení - pokračování Jestliže náhodná veličina X vyhovuje normálnímu rozdělení, potom: P(X (a,b)) = p(x)dx E[X] = , var(X) = 2, X =
52
Normální rozdělení graficky
53
Normální rozdělení graficky - vysvětlení jednovrcholové, symetrické okolo střední hodnoty plocha pod křivkou hustoty je rovna jedné pravděpodobnost, že náhodná veličina nabude hodnot z určitého intervalu, je rovna ploše pod hustotou nad tímto intervalem např. pro interval s hranicí –1,96 a 1,96 má tato plocha velikost 0,95. Náhodná veličina nabývá hodnot z tohoto intervalu s 95% pravděpodobností a pouze s 5% pravděpodobností leží její hodnoty mimo uvedený interval
54
Průměr náhodné veličiny určuje polohu rozdělení na na číselné ose ( 1 < 2 )
55
Směrodatná odchylka určuje tvar hustoty ( 1 < 2 )
56
Centrální limitní věta
57
Statistická metodologie Nemusíte sníst celého vola na to, abyste poznali, že maso je tuhé. (S. Johnson)
58
induktivní statistika – zobecňování závěrů s udáním stupně jejich nejistoty; schopnost učit se ze zkušenosti populace: základní soubor (výčtem/vymezením některých společných vlastností) parametr: číselná charakteristika populace (např. průměrná výška osmiletých dětí v ČR) výběr: požadované vlastnosti se zjišťují pouze u některých prvků populace; reprezentativnost výběru; za určitých předpokladů se dají závěry z výběrů pomocí statistické indukce zobecnit na celou populaci s vyjádřením míry nejistoty zobecňovaných závěrů
59
populace 12 osmiletých dětí výběr 6 dětí
60
Zkreslení odhadu odhad: je náhodná veličina použitá pro odhad parametru populace, z které je daný vzorek vybírán zkreslení odhadu libovolného parametru p : E[X] –p nestranný odhad: E[X] –p = 0
61
Jak odhadnou populační průměr z výběru pomocí tzv. intervalu spolehlivosti? populační ( ) vs. výběrový (x´) průměr provedeme-li opakované výběr a spočítáme průměry, pak se tyto výběry budou obvykle chovat tak, jako kdyby pocházely z normálního rozdělení (bez důkazu) výběr = populace / n, kde n je rozsah výběru, výběr je směrodatná odchylka rozdělení výběrových průměrů, populace je směrodatná odchylka původního rozdělení interval místo jednoduchého bodového odhadu
62
Vlastnosti rozdělení výběrového průměru
63
Interval spolehlivosti N% interval spolehlivosti pokrývá parametr p s pravděpodobností N
64
Interval spolehlivosti - pokračování konstanta z n určuje šířku nejmenšího intervalu kolem střední hodnoty, který pokrývá N% pravděpodobností v rámci normálního rozdělení čím vyšší je koeficient spolehlivosti, tím delší – a tedy méně přesný – je výsledný interval; je potřeba najít kompromis mezi požadovanou spolehlivostí a přesností odhadu, tj. délkou intervalu hranice spolehlivosti N% 50688090959899 konstanta z n 0,671,001,281,641,962,332,58
65
Pro dané N - jak určit velikost intervalu, který obsahuje N% pstí? pro binomické rozdělení značně obtížné ALE – máme štěstí: pro dostatečně velkou množinu instancí je možné binomické rozdělení aproximovat rozdělením normálním se stejnou střední hodnotou a se stejným rozptylem (Centrální limitní věta)
66
Interval spolehlivosti jestliže náhodná veličina X vyhovuje normálnímu rozdělení se střední hodnotu a směrodatnou odchylkou , potom hodnota x veličiny X padne do intervalu ±z N v N% případů střední hodnota padne do intervalu x±z N v N% případů
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.