Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilJaromír Bartoš
1
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
2
Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)
3
Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu
4
ZÁKLADNÍ POJMY universum (diskrétní, spojité) jev jistý , jev nemožný sjednocení jevů i=1..n A i průnik jevů i=1..n A i jev opačnýA c = A elementární jev algebra A : systém podmnožin uzavřený na sjednocení, průnik, doplněk; , A náhodný jev A A
5
ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A A P (A) A A,B vzájemně disjunktní P(A B)=P(A) + P(B) P P
6
Klasický pravděpodobnostní prostor konečný prostor elementárních jevů, algebra A A A A A c A A, B A A B A A, B A A B A pravd ě podobnost P P(A) = A (na konečné množině zavedena pravděpodobnost)
7
Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny? = ?, A = ?, P(A) = ? = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3 8
8
přechod od konečného prostoru elementárních jevů k prostoru spočetnému
9
Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů, algebra, A A A A A c A A i A i=1.. A i A (A i A i=1.. A i A)
10
Kolgomorova df psti (pokračování) P : A P (A) A P P A 1, A 2,... vz. disjunktní množiny A, P ( i=1.. A i ) = i=1.. P (A i ) P = ?
11
Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé P(A,B)=P(A)*P(B)
12
Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)
13
Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)
14
Náhodná veličina X ; X : R X = x] = P({ P[X = x] = P({ ; X( ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[ ]= 1/ X( )= x x P[X = x]
15
Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)
16
Teorie informace
17
TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)
18
jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční 110 - domácí 111 - zahraniční
19
„Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?
20
Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn. n (p 1, p 2,...,p n ) 1. Hodnota fce n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce 2 (p 1, p 2 ) je spojitá 3. n (p 1, p 2,...,p n ) = n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 ) 2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4. n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste
21
ad vlastnost č. 3 n=3, H(X) = (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) = (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X) H(Y)
22
ad vlastnost č.3 H(Y´) = ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´) (p 1,p 2,p 3 ) = (p 1 +p 2,p 3 ) + (p 1 + p 2 ) (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))
23
Jediná funkce, která splňuje podmínky 1.- 4., má tvar: (bez důkazu) n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp 2 -...-p n logp n ) (c log a p = log b p, kde b c = a)
24
Entropie X - diskrétní náhodná veličina H(X) = - x F p(x)log 2 p(x) (H(X) H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)
25
Vlastnosti entropie H(X) 0 H b (X) = (log b a)H(X) p,q - x F p(x)log 2 p(x) - x F p(x)log 2 q(x) (Jensenova nerovnost)
26
X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p
27
Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny 1-42 - 42 uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”
28
Shannonova hra - výsledky
29
Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = - x F y G p(x,y)log p(x,y) H(Y/X) = x F p(x)H(Y/X = x) = - x F p(x) Y G p(y/x)log p(y/x) = - x F y G p(x)p(x/y)log p(y/x) = - x F y G p(x,y) log p(y/x) H(X) H(X/Y), H(X) + H(Y) H(X,Y)
30
Chain rule H(X,Y) = - x F y G p(x,y) log p(x,y) = - x F y G p(x,y) log p(x)p(y/x) = - x F y G p(x,y) log p(x) - x F y G p(x,y)log p(y/x) = - x F p(x)log p(x) - x F y G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X) H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)
31
Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní? Křížová entropie H(p,q) = def - x F p(x)log q(x) Křížová entropie na slovo (1/n)H(X) = def - (1/n) x F p(x)log q(x) Křížová entropie jazyka H(L, q) = lim n (1/n) x F p(x)log q(x)
32
Relativní entropie (Kullback-Leibler vzdálenost) 0 x F p(x) log 2 p(x) - x F p(x) log 2 q(x) = H(p,q) - H(p) x F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) = x F y G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)
33
D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = ( x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y) 0, m(X,Y) = 0 X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y) m(X,Z) + m(Z,Y)
34
Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = - i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = - i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N
35
Vzájemná informace vs entropie I(X;Y) = x,y p(x,y) log (p(x,y)/p(x)p(y)) = x,y p(x,y) log (p(x/y)/p(x)) = - x,y p(x,y) log p(x) + x,y p(x,y) log p(x/y) = - x p(x) log p(x) - (- x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)
36
Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)
37
H(X 1, X 2,…,X n ) = i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)= i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) = i=1..n H(X i /X i-1, …,X 1 ) - i=1..n H(X i /X i-1, …,X 1,Y) = i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y) q(x,y)) = D(p(x) q(x)) + D(p(y/x) q(y/x))
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.