Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.

Podobné prezentace


Prezentace na téma: "Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového."— Transkript prezentace:

1 Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

2 Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)

3 Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu

4 ZÁKLADNÍ POJMY universum (diskrétní, spojité)  jev  jistý , jev nemožný  sjednocení jevů  i=1..n  A i průnik jevů  i=1..n  A i jev opačnýA c =  A elementární jev    algebra A : systém podmnožin  uzavřený na sjednocení, průnik, doplněk; ,   A náhodný jev A  A

5 ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A  A   P (A)  A  A,B vzájemně disjunktní  P(A  B)=P(A) + P(B) P  P   

6 Klasický pravděpodobnostní prostor konečný prostor elementárních jevů,  algebra A   A  A  A  A c  A A, B  A  A  B  A A, B  A  A  B  A pravd ě podobnost P P(A) =  A  (na konečné množině  zavedena pravděpodobnost)

7 Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny?  = ?, A = ?, P(A) = ?  = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3  8

8 přechod od konečného prostoru elementárních jevů k prostoru spočetnému

9 Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů,   algebra, A   A  A  A  A c  A A i  A  i=1..   A i  A (A i  A  i=1..   A i  A)

10 Kolgomorova df psti (pokračování) P : A   P (A)  A   P  P     A 1, A 2,... vz. disjunktní množiny  A, P (  i=1..   A i ) =  i=1..  P (A i )  P = ?

11 Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé  P(A,B)=P(A)*P(B)

12 Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)

13 Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)

14 Náhodná veličina X    ; X :   R X = x] = P({ P[X = x] = P({    ; X(  ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[  ]= 1/    X(  )=  x x P[X = x]

15 Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)

16 Teorie informace

17 TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)

18 jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční domácí zahraniční

19 „Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?

20 Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn.  n (p 1, p 2,...,p n ) 1. Hodnota fce  n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce  2 (p 1, p 2 ) je spojitá 3.  n (p 1, p 2,...,p n ) =  n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 )  2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4.  n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste

21 ad vlastnost č. 3 n=3, H(X) =  (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) =  (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X)  H(Y)

22 ad vlastnost č.3 H(Y´) =  ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´)  (p 1,p 2,p 3 ) =  (p 1 +p 2,p 3 ) + (p 1 + p 2 )  (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))

23 Jediná funkce, která splňuje podmínky , má tvar: (bez důkazu)  n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp p n logp n ) (c log a p = log b p, kde b c = a)

24 Entropie X - diskrétní náhodná veličina H(X) = -  x  F p(x)log 2 p(x) (H(X)  H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)

25 Vlastnosti entropie H(X)  0 H b (X) = (log b a)H(X) p,q -  x  F p(x)log 2 p(x)  -  x  F p(x)log 2 q(x) (Jensenova nerovnost)

26 X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p

27 Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”

28 Shannonova hra - výsledky

29 Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = -  x  F  y  G p(x,y)log p(x,y) H(Y/X) =  x  F p(x)H(Y/X = x) = -  x  F p(x)  Y  G p(y/x)log p(y/x) = -  x  F  y  G p(x)p(x/y)log p(y/x) = -  x  F  y  G p(x,y) log p(y/x) H(X)  H(X/Y), H(X) + H(Y)  H(X,Y)

30 Chain rule H(X,Y) = -  x  F  y  G p(x,y) log p(x,y) = -  x  F  y  G p(x,y) log p(x)p(y/x) = -  x  F  y  G p(x,y) log p(x) -  x  F  y  G p(x,y)log p(y/x) = -  x  F p(x)log p(x) -  x  F  y  G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X)  H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)

31 Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní?   Křížová entropie H(p,q) = def -  x  F p(x)log q(x)  Křížová entropie na slovo (1/n)H(X) = def - (1/n)  x  F p(x)log q(x)  Křížová entropie jazyka H(L, q) = lim n  (1/n)  x  F p(x)log q(x)

32 Relativní entropie (Kullback-Leibler vzdálenost) 0   x  F p(x) log 2 p(x) -  x  F p(x) log 2 q(x) = H(p,q) - H(p)  x  F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) =  x  F  y  G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)

33 D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = (  x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y)  0, m(X,Y) = 0  X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y)  m(X,Z) + m(Z,Y)

34 Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = -  i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = -  i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N

35 Vzájemná informace vs entropie I(X;Y) =  x,y p(x,y) log (p(x,y)/p(x)p(y)) =  x,y p(x,y) log (p(x/y)/p(x)) = -  x,y p(x,y) log p(x) +  x,y p(x,y) log p(x/y) = -  x p(x) log p(x) - (-  x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)

36 Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)

37 H(X 1, X 2,…,X n ) =  i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)=  i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) =  i=1..n H(X i /X i-1, …,X 1 ) -  i=1..n H(X i /X i-1, …,X 1,Y) =  i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y)  q(x,y)) = D(p(x)  q(x)) + D(p(y/x)  q(y/x))


Stáhnout ppt "Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového."

Podobné prezentace


Reklamy Google