Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.

Podobné prezentace


Prezentace na téma: "Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového."— Transkript prezentace:

1 Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

2 Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)

3 Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu

4 ZÁKLADNÍ POJMY universum (diskrétní, spojité)  jev  jistý , jev nemožný  sjednocení jevů  i=1..n  A i průnik jevů  i=1..n  A i jev opačnýA c =  A elementární jev    algebra A : systém podmnožin  uzavřený na sjednocení, průnik, doplněk; ,   A náhodný jev A  A

5 ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A  A   P (A)  A  A,B vzájemně disjunktní  P(A  B)=P(A) + P(B) P  P   

6 Klasický pravděpodobnostní prostor konečný prostor elementárních jevů,  algebra A   A  A  A  A c  A A, B  A  A  B  A A, B  A  A  B  A pravd ě podobnost P P(A) =  A  (na konečné množině  zavedena pravděpodobnost)

7 Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny?  = ?, A = ?, P(A) = ?  = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3  8

8 přechod od konečného prostoru elementárních jevů k prostoru spočetnému

9 Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů,   algebra, A   A  A  A  A c  A A i  A  i=1..   A i  A (A i  A  i=1..   A i  A)

10 Kolgomorova df psti (pokračování) P : A   P (A)  A   P  P     A 1, A 2,... vz. disjunktní množiny  A, P (  i=1..   A i ) =  i=1..  P (A i )  P = ?

11 Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé  P(A,B)=P(A)*P(B)

12 Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)

13 Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)

14 Náhodná veličina X    ; X :   R X = x] = P({ P[X = x] = P({    ; X(  ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[  ]= 1/    X(  )=  x x P[X = x]

15 Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)

16 Teorie informace

17 TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)

18 jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční 110 - domácí 111 - zahraniční

19 „Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?

20 Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn.  n (p 1, p 2,...,p n ) 1. Hodnota fce  n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce  2 (p 1, p 2 ) je spojitá 3.  n (p 1, p 2,...,p n ) =  n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 )  2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4.  n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste

21 ad vlastnost č. 3 n=3, H(X) =  (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) =  (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X)  H(Y)

22 ad vlastnost č.3 H(Y´) =  ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´)  (p 1,p 2,p 3 ) =  (p 1 +p 2,p 3 ) + (p 1 + p 2 )  (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))

23 Jediná funkce, která splňuje podmínky 1.- 4., má tvar: (bez důkazu)  n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp 2 -...-p n logp n ) (c log a p = log b p, kde b c = a)

24 Entropie X - diskrétní náhodná veličina H(X) = -  x  F p(x)log 2 p(x) (H(X)  H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)

25 Vlastnosti entropie H(X)  0 H b (X) = (log b a)H(X) p,q -  x  F p(x)log 2 p(x)  -  x  F p(x)log 2 q(x) (Jensenova nerovnost)

26 X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p

27 Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny 1-42 - 42 uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”

28 Shannonova hra - výsledky

29 Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = -  x  F  y  G p(x,y)log p(x,y) H(Y/X) =  x  F p(x)H(Y/X = x) = -  x  F p(x)  Y  G p(y/x)log p(y/x) = -  x  F  y  G p(x)p(x/y)log p(y/x) = -  x  F  y  G p(x,y) log p(y/x) H(X)  H(X/Y), H(X) + H(Y)  H(X,Y)

30 Chain rule H(X,Y) = -  x  F  y  G p(x,y) log p(x,y) = -  x  F  y  G p(x,y) log p(x)p(y/x) = -  x  F  y  G p(x,y) log p(x) -  x  F  y  G p(x,y)log p(y/x) = -  x  F p(x)log p(x) -  x  F  y  G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X)  H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)

31 Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní?   Křížová entropie H(p,q) = def -  x  F p(x)log q(x)  Křížová entropie na slovo (1/n)H(X) = def - (1/n)  x  F p(x)log q(x)  Křížová entropie jazyka H(L, q) = lim n  (1/n)  x  F p(x)log q(x)

32 Relativní entropie (Kullback-Leibler vzdálenost) 0   x  F p(x) log 2 p(x) -  x  F p(x) log 2 q(x) = H(p,q) - H(p)  x  F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) =  x  F  y  G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)

33 D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = (  x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y)  0, m(X,Y) = 0  X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y)  m(X,Z) + m(Z,Y)

34 Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = -  i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = -  i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N

35 Vzájemná informace vs entropie I(X;Y) =  x,y p(x,y) log (p(x,y)/p(x)p(y)) =  x,y p(x,y) log (p(x/y)/p(x)) = -  x,y p(x,y) log p(x) +  x,y p(x,y) log p(x/y) = -  x p(x) log p(x) - (-  x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)

36 Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)

37 H(X 1, X 2,…,X n ) =  i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)=  i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) =  i=1..n H(X i /X i-1, …,X 1 ) -  i=1..n H(X i /X i-1, …,X 1,Y) =  i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y)  q(x,y)) = D(p(x)  q(x)) + D(p(y/x)  q(y/x))

38 Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (2. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

39 Náhodná veličina X náhodný jev    chceme popsat prostřednictvím některé jeho číselné charakteristiky X(  ), kterou nazveme náhodná veličina; X :   R diskrétní (nabývá konečného nebo spočetného počtu hodnot), spojitá (nabývá všech hodnot z daného intervalu) základní charakteristiky: průměr, rozptyl

40 Diskrétní pravděpodobnostní rozdělení  (i=1 …  ) P[X=x i ] = 1 seznam hodnot, kterých nabývá diskrétní náhodná veličina, a seznam pravděpodobností, s nimiž těchto hodnot náhodná veličina nabývá, udává diskrétní pravděpodobnostní rozdělení

41 Střední hodnota (průměr) diskrétní náhodné veličiny E[X]   i=1…n x i P(X=x i ) (  ) E[X]   i=1…  x i P(X=x i )

42 Rozptyl (variance) popisuje velikost kolísání náhodné veličiny kolem střední hodnoty var [X] = E (X-E[X]) 2 (  2 )

43 Směrodatná odchylka  =  var[X]

44 Spojitá náhodná veličina pravděpodobnostní rozdělení je popsáno hustotou (frekvenční fcí) f(x)

45 Binomické rozdělení - motivace hod mincí: panna? orel? Jaká je pravděpodobnost p, že padne panna? Házejme n- krát, z toho r -krát padla panna p = r/n opakujme n hodů mincí; r´  r, p´  p

46 Binomické rozdělení – motivace (pokračování) binomické rozdělení popisuje, pro libovolnou hodnotu r, pravděpodobnost jevu, že při n nezávislých hodech mincí právě r -krát padne panna za předpokladu, že pravděpodobnost panny v jednotlivých hodech je p

47 Kdy binomické rozdělení? 1. výsledky pokusu se dají popsat náhodnou veličinou X, která má dvě možné hodnoty {0,1} 2. P(X=1) je dáno konstantou p, nezávislou na výsledku jakéhokoli pokusu; většinou je p neznámé – JAK ODHADNOUT?

48 Binomické rozdělení Bin(n,p) n nezávislých pokusů, zdar/nezdar - prostor elementárních jevů  = {0,1} n náhodná veličina X(  ) =  (i=1 …n)  i vyjadřuje počet (0,1,…n) úspěchů v n nezávislých pokusech, kdy v každém z jednotlivých pokusů je pravděpodobnost úspěchu rovna p  ,  =(  1,  2,…,  n ),  i je počet zdarů v i-tém pokusu, p(  i ) = p  i (1-p) (1-  i) nezávislost pokusů: p(  ) =  (i=1..n) p(  i ) = p   i (1-p) (n-   i) pro k=  (i=1 …n)  i, je počet elem. jevů = n!/k!(n-k)! P(X=k)= n!/k!(n-k)! p k (1-p) (n-k)

49 Binomické rozdělení: střední hodnota, rozptyl, směrodatná odchylka E[X] = np var[X] = np(1-p)  =  np(1-p)

50 Normální rozdělení (spojité) N( ,  2 ) f(x) = 1/(  2  2 )e –1/2((x-  )/  ) 2 normální rozdělení je určeno parametry  (střední hodnotou) a  (sm. odchylkou)  a  jsou konstanty, které určují polohu křivky na ose x (  ) a její roztažení podél osy x (  )

51 Normální rozdělení - pokračování Jestliže náhodná veličina X vyhovuje normálnímu rozdělení, potom: P(X  (a,b)) = p(x)dx E[X] = , var(X) =  2,  X = 

52 Normální rozdělení graficky

53 Normální rozdělení graficky - vysvětlení jednovrcholové, symetrické okolo střední hodnoty plocha pod křivkou hustoty je rovna jedné pravděpodobnost, že náhodná veličina nabude hodnot z určitého intervalu, je rovna ploše pod hustotou nad tímto intervalem např. pro interval s hranicí –1,96 a 1,96 má tato plocha velikost 0,95. Náhodná veličina nabývá hodnot z tohoto intervalu s 95% pravděpodobností a pouze s 5% pravděpodobností leží její hodnoty mimo uvedený interval

54 Průměr náhodné veličiny určuje polohu rozdělení na na číselné ose (  1 <  2 )

55 Směrodatná odchylka určuje tvar hustoty (  1 <  2 )

56 Centrální limitní věta

57 Statistická metodologie Nemusíte sníst celého vola na to, abyste poznali, že maso je tuhé. (S. Johnson)

58 induktivní statistika – zobecňování závěrů s udáním stupně jejich nejistoty; schopnost učit se ze zkušenosti populace: základní soubor (výčtem/vymezením některých společných vlastností) parametr: číselná charakteristika populace (např. průměrná výška osmiletých dětí v ČR) výběr: požadované vlastnosti se zjišťují pouze u některých prvků populace; reprezentativnost výběru; za určitých předpokladů se dají závěry z výběrů pomocí statistické indukce zobecnit na celou populaci s vyjádřením míry nejistoty zobecňovaných závěrů

59 populace 12 osmiletých dětí výběr 6 dětí

60 Zkreslení odhadu odhad: je náhodná veličina použitá pro odhad parametru populace, z které je daný vzorek vybírán zkreslení odhadu libovolného parametru p : E[X] –p nestranný odhad: E[X] –p = 0

61 Jak odhadnou populační průměr z výběru pomocí tzv. intervalu spolehlivosti? populační (  ) vs. výběrový (x´) průměr provedeme-li opakované výběr a spočítáme průměry, pak se tyto výběry budou obvykle chovat tak, jako kdyby pocházely z normálního rozdělení (bez důkazu)  výběr =  populace /  n, kde n je rozsah výběru,  výběr je směrodatná odchylka rozdělení výběrových průměrů,  populace je směrodatná odchylka původního rozdělení interval místo jednoduchého bodového odhadu

62 Vlastnosti rozdělení výběrového průměru

63 Interval spolehlivosti N% interval spolehlivosti pokrývá parametr p s pravděpodobností N

64 Interval spolehlivosti - pokračování konstanta z n určuje šířku nejmenšího intervalu kolem střední hodnoty, který pokrývá N% pravděpodobností v rámci normálního rozdělení čím vyšší je koeficient spolehlivosti, tím delší – a tedy méně přesný – je výsledný interval; je potřeba najít kompromis mezi požadovanou spolehlivostí a přesností odhadu, tj. délkou intervalu hranice spolehlivosti N% 50688090959899 konstanta z n 0,671,001,281,641,962,332,58

65 Pro dané N - jak určit velikost intervalu, který obsahuje N% pstí? pro binomické rozdělení značně obtížné ALE – máme štěstí: pro dostatečně velkou množinu instancí je možné binomické rozdělení aproximovat rozdělením normálním se stejnou střední hodnotou a se stejným rozptylem (Centrální limitní věta)

66 Interval spolehlivosti jestliže náhodná veličina X vyhovuje normálnímu rozdělení se střední hodnotu  a směrodatnou odchylkou , potom hodnota x veličiny X padne do intervalu  ±z N  v N% případů střední hodnota  padne do intervalu x±z N  v N% případů


Stáhnout ppt "Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového."

Podobné prezentace


Reklamy Google