Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM
ZÁKLADY PRAVDĚPODOBNOSTI
Statistická indukce Teorie odhadu.
Limitní věty.
Odhady parametrů základního souboru
Základy informatiky přednášky Kódování.
KFY/PMFCHLekce 3 – Základy teorie pravděpodobnosti Osnova 1. Statistický experiment 2. Pravděpodobnost 3. Rozdělení pravděpodobnosti 4. Náhodné proměnné.
Vznik a vývoj teorie informace
Úvod do Teorie množin.
Teorie pravděpodobnosti
Informatika pro ekonomy II přednáška 1
Bayesův teorém – cesta k lepší náladě
Optimalizační úlohy i pro nadané žáky základních škol
Základy informatiky přednášky Efektivní kódy.
Pravděpodobnost a statistika opakování základních pojmů
Generování náhodných veličin (1) Diskrétní rozdělení
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
Náhodná veličina.
VY_32_INOVACE_21-01 PRAVDĚPODOBNOST 1 Úvod, základní pojmy.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Základy informatiky přednášky Entropie.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
Matematický aparát v teorii informace Základy teorie pravděpodobnosti
Nechť (, , P) je pravděpodobnostní prostor:
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Projekt OP VK č. CZ.1.07/1.5.00/ Šablony Mendelova střední škola, Nový Jičín Tento projekt je spolufinancován ESF a státním rozpočtem ČR. Byl uskutečněn.
STATISTIKA (PRAVDĚPODOBNOST A STATISTIKA)
POČET PRAVDĚPODOBNOSTI
Pravděpodobnost. Náhodný pokus.
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
PRAVDĚPODOBNOST NEZÁVISLÉ JEVY Jevy A,B nazýváme nezávislými, jestliže
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
Základy zpracování geologických dat
Množiny.
Mlhavost Fuzzy logika, fuzzy množiny, fuzzy čísla
2. Vybrané základní pojmy matematické statistiky
Náhodný vektor Litschmannová, 2007.
Úloha č. 1. Zadání: Házíme 4x nepoctivu mincí, na které m ů že padnou pouze panna nebo orel. S pravd ě podobností p 0 =0,25 padne orel. Dv ě.
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.
(Popis náhodné veličiny)
Radim Farana Podklady pro výuku
Molekulová fyzika 3. přednáška „Statistický přístup jako jediná funkční strategie kinetické teorie“
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Pravděpodobnost Přednáška č.2. Deterministický a náhodný děj Každý děj probíhá za uskutečnění jistého souboru podmínek Deterministický děj-děj, ve kterém.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Funkce. Funkce - definice Funkce je zobrazení, které každému číslu z podmnožiny množiny reálných čísel R přiřazuje právě jedno reálné číslo. Funkci značíme.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Linková. Dostupné z Metodického portálu ISSN: , financovaného.
TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM
ALGEBRAICKÉ STRUKTURY
Pravděpodobnost a matematická statistika I.
Některá rozdělení náhodných veličin
Spojitá náhodná veličina
Induktivní statistika - úvod
Základy statistické indukce
Pravděpodobnost. Náhodný pokus.
Zákon nutné variety.
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Informatika pro ekonomy přednáška 3
Teorie informace z latiny, už 1stol. př. n. l.
Funkce více proměnných.
Informatika pro ekonomy přednáška 3
Pravděpodobnost a matematická statistika I.
Informatika pro ekonomy přednáška 4
BIBS Informatika pro ekonomy přednáška 2
MNOŽINY Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Linková. Dostupné z Metodického portálu ISSN: , financovaného.
2. Vybrané základní pojmy matematické statistiky
Testování hypotéz - pojmy
Transkript prezentace:

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)

Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu

ZÁKLADNÍ POJMY universum (diskrétní, spojité)  jev  jistý , jev nemožný  sjednocení jevů  i=1..n  A i průnik jevů  i=1..n  A i jev opačnýA c =  A elementární jev    algebra A : systém podmnožin  uzavřený na sjednocení, průnik, doplněk; ,   A náhodný jev A  A

ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A  A   P (A)  A  A,B vzájemně disjunktní  P(A  B)=P(A) + P(B) P  P   

Klasický pravděpodobnostní prostor konečný prostor elementárních jevů,  algebra A   A  A  A  A c  A A, B  A  A  B  A A, B  A  A  B  A pravd ě podobnost P P(A) =  A  (na konečné množině  zavedena pravděpodobnost)

Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny?  = ?, A = ?, P(A) = ?  = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3  8

přechod od konečného prostoru elementárních jevů k prostoru spočetnému

Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů,   algebra, A   A  A  A  A c  A A i  A  i=1..   A i  A (A i  A  i=1..   A i  A)

Kolgomorova df psti (pokračování) P : A   P (A)  A   P  P     A 1, A 2,... vz. disjunktní množiny  A, P (  i=1..   A i ) =  i=1..  P (A i )  P = ?

Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé  P(A,B)=P(A)*P(B)

Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)

Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)

Náhodná veličina X    ; X :   R X = x] = P({ P[X = x] = P({    ; X(  ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[  ]= 1/    X(  )=  x x P[X = x]

Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)

Teorie informace

TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)

jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční domácí zahraniční

„Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?

Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn.  n (p 1, p 2,...,p n ) 1. Hodnota fce  n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce  2 (p 1, p 2 ) je spojitá 3.  n (p 1, p 2,...,p n ) =  n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 )  2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4.  n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste

ad vlastnost č. 3 n=3, H(X) =  (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) =  (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X)  H(Y)

ad vlastnost č.3 H(Y´) =  ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´)  (p 1,p 2,p 3 ) =  (p 1 +p 2,p 3 ) + (p 1 + p 2 )  (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))

Jediná funkce, která splňuje podmínky , má tvar: (bez důkazu)  n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp p n logp n ) (c log a p = log b p, kde b c = a)

Entropie X - diskrétní náhodná veličina H(X) = -  x  F p(x)log 2 p(x) (H(X)  H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)

Vlastnosti entropie H(X)  0 H b (X) = (log b a)H(X) p,q -  x  F p(x)log 2 p(x)  -  x  F p(x)log 2 q(x) (Jensenova nerovnost)

X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p

Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”

Shannonova hra - výsledky

Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = -  x  F  y  G p(x,y)log p(x,y) H(Y/X) =  x  F p(x)H(Y/X = x) = -  x  F p(x)  Y  G p(y/x)log p(y/x) = -  x  F  y  G p(x)p(x/y)log p(y/x) = -  x  F  y  G p(x,y) log p(y/x) H(X)  H(X/Y), H(X) + H(Y)  H(X,Y)

Chain rule H(X,Y) = -  x  F  y  G p(x,y) log p(x,y) = -  x  F  y  G p(x,y) log p(x)p(y/x) = -  x  F  y  G p(x,y) log p(x) -  x  F  y  G p(x,y)log p(y/x) = -  x  F p(x)log p(x) -  x  F  y  G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X)  H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)

Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní?   Křížová entropie H(p,q) = def -  x  F p(x)log q(x)  Křížová entropie na slovo (1/n)H(X) = def - (1/n)  x  F p(x)log q(x)  Křížová entropie jazyka H(L, q) = lim n  (1/n)  x  F p(x)log q(x)

Relativní entropie (Kullback-Leibler vzdálenost) 0   x  F p(x) log 2 p(x) -  x  F p(x) log 2 q(x) = H(p,q) - H(p)  x  F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) =  x  F  y  G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)

D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = (  x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y)  0, m(X,Y) = 0  X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y)  m(X,Z) + m(Z,Y)

Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = -  i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = -  i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N

Vzájemná informace vs entropie I(X;Y) =  x,y p(x,y) log (p(x,y)/p(x)p(y)) =  x,y p(x,y) log (p(x/y)/p(x)) = -  x,y p(x,y) log p(x) +  x,y p(x,y) log p(x/y) = -  x p(x) log p(x) - (-  x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)

Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)

H(X 1, X 2,…,X n ) =  i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)=  i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) =  i=1..n H(X i /X i-1, …,X 1 ) -  i=1..n H(X i /X i-1, …,X 1,Y) =  i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y)  q(x,y)) = D(p(x)  q(x)) + D(p(y/x)  q(y/x))