Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

VÝPOČET OC.
Statistická indukce Teorie odhadu.
Statistická indukce Teorie odhadu.
Limitní věty.
Odhady parametrů základního souboru
Základy informatiky přednášky Kódování.
Teorie pravděpodobnosti
Diskrétní rozdělení a jejich použití
Bayesův teorém – cesta k lepší náladě
Pravděpodobnost a statistika opakování základních pojmů
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Základy informatiky přednášky Entropie.
Obsah statistiky Jana Zvárová
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Matematický aparát v teorii informace Základy teorie pravděpodobnosti
Odhady parametrů základního souboru
Nechť (, , P) je pravděpodobnostní prostor:
Některá diskrétní a spojitá rozdělení náhodné veličiny.
Odhady odhady bodové a intervalové odhady
Diskrétní rozdělení Karel Zvára 1.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Projekt OP VK č. CZ.1.07/1.5.00/ Šablony Mendelova střední škola, Nový Jičín Tento projekt je spolufinancován ESF a státním rozpočtem ČR. Byl uskutečněn.
POČET PRAVDĚPODOBNOSTI
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
Rozdělení diskrétních veličin. Příklady diskrétních náhodných veličin Pokus jev nastaljev nenastal pnS hod mincírublíc1/2počet hodůpočet rubů celkem narození.
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
(Popis náhodné veličiny)
Molekulová fyzika 3. přednáška „Statistický přístup jako jediná funkční strategie kinetické teorie“
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Odhady odhady bodové a intervalové odhady
Etapy stat.šetření Plán šetření Sběr dat
Některá rozdělení náhodných veličin
Spojitá náhodná veličina
Induktivní statistika - úvod
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Induktivní statistika
- váhy jednotlivých studií
Odhady parametrů základního souboru
Pravděpodobnost. Náhodný pokus.
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Spojitá a kategoriální data Základní popisné statistiky
2. Vybrané základní pojmy matematické statistiky
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Testování hypotéz - pojmy
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (1. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. Neznamená to však, že je nejméně známá. Nepochopení nějaké věci totiž předpokládá, že se o ní něco ví, nebo přinejmenším se myslí, že se ví. O statistice však panuje všeobecné mínění, že z každého, kdo se naučil ve škole trochu počítat, lze bez obtíží udělat statistika prostě tím, že se mu tak říká. (H. Levinson)

Náhodný pokus Nastal jev A Pravděpodobnost má modelovat relativní četnost Výsledek není předem znám Pravdivost tvrzení o výsledku pokusu

ZÁKLADNÍ POJMY universum (diskrétní, spojité)  jev  jistý , jev nemožný  sjednocení jevů  i=1..n  A i průnik jevů  i=1..n  A i jev opačnýA c =  A elementární jev    algebra A : systém podmnožin  uzavřený na sjednocení, průnik, doplněk; ,   A náhodný jev A  A

ZÁKLADNÍ POJMY ZÁKLADNÍ POJMY ( POKRAČOVÁNÍ ) pravděpodobnost P reálná fce df na A A  A   P (A)  A  A,B vzájemně disjunktní  P(A  B)=P(A) + P(B) P  P   

Klasický pravděpodobnostní prostor konečný prostor elementárních jevů,  algebra A   A  A  A  A c  A A, B  A  A  B  A A, B  A  A  B  A pravd ě podobnost P P(A) =  A  (na konečné množině  zavedena pravděpodobnost)

Jaká je pravděpodobnost, že při házení třemi mincemi najednou padnou právě 2 panny?  = ?, A = ?, P(A) = ?  = {OOO, OOP, OPO, OPP, POO, POP, PPO, PPP} A ={PPO, POP, OPP} P(A) = 3  8

přechod od konečného prostoru elementárních jevů k prostoru spočetnému

Kolgomorova definice pravděpodobnosti pravěpodobnostní prostor prostor elementárních jevů,   algebra, A   A  A  A  A c  A A i  A  i=1..   A i  A (A i  A  i=1..   A i  A)

Kolgomorova df psti (pokračování) P : A   P (A)  A   P  P     A 1, A 2,... vz. disjunktní množiny  A, P (  i=1..   A i ) =  i=1..  P (A i )  P = ?

Složenápravděpodobnost, ezávislost jevů, Složená pravděpodobnost, nezávislost jevů, Jevy A, B jsou nezávislé  P(A,B)=P(A)*P(B)

Složená pravděpodobnost P (A,B) Podmíněná pravděpodobnost P (A|B) úplně závislé jevy P (A|B) = 1 závislé P (A|B) = ? nezávislé P (A|B) = P (A) Bayesův vzorec P (A|B) = P (A,B)/ P (B)

Bayesův inverzní vzorec P(A|B) = P(A)*P(B|A)/P(B)

Náhodná veličina X    ; X :   R X = x] = P({ P[X = x] = P({    ; X(  ) = x} X = x] rozdělení náhodné veličiny X P[X = x] rozdělení náhodné veličiny X diskrétní, spojitá diskrétní, spojitá střední hodnota náhodné veličiny E[]=X = x] střední hodnota náhodné veličiny E[  ]= 1/    X(  )=  x x P[X = x]

Statistik je ten, kdo s hlavou v rozpálené troubě a s nohama v nádobě s ledem na dotaz, jak se cítí, odpoví: "V průměru se cítím dobře.„ (anonym)

Teorie informace

TEORIE KÓDOVÁNÍ: 0 - žádné auto, 1 - domácí, 2 - zahraniční 3 - domácí a zahraniční vysílání signálů na křižovatce podle dané situace při binárním kódování 0(00), 1(01), 2(10), 3(11) situace stejně pravděpodobné např. (0.25) nestejně pravděpodobné např. 0 (0.5), 1 (0.125), 2 (0.125), 3 (0.25) EFEKTIVNÍ KÓDOVÁNÍ: častější zprávy kratší kód tedy: 0(0), 1(110), 2(111), 3(10)

jednoznačně rozpoznat začátek a konec kódu 0 - žádné auto 10 - domácí i zahraniční domácí zahraniční

„Kolik“ informace získáme, známe-li výsledek pokusu? „Jak velkou“ nejistotu přináší neznalost výsledku pokusu?

Axiomatická definice entropie entropie - míra stupně neurčitosti pokusu X H(X) = ozn.  n (p 1, p 2,...,p n ) 1. Hodnota fce  n (p 1, p 2,...,p n ) se nezmění při libovolné permutaci čísel p 1, p 2,...,p n 2. Fce  2 (p 1, p 2 ) je spojitá 3.  n (p 1, p 2,...,p n ) =  n-1 (p 1 +p 2,...,p n ) + (p 1 +p 2 )  2 (p 1 /p 1 +p 2, p 2 /p 1 +p 2 ) 4.  n (1/n,1/n,...,1/n) = f(n) s rostoucím n roste

ad vlastnost č. 3 n=3, H(X) =  (p 1,p 2,p 3 ) I. X 1, X 2 II. X 3 X Y, n=2, p(Y 1 ) = p 1 + p 2, p(X 3 ) = p 3 H(Y) =  (p 1 +p 2,p 3 ) Y Y´, n=2, p(X 1 ) = p 1 /( p 1 + p 2 ), p(X 2 ) = p 2 /( p 1 + p 2 ) H(X)  H(Y)

ad vlastnost č.3 H(Y´) =  ( p 1 /( p 1 + p 2 ), p 2 /( p 1 + p 2 )) H(X) = H(Y) + ( p 1 + p 2 ) H(Y´)  (p 1,p 2,p 3 ) =  (p 1 +p 2,p 3 ) + (p 1 + p 2 )  (p 1 /(p 1 + p 2 ), p 2 /(p 1 + p 2 ))

Jediná funkce, která splňuje podmínky , má tvar: (bez důkazu)  n (p 1, p 2,...,p n ) = c(-p 1 logp 1 -p 2 logp p n logp n ) (c log a p = log b p, kde b c = a)

Entropie X - diskrétní náhodná veličina H(X) = -  x  F p(x)log 2 p(x) (H(X)  H(p)) entropie vs kódování entropie je dolní mez průměrného počtu bitů potřebných k zakódování zprávy entropie jako míra nejistoty obsahu zprávy (s délkou kódu nejistota roste)

Vlastnosti entropie H(X)  0 H b (X) = (log b a)H(X) p,q -  x  F p(x)log 2 p(x)  -  x  F p(x)log 2 q(x) (Jensenova nerovnost)

X = 1 s pravděpodobností p, X = 0 s pravděpodobností 1-p H(p) vs p

Shannonova hra “nápodoba českého textu” česká abeceda - 42 písmen(bez rozlišení ú a ů, plus mezera) A. urna 1 se 42 lístečky - vybírání a vkládání zpět “ďj mrgučxýďyaýweaožá” B. urna 2 - lístečky podle četností písmen “žia ep atndi zéuořmp” C. urny uren s dvojicemi písmen (c i,c j ), počty dle p(c i /c j ) “lí di oneprá sguluvicechupsv”

Shannonova hra - výsledky

Složená a podmíněná entropie H(X,Y) – množství informace pro předpovídání výsledků obou pokusů zároveň H(X, Y) = -  x  F  y  G p(x,y)log p(x,y) H(Y/X) =  x  F p(x)H(Y/X = x) = -  x  F p(x)  Y  G p(y/x)log p(y/x) = -  x  F  y  G p(x)p(x/y)log p(y/x) = -  x  F  y  G p(x,y) log p(y/x) H(X)  H(X/Y), H(X) + H(Y)  H(X,Y)

Chain rule H(X,Y) = -  x  F  y  G p(x,y) log p(x,y) = -  x  F  y  G p(x,y) log p(x)p(y/x) = -  x  F  y  G p(x,y) log p(x) -  x  F  y  G p(x,y)log p(y/x) = -  x  F p(x)log p(x) -  x  F  y  G p(x,y)log p(y/x) = H(X) + H(Y/X) H(X,Y/Z) = H(X/Z) + H(Y/X,Z) H(Y/X)  H(X/Y) ačkoli H(X) - H(X/Y) = H(Y) - H(Y/X)

Křížová entropie “správný” model známe/neznáme???? aproximace - jak kvalitní?   Křížová entropie H(p,q) = def -  x  F p(x)log q(x)  Křížová entropie na slovo (1/n)H(X) = def - (1/n)  x  F p(x)log q(x)  Křížová entropie jazyka H(L, q) = lim n  (1/n)  x  F p(x)log q(x)

Relativní entropie (Kullback-Leibler vzdálenost) 0   x  F p(x) log 2 p(x) -  x  F p(x) log 2 q(x) = H(p,q) - H(p)  x  F p(x) log(p(x)/q(x)) = def D(p||q) Vzájemná informace I(X;Y) =  x  F  y  G p(x,y)log(p(x,y)/p(x)p(y)) = = D(p(x,y) || p(x)p(y)) Perplexita Perp(X) = 2 H(X)

D(p||q)... splňuje 1., ale nesplňuje 2. a 3. např. p(1) = 1/4, p(2) = 3/4, r(1) = r(2) = 1/2, q(1) = 3/4, q(2) = 1/4 Proto lépe: d(p,q) = (  x (p(x) - q(x)) 2 ) 1/2 m(X,Y) 1. m(X,Y)  0, m(X,Y) = 0  X = Y 2.m(X,Y) = m(Y,X) 3. m(X,Y)  m(X,Z) + m(Z,Y)

Perplexita - příklad Předpověď dalšího slova w t na základě t-1 předchozích slov w 1 w 2 …w t-1 H(w t i /w 1 w 2 …w t-1 ) = = -  i=1.N P(w t i / w 1 w 2 …w t-1 )log 2 P(w t i / w 1 w 2 …w t-1 ) předpoklad: P(w t i / w 1 w 2 …w t-1 ) = 1/N H(w t i /w 1 w 2 …w t-1 ) = -  i=1.N 1/N log 2 1/N = log 2 N Perp(w t i /w 1 w 2 …w t-1 ) = N

Vzájemná informace vs entropie I(X;Y) =  x,y p(x,y) log (p(x,y)/p(x)p(y)) =  x,y p(x,y) log (p(x/y)/p(x)) = -  x,y p(x,y) log p(x) +  x,y p(x,y) log p(x/y) = -  x p(x) log p(x) - (-  x,y p(x,y) log p(x/y)) = H(X) - H(Y/X) I(X;Y) = H(Y) - H(X/Y) I(X;Y) = H(X) + H(Y) - H(Y/X) I(X;X) = H(X) - H(X/X) = H(X)

Diagram vzájemná informace vs entropie H(Y/X) H(X/Y) I(Y;X) H(X) H(X,Y) H(Y)

H(X 1, X 2,…,X n ) =  i=1..n H(X i /X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y)=  i=1..n I(X i ;Y/X i-1, …,X 1 ) I(X 1, X 2,…,X n ;Y) = H(X 1, X 2,…,X n ) - H(X 1, X 2,…,X n /Y) =  i=1..n H(X i /X i-1, …,X 1 ) -  i=1..n H(X i /X i-1, …,X 1,Y) =  i=1..n I(X i ;Y/X i-1, …,X 1 ) D(p(x,y)  q(x,y)) = D(p(x)  q(x)) + D(p(y/x)  q(y/x))

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a … báli jste se zeptat (2. část) (pro potřeby přednášky Úvod do strojového učení, PFL054) Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)

Náhodná veličina X náhodný jev    chceme popsat prostřednictvím některé jeho číselné charakteristiky X(  ), kterou nazveme náhodná veličina; X :   R diskrétní (nabývá konečného nebo spočetného počtu hodnot), spojitá (nabývá všech hodnot z daného intervalu) základní charakteristiky: průměr, rozptyl

Diskrétní pravděpodobnostní rozdělení  (i=1 …  ) P[X=x i ] = 1 seznam hodnot, kterých nabývá diskrétní náhodná veličina, a seznam pravděpodobností, s nimiž těchto hodnot náhodná veličina nabývá, udává diskrétní pravděpodobnostní rozdělení

Střední hodnota (průměr) diskrétní náhodné veličiny E[X]   i=1…n x i P(X=x i ) (  ) E[X]   i=1…  x i P(X=x i )

Rozptyl (variance) popisuje velikost kolísání náhodné veličiny kolem střední hodnoty var [X] = E (X-E[X]) 2 (  2 )

Směrodatná odchylka  =  var[X]

Spojitá náhodná veličina pravděpodobnostní rozdělení je popsáno hustotou (frekvenční fcí) f(x)

Binomické rozdělení - motivace hod mincí: panna? orel? Jaká je pravděpodobnost p, že padne panna? Házejme n- krát, z toho r -krát padla panna p = r/n opakujme n hodů mincí; r´  r, p´  p

Binomické rozdělení – motivace (pokračování) binomické rozdělení popisuje, pro libovolnou hodnotu r, pravděpodobnost jevu, že při n nezávislých hodech mincí právě r -krát padne panna za předpokladu, že pravděpodobnost panny v jednotlivých hodech je p

Kdy binomické rozdělení? 1. výsledky pokusu se dají popsat náhodnou veličinou X, která má dvě možné hodnoty {0,1} 2. P(X=1) je dáno konstantou p, nezávislou na výsledku jakéhokoli pokusu; většinou je p neznámé – JAK ODHADNOUT?

Binomické rozdělení Bin(n,p) n nezávislých pokusů, zdar/nezdar - prostor elementárních jevů  = {0,1} n náhodná veličina X(  ) =  (i=1 …n)  i vyjadřuje počet (0,1,…n) úspěchů v n nezávislých pokusech, kdy v každém z jednotlivých pokusů je pravděpodobnost úspěchu rovna p  ,  =(  1,  2,…,  n ),  i je počet zdarů v i-tém pokusu, p(  i ) = p  i (1-p) (1-  i) nezávislost pokusů: p(  ) =  (i=1..n) p(  i ) = p   i (1-p) (n-   i) pro k=  (i=1 …n)  i, je počet elem. jevů = n!/k!(n-k)! P(X=k)= n!/k!(n-k)! p k (1-p) (n-k)

Binomické rozdělení: střední hodnota, rozptyl, směrodatná odchylka E[X] = np var[X] = np(1-p)  =  np(1-p)

Normální rozdělení (spojité) N( ,  2 ) f(x) = 1/(  2  2 )e –1/2((x-  )/  ) 2 normální rozdělení je určeno parametry  (střední hodnotou) a  (sm. odchylkou)  a  jsou konstanty, které určují polohu křivky na ose x (  ) a její roztažení podél osy x (  )

Normální rozdělení - pokračování Jestliže náhodná veličina X vyhovuje normálnímu rozdělení, potom: P(X  (a,b)) = p(x)dx E[X] = , var(X) =  2,  X = 

Normální rozdělení graficky

Normální rozdělení graficky - vysvětlení jednovrcholové, symetrické okolo střední hodnoty plocha pod křivkou hustoty je rovna jedné pravděpodobnost, že náhodná veličina nabude hodnot z určitého intervalu, je rovna ploše pod hustotou nad tímto intervalem např. pro interval s hranicí –1,96 a 1,96 má tato plocha velikost 0,95. Náhodná veličina nabývá hodnot z tohoto intervalu s 95% pravděpodobností a pouze s 5% pravděpodobností leží její hodnoty mimo uvedený interval

Průměr náhodné veličiny určuje polohu rozdělení na na číselné ose (  1 <  2 )

Směrodatná odchylka určuje tvar hustoty (  1 <  2 )

Centrální limitní věta

Statistická metodologie Nemusíte sníst celého vola na to, abyste poznali, že maso je tuhé. (S. Johnson)

induktivní statistika – zobecňování závěrů s udáním stupně jejich nejistoty; schopnost učit se ze zkušenosti populace: základní soubor (výčtem/vymezením některých společných vlastností) parametr: číselná charakteristika populace (např. průměrná výška osmiletých dětí v ČR) výběr: požadované vlastnosti se zjišťují pouze u některých prvků populace; reprezentativnost výběru; za určitých předpokladů se dají závěry z výběrů pomocí statistické indukce zobecnit na celou populaci s vyjádřením míry nejistoty zobecňovaných závěrů

populace 12 osmiletých dětí výběr 6 dětí

Zkreslení odhadu odhad: je náhodná veličina použitá pro odhad parametru populace, z které je daný vzorek vybírán zkreslení odhadu libovolného parametru p : E[X] –p nestranný odhad: E[X] –p = 0

Jak odhadnou populační průměr z výběru pomocí tzv. intervalu spolehlivosti? populační (  ) vs. výběrový (x´) průměr provedeme-li opakované výběr a spočítáme průměry, pak se tyto výběry budou obvykle chovat tak, jako kdyby pocházely z normálního rozdělení (bez důkazu)  výběr =  populace /  n, kde n je rozsah výběru,  výběr je směrodatná odchylka rozdělení výběrových průměrů,  populace je směrodatná odchylka původního rozdělení interval místo jednoduchého bodového odhadu

Vlastnosti rozdělení výběrového průměru

Interval spolehlivosti N% interval spolehlivosti pokrývá parametr p s pravděpodobností N

Interval spolehlivosti - pokračování konstanta z n určuje šířku nejmenšího intervalu kolem střední hodnoty, který pokrývá N% pravděpodobností v rámci normálního rozdělení čím vyšší je koeficient spolehlivosti, tím delší – a tedy méně přesný – je výsledný interval; je potřeba najít kompromis mezi požadovanou spolehlivostí a přesností odhadu, tj. délkou intervalu hranice spolehlivosti N% konstanta z n 0,671,001,281,641,962,332,58

Pro dané N - jak určit velikost intervalu, který obsahuje N% pstí? pro binomické rozdělení značně obtížné ALE – máme štěstí: pro dostatečně velkou množinu instancí je možné binomické rozdělení aproximovat rozdělením normálním se stejnou střední hodnotou a se stejným rozptylem (Centrální limitní věta)

Interval spolehlivosti jestliže náhodná veličina X vyhovuje normálnímu rozdělení se střední hodnotu  a směrodatnou odchylkou , potom hodnota x veličiny X padne do intervalu  ±z N  v N% případů střední hodnota  padne do intervalu x±z N  v N% případů