Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)

Podobné prezentace


Prezentace na téma: "Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)"— Transkript prezentace:

1 Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)

2 1) Úvod do stuktur PN 2) Praxe: Bayesovské sítě 3) Teorie: Problém shodnosti množin strukturálních a kombinatorických imsetů

3 Motivace – podmíněná nezávislost  Nepodmíněná nezávislost: Diskrétní n.v. Spojité n.v.  Podmíněná nezávislost: Diskrétní n.v. Spojité n.v.

4 Motivace – podmíněná nezávislost N náhodných veličin X 1, X 2, …, X N a nějaké jejich rozdělení P Seznam všech podmíněných i nepodmíněných nezávislostí mezi nimi

5 Popis PN pomocí seznamu  Seznam musí splňovat určitá pravidla, např.  Tudíž je zbytečné skladovat v paměti celý seznam!  Neexistuje konečný počet pravidel schopný rozhodnout, zda něco je či není seznam.  Seznam je nepřehledný.

6 Popis PN pomocí grafů X1 X2 X3 X4X5 X6 X1X1 X3X3 X2X2 X4X4

7 Popis PN pomocí grafů  Výhody: Názornost, čitelné i pro laika Každý graf je pravděpodobnostně reprezentovatelný (dokonce diskrétní n.v.)  Nevýhody: Ne každé rozdělení je reprezentovatelné pomocí grafů (početní argument)

8 Popis PN pomocí imsetů Seznam PN popíšeme pomocí zobrazení z P({1,2,…,N}) do Z Př. pro N=3 (3 náhodné veličiny) {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3} 0100 01

9 Popis PN pomocí imsetů  Nevýhody: Méně intuitivní, těžší vyčíst nezávislosti Ne každý imset je reprezentovatelný Vyšší paměťová náročnost (oproti grafu)  Výhody: Libovolný seznam PN reprezentovatelný imsetem Méně paměťově náročné než seznam PN Grafovou reprezentaci lze na imsety snadno převést

10 Popis PN pomocí orientovaných acyklických grafů

11 Příklad – zavlažování Prší Mokrá tráva Zavla žovač Oblačno

12 Příklad – zavlažování OBL AKA TF 0.5 Prší Mokrá tráva Zavla žovač Oblačno

13 Příklad – zavlažování OBL AKA TF 0.5 DÉŠŤTF O=T0.80.2 O=F0.20.8 Prší Mokrá tráva Zavla žovač Oblačno ZÁVLA HA TF O=T0.10.9 O=F0.5

14 Příklad – zavlažování ZÁVLAH A TF O=T0.10.9 O=F0.5 OBL AKA TF 0.5 TRÁVATF P=TZ=T0.990.01 P=TZ=F0.90.1 P=FZ=T0.90.1 P=FZ=F01 PRŠÍTF O=T0.80.2 O=F0.20.8 Prší Mokrá tráva Zavla žovač Oblačno

15 Příklad – zavlažování P T Z O Počet parametrů nemusí exponenciálně růst s počtem náhodných veličin! Závisí na počtu rodičů pro jednotlivé vrcholy.

16 1. Použití – Propagation of evidence Jaká je pst, že je oblačno, když je mokrá tráva? Prší Mokrá tráva Zavla žovač Oblačno

17 1. Použití – Propagation of evidence Jaká je pst, že je oblačno, když je mokrá tráva? Prší Mokrá tráva Zavla žovač Oblačno

18 2. Použití – Odhad parametrů ZÁVLA HA TF O=T?? O=F?? OBL AKA TF ?? PRŠÍTF O=T?? O=F?? Prší Mokrá tráva Zavla žovač Oblačno TRÁVATF P=TZ=T?? P=TZ=F?? P=FZ=T?? P=FZ=F??

19 3. použití – Odhad závislosti velečin OBLAČNOPRŠÍZÁVLAHAMOKRÁ TRÁVA TRUEFALSE TRUEFALSE TRUEFALSETRUEFALSE TRUEFALSE TRUE FALSETRUE FALSETRUEFALSE …………

20 Odhad grafu Známe:  data: nezávislé realizace BS  někdy příčinné uspořádání Neznáme:  graf (strukturu PN)  podmíněné pravděpodobnosti Řešení:  Testy PN  maximalizace kritéria (AIC, BIC, apostiorní pst.)

21 Příklad – 1.LF UK

22 Markovsky ekvivalentní třída grafů Některé šipky mohou být otočeny, aniž by došlo ke změně struktury PN. Na základě dat můžeme nalézt pouze třídu grafů (závislostních modelů). Déšť Mokrá Tráva Déšť Mokrá Tráva

23 Problém s počtem pozorování  Teorie asymtoticky algoritmy fungují Janžura, Nielsen (2003) - WUPES 1 000 000 pozorování pro 10 binárních veličin  Praxe v medicíně – 50-1500 pacientů přesto jsou BS běžně používány

24 Structure Learning - Simulation  3 binární veličiny, m od 100 do 1000  pro každé m, udělej 100x nageneruj BS nageneruj vzorek o velikosti m použij algoritmus na odhad grafu  spočti pro každé m kolikrát ses trefil To by mělo dát odpověď na otázku: “Existuje šance na odhad správného modelu na základě takto malého počtu dat?”

25

26

27

28 To Do List:  software: free, open source, easy to use, fast, separated API  more simulation: theory x practice  popularization of structural learning  Czech literature: maybe my PhD. thesis

29 Literatura:  Castillo E. et al. (1997): Expert Systems and Probabilistic Network Models, Springer Verlag.  Neapolitan R. (2003): Learning Bayesian Networks, Prentice Hall  Neapolitan R. E. (2003): Learning Bayesian Networks, Prentice Hall.  Janžura N., Nielsen J. (2003): A numerical method for learning Bayesian Networks from Statistical Data, WUPES.

30 Popis PN pomocí imsetů

31 Elementární imsety E N Elementárním imsetem rozumíme zobrazení, jež přiřadí 1 množinám a -1 množinám a a nulu ostatním prvkům z potenční množiny, přičemž {i},{j} a C jsou disjunktní podmnožiny množiny {1,…,N}.

32 Příklad - E 3 {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3} 1 01000 1 0 0100 10 0010 0100 01 0010 0 1 00010 1

33 Kombinatorické imsety C N Kombinatorickým imsetem nazveme každou nezápornou celočíselnou kombinaci elementárních imsetů. {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3} 1 01000 1 0 0100 2-2 1100

34 Strukturální imsety S N Strukturálním imsetem nazveme každou nezápornou reálnou kombinaci elementárních imsetů, jež je imsetem. Zjevně každý kombinatorický imset je i strukturálním imsetem neboli

35 Platí C N = S N ??? Existuje strukturální imset, který by nebyl kombinatorický? Otázku zodpovíme pro N<5, pro jiná N zatím není známa. Tato otázka je klíčovým problémem reprezentace pomocí imsetů.

36 Příklad na to, že by nemuselo E’ = {[1,2],[2,1]} nezáporná reálná kombinace (S) 1/3*[1,2] + 1/3*[2,1] = [1,1] ovšem [1,1] zjevně nelze získat jako nezápornou celočíselnou kombinaci (C)

37 Stupeň imsetu Stupeň imsetu je součtem koeficientů v kombinaci elementárních imsetů: Př.:u = 1*e 1 + 2*e 2 + 0,5*e 3 deg(u) = 3,5 Platí:

38 Postup ověření: Konvexní kužel generovaný E N lze popsat jako průnik jistých poloprostorů, které pro N<6 spočteme Fourier-Motzkinovou eleminací. Imsety S N jsou celočíselnými body v tomto kuželu. Stačí je tedy (po jednotlivých stupních) projít a ujistit se, že všechny jsou součtem imsetu stupně o 1 nižšího a elementárního imsetu.

39 Trik – celočíselná Hilbertova báze Důkaz v [Schrivjer] nám zaručuje, že pokud nějaký imset v S N - C N existuje, potom alespoň jeden takovýto leží v mnohostěnu:

40 Výsledky  N=3 Bez problémů v několika sekundách ověříme, že C 3 = S 3  N=4 Je potřeba využít dalších vlastností strukturálních imsetů, opět C 4 = S 4  N=5 Víme pouze to, že pokud existuje prvek Hilbertovy báze mimo E 5, pak je jeho stupeň alespoň 5

41 Literatura:  Studený M. (2001): On the mathematical description of probabilistic conditional independence structures, doktorská práce, ÚTIA AV ČR.  Studený M. (2004): On Probabilistic Independence Structures, Springer.  Studený, Bouckhaert, Kočka (2000): Extreme Supermodular Set Functions, výzkumná zpráva, UTIA AV ČR.  Schrijver A. (1998): Theory of Linear and Integral Programming, John Wiley.


Stáhnout ppt "Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)"

Podobné prezentace


Reklamy Google