Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek 1.

Podobné prezentace


Prezentace na téma: "Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek 1."— Transkript prezentace:

1 Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat
Radim Jiroušek 1

2 Reprezentace znalostí
Příklad: Ředitelé jsou obvykle starší lidé

3 Věk ředitelů dle velikosti podniku
Ředitel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – 30 64 28 8 31 – 40 122 172 68 41 – 50 204 236 102 51 + 228 366 402

4 Pravděpodobnostní distribuce reprezentující znalost
věk Ředitel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – 30 0,032 0,014 0,004 31 – 40 0,061 0,086 0,034 41 – 50 0,102 0,118 0,051 51 + 0,114 0,183 0,201

5 Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69]

6 Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84]

7 Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84] IF ředitel je mezi 30 a 40 THEN podnik patří do střední třídy [47]

8 Pravděpodobnostní distribuce reprezentující znalost
Závislost výskytu revmatických chorob a věku Věk Revmatická choroba Ano Ne ≤ 30 0,03 0,43 31 – 40 0,02 0,12 0,06 0,13 > 55 0,11 0,10

9 Pravděpodobnostní distribuce reprezentující znalost
Závislost výskytu revmatických chorob, pohlaví a věku věk obezita Ano Ne Revmatická choroba ≤ 30 0,02 0,11 0,01 32 31 – 40 0,04 0,08 41 – 55 0,05 > 55 0,06 0,03 0,07

10 Kolikarozměrné distribuce můžeme ukládat?

11 Kolikarozměrné distribuce můžeme ukládat?
S kolikarozměrnými distribucemi můžeme počítat?

12 Kolikarozměrné distribuce můžeme ukládat?
S kolikarozměrnými distribucemi můžeme počítat? Reálné problémy vyžadují stovky veličin!

13 250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností

14 250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností Promiňte,

15 250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností Promiňte, pouze (2250 − 1) pravděpodobností

16 Zavedení bayesovské sítě na příkladu: Večerní procházka

17 Zavedení bayesovské sítě na příkladu: Večerní procházka
Veličina W 3 hodnoty: Long walk (L) Short walk (S) No walk (N) pravděpodobnostní distribuce L S N .10 .20 .70

18 Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D)
No rain (N)

19 Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D)
No rain (N) pravděpodobnostní distribuce L S N H .00 .05 D .10 .15 .60

20 Minikurz (disktrétní) teorie pravděpodobnosti I
Veličiny X,Y,Z konečné množiny hodnot X,Y,Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X×Y×Z

21 Minikurz (disktrétní) teorie pravděpodobnosti I
Veličiny X,Y,Z konečné množiny hodnot X,Y,Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X×Y×Z Marginální distribuce: π(x), π(y,z),…

22 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60

23 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (r) .05 .10 .85

24 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (r) .05 .10 .85 π (w) .10 .20 .70

25 Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y)

26 Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y).

27 Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y). Tvrzení: X ╨ Y [π] π(x|y) = π(x)

28 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60

29 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70

30 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70 π (rIw) L S N H .00 .07 D .25 1 .75 .86

31 Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70 π (rIw) L S N H .00 .07 D .25 1 .75 .86

32 Večerní procházka ® π1 (w) L S N .10 .20 .70 π2 (rIw) L S N H .00 .07
D .25 1 .75 .86 W

33 Bayesovská sít’ se 2 uzly - veličinami
Večerní procházka π1 (w) L S N .10 .20 .70 π2 (rIw) L S N H .00 .07 D .25 1 .75 .86 W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π 2(r|w) π 1(w)

34 Bayesovská sít’ se 2 uzly - veličinami
Večerní procházka π1 (r) H D N .05 .10 .85 π2 (wIr) L S N H .00 1 D .50 .12 .18 .70 W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π2(w|r) π1(r)

35 Večerní procházka Bayesovská sít’ π (r,w) L S N H .00 .05 D .10 .15
π2 (wIr) L S N H .00 D .50 .12 .18

36 Večerní procházka R C S .xx Veličina B 3 hodnoty: Rain (R)
Changeable (C) Sunny (S) pravděpodobnostní distribuce R C S .xx

37 Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r)

38 Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r) Paměťové nároky 3 × 3 × 3 − 1 = 26

39 Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r) Paměťové nároky 3 × 3 × 3 − 1 = = 14

40 Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z)

41 Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z)

42 Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z) Tvrzení: X ╨ Y|Z [π] π(x|y,z) = π(x|z)

43 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “příprava na zkoušku” X - čas strávený přípravou na zkoušku Y - výsledek zkoušky (známka) Z - počet bodů z testu X ╨ Y |Z [π] nebot’ π(y|x,z) = π(y|z).

44 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r)

45 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r)

46 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b)

47 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b) қ (w|r,b) = π3(w|r) = қ (w|r) W ╨ B|R[қ ]

48 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b) қ (w|r,b) = π3(w|r) = қ (w|r) W ╨ B|R[қ ] Pamět’ové nároky: 3 × 3 × 3 − 1 = = 14

49 Minikurz (disktrétní) teorie pravděpodobnosti II
vlastnosti podmíněné nezávislosti Mohou nastat situace: (i) W ╨ B | R [қ] & W ╨ B [қ], (ii) X ╨ Y | Z [π] & X ╨ Y [π], (iii) X ╨ Y | Z [π] & X ╨ Y [π], (iv) X ╨ Y | Z [π] & X ╨ Y [π].

50 Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “sousedova procházka” X - televizní program Y - počasí Z - sousedova procházka X ╨ Y ale X ╨ Y |Z.

51 Minikurz (disktrétní) teorie pravděpodobnosti II
vlastnosti podmíněné nezávislosti (Ne)závislostní struktura: Nezávislostní struktura pravděpodobnostní distribuce π (x1,x2,. . . ,xn) je jednoznačně určena všemi trojicemi (Xi,Xj,{Xℓ} ℓєM), pro které platí Xi ╨ Xj|{Xℓ}ℓєM [π]

52 Večerní procházka π1(b) π2(rIb) π3(wIr) B R W
Nezávislostní struktura pravděpodobnostní distribuce: B ╨ W |R [қ ] B ╨ W B ╨ R |W [қ ] B ╨ R R ╨ W |B [қ ] R ╨ W

53 Večerní procházka Veličina T 2 hodnoty: Interesting (I)
Uninteresting (U) pravděpodobnostní distribuce I U .xx

54 Večerní procházka T B R W π1(b) π2(r|b) π3(w|t,r) π4(t)
Graf bayesovské sítě se 4 uzly – veličinami қ(t,b,r,w) = π1(b)π2(r|b) π3(w|t,r) π4(t) 2 × 3 × 3 × 3 − 1 = 53 = 21

55 Večerní procházka Jaká je nezávislostní struktura distribuce
қ (t,b,r,w) = π1(b) π2(r|b) π3(w|t,r) π4(t)

56 Večerní procházka Jaká je nezávislostní struktura distribuce
қ (t,b,r,w) = π1(b) π2(r|b) π3(w|t,r) π4(t) T ╨ B [қ ] T ╨ R|B [қ ] B ╨ W|T,R [қ ] T ╨ R [қ ] B ╨ T|R [қ ] B ╨ W|R [қ ] Nezávislostní struktura snižující počet parametrů z 53 na 21

57 Večerní procházka Y N .xx Veličina G 2 hodnoty: Yes (Y ) No (N)
pravděpodobnostní distribuce Y N .xx

58 Večerní procházka G T B R π1(b) π2(r|b) π3(w|t,g,r) π4(g|b) π5(t) W
Graf bayesovské sítě s 5 uzly – veličinami қ (t,g,b,r,w) = π1(b) π2(r|b) π3(w|t,g,r) π4(g|b) π5(t) 2 × 2 × 3 × 3 × 3 − 1 = 107 = 36 24

59 Večerní procházka T G B D R W

60 Večerní procházka Y N .xx Pomocná veličina D 2 hodnoty: Yes (Y )
No (N) pravděpodobnostní distribuce Y N .xx

61 Večerní procházka T G B π1(b) π2(r|b) π3(w|d,r) π4(g|b) π5(t)
π6(d|t,g) D R D Graf bayesovské sítě se 6 uzly – veličinami қ (t,g,b,d,r,w) = π1(b) π2(r|b) π3(w|d,r) π4(g|b) π5(t) π6(d|t,g) 2 × 2 × 3 × 2 × 3 × 3 − 1 = 215 = 28

62 Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV

63 Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV 2. Systém podmíněných pravděpodobnostních distribucí { πi(xi|(xℓ )ℓєpa(i))}iεV .

64 Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV 2. Systém podmíněných pravděpodobnostních distribucí { πi(xi|(xℓ )ℓєpa(i))}iεV . Tato bayesovská sít’ reprezentuje pravděpodobnostní distribuci қ ((xℓ )ℓєV) =π πi(xi|(xℓ) ℓєpa(i) ) iєV

65 Bayesovská sít’ 1 2 3 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami

66 Bayesovská sít’ 1 2 3 π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π5(x5|x2,x3)
6 7 8 Graf bayesovské sítě s 8 veličinami

67 Bayesovská sít’ 1 2 3 π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π5(x5|x2,x3) π6(x6|x4) π7(x7|x5) π8(x8|x6,x7) 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami қ(x1,. . . x8) = π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π8(x8|x6,x7)

68 Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí.

69 Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí. 2. Distribuce қ ((xℓ )ℓєV) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (xi|(xℓ )ℓєpa(i)) = πi(xi|(xℓ )ℓєpa(i))). A

70 Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí. 2. Distribuce қ ((xℓ )ℓєV) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (xi|(xℓ )ℓєpa(i)) = πi(xi|(xℓ )ℓєpa(i))). A 3. Nezávislostní struktura distribuce қ ((xℓ ) ℓ є pa(i)) obsahuje všechny podmíněné nezávislosti určené grafem G: Necht’ {1,2,3,. . . ,n} = V je uspořádání (očíslování) uzlů V takové, že rodiče jsou vždy před svými dětmi (i є pa(j)  i < j), potom pro všechna i = 2,3,. . . ,n. Xi ╨ (Xj){1,...,i−1}\pa(i)|(Xℓ )ℓ єpa(i).

71 Bayesovská sít’ X2 ╨ X1 X3 ╨ X1,X2 X4 ╨ X3|X1,X2 X5 ╨ X1,X4|X2,X3
uspořádání uzlů splňuje uvedenou podmínku,a proto X2 ╨ X1 X3 ╨ X1,X2 X4 ╨ X3|X1,X2 X5 ╨ X1,X4|X2,X3 X6 ╨ X1,X2,X3,X5|X4 X7 ╨ X1,X2,X3,X4,X6|X5 X8 ╨ X1,X2,X3,X4,X5|X6,X7 1 2 3 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami қ (x1,. . . x8) = π(x1) π (x2) π(x3) π(x4|x1,x2) π(x8|x6,x7)

72 d-separace 1. Cestou spojující uzly i a j budeme rozumět buď hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.)

73 Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7

74 Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7 2 4 6 8 7

75 Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3

76 d-separace 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k

77 d-separace 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k 2. Necht’ M  V \{i,j}. Říkáme,že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný, nebo na ní existuje uzel ℓ є M, který je dostředný.

78 Bayesovská sít’ 1 2 3 4 5 M = ø 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3

79 Bayesovská sít’ 1 2 3 4 5 M = {4,5} 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3

80 Bayesovská sít’ 1 2 3 4 5 M = {5,8} 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3

81 d-separace Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k 2. Necht’ M  V \{i,j}. Říkáme, že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný,nebo na ní existuje uzel ℓ є M, který je dostředný. 3. Necht’ M  V \ {i,j}. Říkáme, že množina M d-separuje uzly i a j, jestliže blokuje všechny cesty spojující i a j.

82 Tvrzení o podmíněné nezávislosti v bayesovských sítích
Jsou-li dva uzly i, j є V v grafu bayesovské sítě d-separovány množinou uzlů M  V, pak Xi ╨ Xj | {Xℓ }ℓ є M.

83 Bayesovská sít’ 1 2 3 4 5 4 5 Cesty spojující a 6 7 8 4 2 5 4 6 8 7 5

84 Bayesovská sít’ 1 2 3 4 5 1 2 Cesty spojující a 6 7 8 1 4 2 1 4 6 4 2

85 Bayesovská sít’ 1 2 3 4 5 1 5 Cesty spojující a 6 7 8 1 4 2 5 1 4 6 8

86 Otázka: Existují dvě bayesovské sítě s různými grafy, které mají stejnou závislostní strukturu?

87 (Souvislé) bayesovské sítě o třech uzlech
π1(x1) π2(x2|x1) π3(x3|x1,x2) 1 2 3

88 (Souvislé) bayesovské sítě o třech uzlech
1 2 π1(x1) π2(x2|x1) π3(x3|x1,x2) π1(x2) π2(x3|x2) π3(x1|x2,x3) 3 1 2 3

89 (Souvislé) bayesovské sítě o třech uzlech
1 2 3 π1(x1) π2(x2|x1) π3(x3|x2) π1(x3) π2(x2|x3) π3(x1|x2) π1(x2) π2(x3|x2) π3(x1|x2) π1(x1) π2(x3) π3(x2|x1,x3) 1 2 3 1 2 3 1 2 3

90 Tvrzení o ekvivalenci struktur bayesovských sítí
Dva acyklické orientované grafy definují stejnou nezávislostní strukturu, jestliže: 1. hrany spojují stejné dvojice uzlů; 2. mají stejné “imorality”.

91 Bayesovské sítě o třech uzlech a třech hranách
1 2 3 1 2 3

92 Bayesovské sítě o třech uzlech a dvou hranách
1 2 3 1 2 3 1 2 3 1 2 3

93 Další příklad ekvivalentních bayesovských sítí
1 2 1 2 3 4 3 4 5 6 7 5 6 7 8 9 8 9

94 Přednosti bayesovských sítí
1.Umí modelovat skutečně složité situace 3 4 X1 ╨ X2 X1 ╨ X2|X3 X1 ╨ X2|X3,X4 X1 ╨ X2|X3,X4,X5 X1 ╨ X2|X3,X4,X5,X6 X1 ╨ X2|X3,X4,X5,X6,X7 5 6 1 7 8 2 9 10 11 12

95 Přednosti bayesovských sítí
1.Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model - zahrnuje některé další, jako speciální případ Naivní Bayes i, j є {2,3,. . . ,7}, i  j Xi ╨ Xi | X1 2 3 A 4 1 5 6 7

96 Přednosti bayesovských sítí
1. Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model – zahrnuje některé další, jako speciální případ 3. Dostupný software umožňuje pracovat s poměrně velkými sítěmi HUGIN, NETICA

97 Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran:

98 Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace

99 Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení

100 Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení Problémy při výpočtech: výpočty se provádějí v jiném typu modelu; před prováděním výpočtů je třeba bayesovskou sít’ převést na rozložitelný model

101 Rozložitené modely Jiný typ grafického markovského modelu (definovaný neorientovaným grafem) Potřebujeme, umět číst podmíněné nezávislosti z neorientovaného grafu,

102 Definice separování Mějme neorientovaný graf G = (V,E), dva různé uzly i,j є V a množinu uzlů M  V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. 1 2 3 4 5 6 7

103 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø 1 7 4 5 6 7

104 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø a jsou separovány 1 7 4 5 2 3 5 6 7

105 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø a jsou separovány 1 7 4 5 2 3 5 6 7 5 6 1 4 7

106 Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou. 1 2 3 4 5 6 7

107 Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou. Seznam klik 1 1 2 3 2 4 5 3 5 4 5 4 6 6 7 5 7 6 7

108 Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP  i = 3,. . . ,m  k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1)  Ck).

109 Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP  i = 3,. . . ,m  k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1)  Ck). 1 2 3 Seznam klik: 1 2 4 5 4 5 3 5 4 6 6 7 5 7 6 7

110 Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP  i = 3,. . . ,m  k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1)  Ck). 1 2 3 Seznam klik: 1 3 5 4 5 5 6 7 2 4 5 6 7 4 5 6

111 Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP  i = 3,. . . ,m  k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1)  Ck). 1 2 3 Seznam klik: 4 5 6 3 5 4 5 2 4 5 1 6 7 5 6 7

112 Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP  i = 3,. . . ,m  k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1)  Ck). 1 2 3 Seznam klik: 3 5 2 4 5 4 5 1 5 6 7 6 7 4 5 6

113 Tvrzení o jednoznačnosti rozložitelného modelu
Necht’ C1,C2,. . . ,Cm jsou kliky rozložitelného grafu G = (V,E). Jsou-li π1((xi)iєC1), π2((xi)iєC2),. . . , πm((xi)iєCm) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((xi)iєV), pro kterou platí: (i)  j = 1,. . . ,m қ ((xi)iєCj ) = πj((xi)iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak Xi ╨ Xj|{Xk}kєM [қ].

114 Tvrzení o jednoznačnosti rozložitelného modelu
Necht’ C1,C2,. . . ,Cm jsou kliky rozložitelného grafu G = (V,E). Jsou-li π1((xi)iєC1), π2((xi)iєC2),. . . , πm((xi)iєCm) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((xi)iєV), pro kterou platí: (i)  j = 1,. . . ,m қ ((xi)iєCj ) = πj((xi)iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak Xi ╨ Xj|{Xk}kєM [қ]. Jsou-li navíc kliky C1,C2,. . . ,Cm uspořádány tak, že splňují RIP, pak қ ((xi)iєV ) = πj=1,…,m πj((xi)iєCi\(C1U...UCi−1)|(xi)iєCi∩(C1U... UCi−1)).

115 Lokální výpočty dle Lauritzena a Spiegelhaltera
Převedení bayesovské sítě na rozložitelný model moralizace triangularizace

116 Bayesovská sít’ 1 2 3 4 5 6 7 8

117 Moralizovaný graf 1 2 3 4 5 6 7 8

118 Triangularizovaný (rozložitelný) graf
1 2 3 4 5 6 7 8

119 Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8

120 Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8 Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =42

121 Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8 Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =42 „ztráta“ řady podmíněných nezávislostí

122 Shrnutí

123 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf
a systém podmíněných pravděpodobností

124 Shrnutí 2. Distribuce reprezentovaná sítí je součin
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí

125 Shrnutí 3. Tato distribuce má speciální závislostní
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem

126 4. Nezávislosti umíme zjistit pomocí d-separačního
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla

127 Shrnutí 5. Při konstrukci sítě je nutno udržet počet
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý”

128 6. Za tím účelem můžeme zavést “umělé” uzly
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly

129 7. Můžeme též otáčet hrany aniž bychom změnili
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě

130 8. Výpočty provádíme pomocí vhodných programů
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN, NETICA)

131 Shrnutí 9. Výpočty se neprovádí v bayesovské síti,
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti, ale v rozložitelném modelu

132 Děkuji Vám za sledování této přednášky
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti,ale v rozložitelném model Děkuji Vám za sledování této přednášky

133 Literatura doporučená k dalšímu studiu
1. Jensen, Finn V.: Introduction to Bayesian Networks. UCL Press, London,1996. 2. Jensen, Finn V.: Bayesian Networks and Decision Graphs. Springer Verlag,2001. 3. Lauritzen, Stephen L.: Graphical Models. Clarendon Press, Oxford, 1996. 4. Neapolitan, Richard E.: Learning Bayesian Networks. Prentince Hall, Upper Saddle River, NJ, 2003.


Stáhnout ppt "Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek 1."

Podobné prezentace


Reklamy Google