Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilAlexandr Jaroš
1
Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat
Radim Jiroušek 1
2
Reprezentace znalostí
Příklad: Ředitelé jsou obvykle starší lidé
3
Věk ředitelů dle velikosti podniku
Ředitel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – 30 64 28 8 31 – 40 122 172 68 41 – 50 204 236 102 51 + 228 366 402
4
Pravděpodobnostní distribuce reprezentující znalost
věk Ředitel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – 30 0,032 0,014 0,004 31 – 40 0,061 0,086 0,034 41 – 50 0,102 0,118 0,051 51 + 0,114 0,183 0,201
5
Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69]
6
Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84]
7
Pravidla reprezentující částečné znalosti
IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84] IF ředitel je mezi 30 a 40 THEN podnik patří do střední třídy [47]
8
Pravděpodobnostní distribuce reprezentující znalost
Závislost výskytu revmatických chorob a věku Věk Revmatická choroba Ano Ne ≤ 30 0,03 0,43 31 – 40 0,02 0,12 0,06 0,13 > 55 0,11 0,10
9
Pravděpodobnostní distribuce reprezentující znalost
Závislost výskytu revmatických chorob, pohlaví a věku věk obezita Ano Ne Revmatická choroba ≤ 30 0,02 0,11 0,01 32 31 – 40 0,04 0,08 41 – 55 0,05 > 55 0,06 0,03 0,07
10
Kolikarozměrné distribuce můžeme ukládat?
11
Kolikarozměrné distribuce můžeme ukládat?
S kolikarozměrnými distribucemi můžeme počítat?
12
Kolikarozměrné distribuce můžeme ukládat?
S kolikarozměrnými distribucemi můžeme počítat? Reálné problémy vyžadují stovky veličin!
13
250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností
14
250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností Promiňte,
15
250-dimenzionální distribuce (tabulka)
vyžaduje alespoň 2250 pravděpodobností Promiňte, pouze (2250 − 1) pravděpodobností
16
Zavedení bayesovské sítě na příkladu: Večerní procházka
17
Zavedení bayesovské sítě na příkladu: Večerní procházka
Veličina W 3 hodnoty: Long walk (L) Short walk (S) No walk (N) pravděpodobnostní distribuce L S N .10 .20 .70
18
Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D)
No rain (N)
19
Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D)
No rain (N) pravděpodobnostní distribuce L S N H .00 .05 D .10 .15 .60
20
Minikurz (disktrétní) teorie pravděpodobnosti I
Veličiny X,Y,Z konečné množiny hodnot X,Y,Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X×Y×Z
21
Minikurz (disktrétní) teorie pravděpodobnosti I
Veličiny X,Y,Z konečné množiny hodnot X,Y,Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X×Y×Z Marginální distribuce: π(x), π(y,z),…
22
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60
23
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (r) .05 .10 .85
24
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (r) .05 .10 .85 π (w) .10 .20 .70
25
Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y)
26
Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y).
27
Minikurz (disktrétní) teorie pravděpodobnosti I
Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y). Tvrzení: X ╨ Y [π] π(x|y) = π(x)
28
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60
29
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70
30
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70 π (rIw) L S N H .00 .07 D .25 1 .75 .86
31
Minikurz (disktrétní) teorie pravděpodobnosti I
Příklad: π (r,w) L S N H .00 .05 D .10 .15 .60 π (w) L S N .10 .20 .70 π (rIw) L S N H .00 .07 D .25 1 .75 .86
32
Večerní procházka ® π1 (w) L S N .10 .20 .70 π2 (rIw) L S N H .00 .07
D .25 1 .75 .86 W
33
Bayesovská sít’ se 2 uzly - veličinami
Večerní procházka π1 (w) L S N .10 .20 .70 π2 (rIw) L S N H .00 .07 D .25 1 .75 .86 W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π 2(r|w) π 1(w)
34
Bayesovská sít’ se 2 uzly - veličinami
Večerní procházka π1 (r) H D N .05 .10 .85 π2 (wIr) L S N H .00 1 D .50 .12 .18 .70 W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π2(w|r) π1(r)
35
Večerní procházka Bayesovská sít’ π (r,w) L S N H .00 .05 D .10 .15
π2 (wIr) L S N H .00 D .50 .12 .18
36
Večerní procházka R C S .xx Veličina B 3 hodnoty: Rain (R)
Changeable (C) Sunny (S) pravděpodobnostní distribuce R C S .xx
37
Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r)
38
Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r) Paměťové nároky 3 × 3 × 3 − 1 = 26
39
Večerní procházka Bayesovská sít’ se 3 uzly - veličinami
π2(rIb) π3(wIr) W W Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π1(b) π2(r|b) π3(w|r) Paměťové nároky 3 × 3 × 3 − 1 = = 14
40
Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z)
41
Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z)
42
Minikurz (disktrétní) teorie pravděpodobnosti II
Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z) Tvrzení: X ╨ Y|Z [π] π(x|y,z) = π(x|z)
43
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “příprava na zkoušku” X - čas strávený přípravou na zkoušku Y - výsledek zkoušky (známka) Z - počet bodů z testu X ╨ Y |Z [π] nebot’ π(y|x,z) = π(y|z).
44
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r)
45
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r)
46
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b)
47
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b) қ (w|r,b) = π3(w|r) = қ (w|r) W ╨ B|R[қ ]
48
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “večerní procházka” қ (b,r,w) = π1(b) π2(r|b) π3(w|r) қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b) қ (w|r,b) = π3(w|r) = қ (w|r) W ╨ B|R[қ ] Pamět’ové nároky: 3 × 3 × 3 − 1 = = 14
49
Minikurz (disktrétní) teorie pravděpodobnosti II
vlastnosti podmíněné nezávislosti Mohou nastat situace: (i) W ╨ B | R [қ] & W ╨ B [қ], (ii) X ╨ Y | Z [π] & X ╨ Y [π], (iii) X ╨ Y | Z [π] & X ╨ Y [π], (iv) X ╨ Y | Z [π] & X ╨ Y [π].
50
Minikurz (disktrétní) teorie pravděpodobnosti II
Příklad “sousedova procházka” X - televizní program Y - počasí Z - sousedova procházka X ╨ Y ale X ╨ Y |Z.
51
Minikurz (disktrétní) teorie pravděpodobnosti II
vlastnosti podmíněné nezávislosti (Ne)závislostní struktura: Nezávislostní struktura pravděpodobnostní distribuce π (x1,x2,. . . ,xn) je jednoznačně určena všemi trojicemi (Xi,Xj,{Xℓ} ℓєM), pro které platí Xi ╨ Xj|{Xℓ}ℓєM [π]
52
Večerní procházka π1(b) π2(rIb) π3(wIr) B R W
Nezávislostní struktura pravděpodobnostní distribuce: B ╨ W |R [қ ] B ╨ W B ╨ R |W [қ ] B ╨ R R ╨ W |B [қ ] R ╨ W
53
Večerní procházka Veličina T 2 hodnoty: Interesting (I)
Uninteresting (U) pravděpodobnostní distribuce I U .xx
54
Večerní procházka T B R W π1(b) π2(r|b) π3(w|t,r) π4(t)
Graf bayesovské sítě se 4 uzly – veličinami қ(t,b,r,w) = π1(b)π2(r|b) π3(w|t,r) π4(t) 2 × 3 × 3 × 3 − 1 = 53 = 21
55
Večerní procházka Jaká je nezávislostní struktura distribuce
қ (t,b,r,w) = π1(b) π2(r|b) π3(w|t,r) π4(t)
56
Večerní procházka Jaká je nezávislostní struktura distribuce
қ (t,b,r,w) = π1(b) π2(r|b) π3(w|t,r) π4(t) T ╨ B [қ ] T ╨ R|B [қ ] B ╨ W|T,R [қ ] T ╨ R [қ ] B ╨ T|R [қ ] B ╨ W|R [қ ] Nezávislostní struktura snižující počet parametrů z 53 na 21
57
Večerní procházka Y N .xx Veličina G 2 hodnoty: Yes (Y ) No (N)
pravděpodobnostní distribuce Y N .xx
58
Večerní procházka G T B R π1(b) π2(r|b) π3(w|t,g,r) π4(g|b) π5(t) W
Graf bayesovské sítě s 5 uzly – veličinami қ (t,g,b,r,w) = π1(b) π2(r|b) π3(w|t,g,r) π4(g|b) π5(t) 2 × 2 × 3 × 3 × 3 − 1 = 107 = 36 24
59
Večerní procházka T G B D R W
60
Večerní procházka Y N .xx Pomocná veličina D 2 hodnoty: Yes (Y )
No (N) pravděpodobnostní distribuce Y N .xx
61
Večerní procházka T G B π1(b) π2(r|b) π3(w|d,r) π4(g|b) π5(t)
π6(d|t,g) D R D Graf bayesovské sítě se 6 uzly – veličinami қ (t,g,b,d,r,w) = π1(b) π2(r|b) π3(w|d,r) π4(g|b) π5(t) π6(d|t,g) 2 × 2 × 3 × 2 × 3 × 3 − 1 = 215 = 28
62
Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV
63
Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV 2. Systém podmíněných pravděpodobnostních distribucí { πi(xi|(xℓ )ℓєpa(i))}iεV .
64
Definice bayesovské sítě
Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {Xi}iєV 2. Systém podmíněných pravděpodobnostních distribucí { πi(xi|(xℓ )ℓєpa(i))}iεV . Tato bayesovská sít’ reprezentuje pravděpodobnostní distribuci қ ((xℓ )ℓєV) =π πi(xi|(xℓ) ℓєpa(i) ) iєV
65
Bayesovská sít’ 1 2 3 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami
66
Bayesovská sít’ 1 2 3 π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π5(x5|x2,x3)
6 7 8 Graf bayesovské sítě s 8 veličinami
67
Bayesovská sít’ 1 2 3 π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π5(x5|x2,x3) π6(x6|x4) π7(x7|x5) π8(x8|x6,x7) 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami қ(x1,. . . x8) = π1(x1) π2(x2) π3(x3) π4(x4|x1,x2) π8(x8|x6,x7)
68
Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí.
69
Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí. 2. Distribuce қ ((xℓ )ℓєV) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (xi|(xℓ )ℓєpa(i)) = πi(xi|(xℓ )ℓєpa(i))). A
70
Vlastnosti bayesovské sítě
1. қ ((xℓ )ℓєV) = πiєV πi(xi|(xℓ)ℓєpa(i)) je vždy pravděpodobnostní distribucí. 2. Distribuce қ ((xℓ )ℓєV) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (xi|(xℓ )ℓєpa(i)) = πi(xi|(xℓ )ℓєpa(i))). A 3. Nezávislostní struktura distribuce қ ((xℓ ) ℓ є pa(i)) obsahuje všechny podmíněné nezávislosti určené grafem G: Necht’ {1,2,3,. . . ,n} = V je uspořádání (očíslování) uzlů V takové, že rodiče jsou vždy před svými dětmi (i є pa(j) i < j), potom pro všechna i = 2,3,. . . ,n. Xi ╨ (Xj){1,...,i−1}\pa(i)|(Xℓ )ℓ єpa(i).
71
Bayesovská sít’ X2 ╨ X1 X3 ╨ X1,X2 X4 ╨ X3|X1,X2 X5 ╨ X1,X4|X2,X3
uspořádání uzlů splňuje uvedenou podmínku,a proto X2 ╨ X1 X3 ╨ X1,X2 X4 ╨ X3|X1,X2 X5 ╨ X1,X4|X2,X3 X6 ╨ X1,X2,X3,X5|X4 X7 ╨ X1,X2,X3,X4,X6|X5 X8 ╨ X1,X2,X3,X4,X5|X6,X7 1 2 3 4 5 6 7 8 Graf bayesovské sítě s 8 veličinami қ (x1,. . . x8) = π(x1) π (x2) π(x3) π(x4|x1,x2) π(x8|x6,x7)
72
d-separace 1. Cestou spojující uzly i a j budeme rozumět buď hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.)
73
Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7
74
Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7 2 4 6 8 7
75
Bayesovská sít’ 1 2 3 4 5 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3
76
d-separace 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k
77
d-separace 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k 2. Necht’ M V \{i,j}. Říkáme,že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný, nebo na ní existuje uzel ℓ є M, který je dostředný.
78
Bayesovská sít’ 1 2 3 4 5 M = ø 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3
79
Bayesovská sít’ 1 2 3 4 5 M = {4,5} 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3
80
Bayesovská sít’ 1 2 3 4 5 M = {5,8} 6 7 8 1 4 2 5 7 2 4 6 8 7 1 4 6 8 6 4 2 5 3
81
d-separace Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: • uzel k je průchozí, jedná-li se o zřetězení nebo , • uzel je odstředný, jedná-li se o zřetězení , • uzel je dostředný, jedná-li se o zřetězení k k k k 2. Necht’ M V \{i,j}. Říkáme, že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný,nebo na ní existuje uzel ℓ є M, který je dostředný. 3. Necht’ M V \ {i,j}. Říkáme, že množina M d-separuje uzly i a j, jestliže blokuje všechny cesty spojující i a j.
82
Tvrzení o podmíněné nezávislosti v bayesovských sítích
Jsou-li dva uzly i, j є V v grafu bayesovské sítě d-separovány množinou uzlů M V, pak Xi ╨ Xj | {Xℓ }ℓ є M.
83
Bayesovská sít’ 1 2 3 4 5 4 5 Cesty spojující a 6 7 8 4 2 5 4 6 8 7 5
84
Bayesovská sít’ 1 2 3 4 5 1 2 Cesty spojující a 6 7 8 1 4 2 1 4 6 4 2
85
Bayesovská sít’ 1 2 3 4 5 1 5 Cesty spojující a 6 7 8 1 4 2 5 1 4 6 8
86
Otázka: Existují dvě bayesovské sítě s různými grafy, které mají stejnou závislostní strukturu?
87
(Souvislé) bayesovské sítě o třech uzlech
π1(x1) π2(x2|x1) π3(x3|x1,x2) 1 2 3
88
(Souvislé) bayesovské sítě o třech uzlech
1 2 π1(x1) π2(x2|x1) π3(x3|x1,x2) π1(x2) π2(x3|x2) π3(x1|x2,x3) 3 1 2 3
89
(Souvislé) bayesovské sítě o třech uzlech
1 2 3 π1(x1) π2(x2|x1) π3(x3|x2) π1(x3) π2(x2|x3) π3(x1|x2) π1(x2) π2(x3|x2) π3(x1|x2) π1(x1) π2(x3) π3(x2|x1,x3) 1 2 3 1 2 3 1 2 3
90
Tvrzení o ekvivalenci struktur bayesovských sítí
Dva acyklické orientované grafy definují stejnou nezávislostní strukturu, jestliže: 1. hrany spojují stejné dvojice uzlů; 2. mají stejné “imorality”.
91
Bayesovské sítě o třech uzlech a třech hranách
1 2 3 1 2 3
92
Bayesovské sítě o třech uzlech a dvou hranách
1 2 3 1 2 3 1 2 3 1 2 3
93
Další příklad ekvivalentních bayesovských sítí
1 2 1 2 3 4 3 4 5 6 7 5 6 7 8 9 8 9
94
Přednosti bayesovských sítí
1.Umí modelovat skutečně složité situace 3 4 X1 ╨ X2 X1 ╨ X2|X3 X1 ╨ X2|X3,X4 X1 ╨ X2|X3,X4,X5 X1 ╨ X2|X3,X4,X5,X6 X1 ╨ X2|X3,X4,X5,X6,X7 5 6 1 7 8 2 9 10 11 12
95
Přednosti bayesovských sítí
1.Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model - zahrnuje některé další, jako speciální případ Naivní Bayes i, j є {2,3,. . . ,7}, i j Xi ╨ Xi | X1 2 3 A 4 1 5 6 7
96
Přednosti bayesovských sítí
1. Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model – zahrnuje některé další, jako speciální případ 3. Dostupný software umožňuje pracovat s poměrně velkými sítěmi HUGIN, NETICA
97
Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran:
98
Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace
99
Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení
100
Problémy spojené s používáním bayesovských sítí
většina je spojena s orientací hran: Kauzální interpretace Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení Problémy při výpočtech: výpočty se provádějí v jiném typu modelu; před prováděním výpočtů je třeba bayesovskou sít’ převést na rozložitelný model
101
Rozložitené modely Jiný typ grafického markovského modelu (definovaný neorientovaným grafem) Potřebujeme, umět číst podmíněné nezávislosti z neorientovaného grafu,
102
Definice separování Mějme neorientovaný graf G = (V,E), dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. 1 2 3 4 5 6 7
103
Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø 1 7 4 5 6 7
104
Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø a jsou separovány 1 7 4 5 2 3 5 6 7
105
Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. UI 1 2 3 a jsou separovány ø a jsou separovány 1 7 4 5 2 3 5 6 7 5 6 1 4 7
106
Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou. 1 2 3 4 5 6 7
107
Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou. Seznam klik 1 1 2 3 2 4 5 3 5 4 5 4 6 6 7 5 7 6 7
108
Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP i = 3,. . . ,m k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1) Ck).
109
Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP i = 3,. . . ,m k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1) Ck). 1 2 3 Seznam klik: 1 2 4 5 4 5 3 5 4 6 6 7 5 7 6 7
110
Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP i = 3,. . . ,m k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1) Ck). 1 2 3 Seznam klik: 1 3 5 4 5 5 6 7 2 4 5 6 7 4 5 6
111
Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP i = 3,. . . ,m k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1) Ck). 1 2 3 Seznam klik: 4 5 6 3 5 4 5 2 4 5 1 6 7 5 6 7
112
Definice rozložitelného (triangulovaného) grafu
Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C1,C2,. . . ,Cm je možno uspořádat tak, že splňují RIP i = 3,. . . ,m k (1 ≤ k < i) (Ci ∩ (C1 U. . . U Ci−1) Ck). 1 2 3 Seznam klik: 3 5 2 4 5 4 5 1 5 6 7 6 7 4 5 6
113
Tvrzení o jednoznačnosti rozložitelného modelu
Necht’ C1,C2,. . . ,Cm jsou kliky rozložitelného grafu G = (V,E). Jsou-li π1((xi)iєC1), π2((xi)iєC2),. . . , πm((xi)iєCm) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((xi)iєV), pro kterou platí: (i) j = 1,. . . ,m қ ((xi)iєCj ) = πj((xi)iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak Xi ╨ Xj|{Xk}kєM [қ].
114
Tvrzení o jednoznačnosti rozložitelného modelu
Necht’ C1,C2,. . . ,Cm jsou kliky rozložitelného grafu G = (V,E). Jsou-li π1((xi)iєC1), π2((xi)iєC2),. . . , πm((xi)iєCm) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((xi)iєV), pro kterou platí: (i) j = 1,. . . ,m қ ((xi)iєCj ) = πj((xi)iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak Xi ╨ Xj|{Xk}kєM [қ]. Jsou-li navíc kliky C1,C2,. . . ,Cm uspořádány tak, že splňují RIP, pak қ ((xi)iєV ) = πj=1,…,m πj((xi)iєCi\(C1U...UCi−1)|(xi)iєCi∩(C1U... UCi−1)).
115
Lokální výpočty dle Lauritzena a Spiegelhaltera
Převedení bayesovské sítě na rozložitelný model moralizace triangularizace
116
Bayesovská sít’ 1 2 3 4 5 6 7 8
117
Moralizovaný graf 1 2 3 4 5 6 7 8
118
Triangularizovaný (rozložitelný) graf
1 2 3 4 5 6 7 8
119
Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8
120
Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8 Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =42
121
Bayesovská sít’ rozložitelný graf
1 2 3 1 2 3 4 5 4 5 6 7 6 7 8 8 Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =42 „ztráta“ řady podmíněných nezávislostí
122
Shrnutí
123
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf
a systém podmíněných pravděpodobností
124
Shrnutí 2. Distribuce reprezentovaná sítí je součin
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí
125
Shrnutí 3. Tato distribuce má speciální závislostní
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem
126
4. Nezávislosti umíme zjistit pomocí d-separačního
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla
127
Shrnutí 5. Při konstrukci sítě je nutno udržet počet
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý”
128
6. Za tím účelem můžeme zavést “umělé” uzly
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly
129
7. Můžeme též otáčet hrany aniž bychom změnili
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě
130
8. Výpočty provádíme pomocí vhodných programů
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN, NETICA)
131
Shrnutí 9. Výpočty se neprovádí v bayesovské síti,
1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti, ale v rozložitelném modelu
132
Děkuji Vám za sledování této přednášky
Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti,ale v rozložitelném model Děkuji Vám za sledování této přednášky
133
Literatura doporučená k dalšímu studiu
1. Jensen, Finn V.: Introduction to Bayesian Networks. UCL Press, London,1996. 2. Jensen, Finn V.: Bayesian Networks and Decision Graphs. Springer Verlag,2001. 3. Lauritzen, Stephen L.: Graphical Models. Clarendon Press, Oxford, 1996. 4. Neapolitan, Richard E.: Learning Bayesian Networks. Prentince Hall, Upper Saddle River, NJ, 2003.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.