Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek.

Podobné prezentace


Prezentace na téma: "Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek."— Transkript prezentace:

1 Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek

2 Reprezentace znalostí Příklad: Ředitelé jsou obvykle starší lidé

3 Věk ředitelů dle velikosti podniku věkŘeditel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – – –

4 Pravděpodobnostní distribuce reprezentující znalost věkŘeditel podniku Malého do 20 zaměstnanců Středního do 150 zaměstnanců Velkého se 150 a více zaměstnanci 20 – 300,0320,0140, – 400,0610,0860, – 500,1020,1180, ,1140,1830,201

5 Pravidla reprezentující částečné znalosti IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69]

6 Pravidla reprezentující částečné znalosti IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84]

7 Pravidla reprezentující částečné znalosti IF podnik má více než 150 zaměstnanců THEN ředitel má více než 50 let [69] IF ředitel má méně než 50 let THEN podnik nemá více než 150 zaměstnanců [84] IF ředitel je mezi 30 a 40 THEN podnik patří do střední třídy [47]

8 Pravděpodobnostní distribuce reprezentující znalost Závislost výskytu revmatických chorob a věku VěkRevmatická choroba AnoNe ≤ 30 0,030,43 31 – 400,020, ,060,13 > 55 0,110,10

9 Pravděpodobnostní distribuce reprezentující znalost Závislost výskytu revmatických chorob, pohlaví a věku věkobezita AnoNe Revmatická choroba AnoNeAnoNe ≤ 30 0,020,110, – 400,010,040,010,08 41 – 550,040,050,020,08 > 55 0,060,030,050,07

10 Kolikarozměrné distribuce můžeme ukládat?

11 S kolikarozměrnými distribucemi můžeme počítat?

12 Kolikarozměrné distribuce můžeme ukládat? S kolikarozměrnými distribucemi můžeme počítat? Reálné problémy vyžadují stovky veličin!

13 250-dimenzionální distribuce (tabulka) vyžaduje alespoň pravděpodobností

14 250-dimenzionální distribuce (tabulka) vyžaduje alespoň pravděpodobností Promiňte,

15 250-dimenzionální distribuce (tabulka) vyžaduje alespoň pravděpodobností Promiňte, pouze (2 250 − 1) pravděpodobností

16 Zavedení bayesovské sítě na příkladu: Večerní procházka

17 Veličina W 3 hodnoty: Long walk (L) Short walk (S) No walk (N) pravděpodobnostní distribuce LSN Zavedení bayesovské sítě na příkladu: Večerní procházka

18 Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D) No rain (N)

19 Večerní procházka Veličina R 3 hodnoty: Heavy rain (H) Drizzling (D) No rain (N) pravděpodobnostní distribuce LSN H D N

20 Minikurz (disktrétní) teorie pravděpodobnosti I Veličiny X,Y,Z konečné množiny hodnot X, Y, Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X × Y × Z

21 Minikurz (disktrétní) teorie pravděpodobnosti I Veličiny X,Y,Z konečné množiny hodnot X, Y, Z pravděpodobnostní distribuce π(x,y,z) Σ π(x,y,z) = 1. (x,y,z) є X × Y × Z Marginální distribuce: π(x), π(y,z),…

22 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (r,w) LSN H D N

23 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (r,w) LSN H D N π (r)

24 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (r,w) LSN H D N π (r) π (w)

25 Minikurz (disktrétní) teorie pravděpodobnosti I Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y)

26 Minikurz (disktrétní) teorie pravděpodobnosti I Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y).

27 Podmíněná pravděpodobnostní distribuce π (x|y) π (x|y) π (y) = π (x,y) Nezávislost X ╨ Y [π] π(x) · π(y) = π(x,y). Tvrzení: X ╨ Y [π] π(x|y) = π(x) Minikurz (disktrétní) teorie pravděpodobnosti I

28 Příklad: π (r,w) LSN H D N

29 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (r,w) LSN H D N π (w)LSN

30 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (rIw) LSN H D N π (w)LSN π (r,w) LSN H D N

31 Minikurz (disktrétní) teorie pravděpodobnosti I Příklad: π (rIw) LSN H D N π (w)LSN π (r,w) LSN H D N

32 ® W Večerní procházka π 1 (w)LSN π 2 (rIw) LSN H D N

33 ® W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π 2 (r|w) π 1 (w) Večerní procházka π 1 (w)LSN π 2 (rIw) LSN H D N

34 ® W Bayesovská sít’ se 2 uzly - veličinami қ(r,w) = π 2 (w|r) π 1 (r) Večerní procházka π 1 (r)HDN π 2 (wIr) LSN H.00 1 D.50 N

35 π (r,w) LSN H D N π 1 (r)HDN Bayesovská sít’ π 2 (wIr) LSN H.00 D.50 N Večerní procházka

36 Veličina B 3 hodnoty: Rain (R) Changeable (C) Sunny (S) pravděpodobnostní distribuce RCS.xx Večerní procházka

37 R π 1 (b) π 2 (rIb) π 3 (wIr) Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r) Večerní procházka W B

38 π 1 (b) π 2 (rIb) π 3 (wIr) Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r) Paměťové nároky 3 × 3 × 3 − 1 = 26 Večerní procházka W R B R W B

39 π 1 (b) π 2 (rIb) π 3 (wIr) Bayesovská sít’ se 3 uzly - veličinami қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r) Paměťové nároky 3 × 3 × 3 − 1 = = 14 Večerní procházka W R B R W B

40 Minikurz (disktrétní) teorie pravděpodobnosti II Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z)

41 Minikurz (disktrétní) teorie pravděpodobnosti II Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z)

42 Minikurz (disktrétní) teorie pravděpodobnosti II Podmíněná nezávislost pro distribuci π(x,y,z) X ╨ Y|Z [π] π (x,y,z) · π(z) = π(x,z) ·π(y,z) Pro striktně pozitivní distribuce X ╨ Y|Z [π] π(x,y|z) = π(x|z) · π(y|z) Tvrzení: X ╨ Y|Z [π] π(x|y,z) = π(x|z)

43 Minikurz (disktrétní) teorie pravděpodobnosti II Příklad “příprava na zkoušku” X - čas strávený přípravou na zkoušku Y - výsledek zkoušky (známka) Z - počet bodů z testu X ╨ Y |Z [π] nebot’ π(y|x,z) = π(y|z).

44 Minikurz (disktrétní) teorie pravděpodobnosti II Příklad “večerní procházka” қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r)

45 Minikurz (disktrétní) teorie pravděpodobnosti II қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) Příklad “večerní procházka” қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r)

46 Minikurz (disktrétní) teorie pravděpodobnosti II қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) = қ (b) қ (r|b) қ (w|r,b) Příklad “večerní procházka” қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r)

47 Minikurz (disktrétní) teorie pravděpodobnosti II қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) қ (w|r,b) = π 3 (w|r) = қ (w|r)W ╨ B|R[қ ] = қ (b) қ (r|b) қ (w|r,b) Příklad “večerní procházka” қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r)

48 Minikurz (disktrétní) teorie pravděpodobnosti II қ (b,r) = қ (b) қ (r|b) қ (b,r,w) = қ (b,r) қ (w|b,r) Pamět’ové nároky: 3 × 3 × 3 − 1 = = 14 қ (w|r,b) = π 3 (w|r) = қ (w|r)W ╨ B|R[қ ] = қ (b) қ (r|b) қ (w|r,b) Příklad “večerní procházka” қ (b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|r)

49 Minikurz (disktrétní) teorie pravděpodobnosti II vlastnosti podmíněné nezávislosti Mohou nastat situace: (i) W ╨ B | R [қ] & W ╨ B [қ], (ii) X ╨ Y | Z [π] & X ╨ Y [π], (iii) X ╨ Y | Z [π] & X ╨ Y [π], (iv) X ╨ Y | Z [π] & X ╨ Y [π].

50 Minikurz (disktrétní) teorie pravděpodobnosti II Příklad “sousedova procházka” X - televizní program Y - počasí Z - sousedova procházka X ╨ Y ale X ╨ Y |Z.

51 Minikurz (disktrétní) teorie pravděpodobnosti II vlastnosti podmíněné nezávislosti (Ne)závislostní struktura: Nezávislostní struktura pravděpodobnostní distribuce π (x 1,x 2,...,x n ) je jednoznačně určena všemi trojicemi (X i,X j,{X ℓ } ℓєM ), pro které platí X i ╨ X j |{X ℓ } ℓєM [π]

52 Večerní procházka π 1 (b) π 2 (rIb) π 3 (wIr) R Nezávislostní struktura pravděpodobnostní distribuce: B ╨ W |R [қ ] B ╨ W B ╨ R |W [қ ] B ╨ R R ╨ W |B [қ ] R ╨ W R W B

53 Veličina T 2 hodnoty: Interesting (I) Uninteresting (U) pravděpodobnostní distribuce IU.xx Večerní procházka

54 Graf bayesovské sítě se 4 uzly – veličinami қ (t,b,r,w) = π 1 (b)π 2 (r|b) π 3 (w|t,r) π 4 (t) 2 × 3 × 3 × 3 − 1 = = 21 W π 1 (b) π 2 (r|b) π 3 (w|t,r) π 4 (t) Večerní procházka R BT

55 Jaká je nezávislostní struktura distribuce қ (t,b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|t,r) π 4 (t) Večerní procházka

56 Jaká je nezávislostní struktura distribuce қ (t,b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|t,r) π 4 (t) Večerní procházka T ╨ B [қ ] T ╨ R|B [қ ] B ╨ W|T,R [қ ] T ╨ R [қ ] B ╨ T|R [қ ] B ╨ W|R [қ ] Nezávislostní struktura snižující počet parametrů z 53 na 21

57 Veličina G 2 hodnoty: Yes (Y ) No (N) pravděpodobnostní distribuce YN.xx Večerní procházka

58 Graf bayesovské sítě s 5 uzly – veličinami қ (t,g,b,r,w) = π 1 (b) π 2 (r|b) π 3 (w|t,g,r) π 4 (g|b) π 5 (t) 2 × 2 × 3 × 3 × 3 − 1 = = 36 T W R B G π 1 (b) π 2 (r|b) π 3 (w|t,g,r) π 4 (g|b) π 5 (t) 24 Večerní procházka

59 GB R T D W

60 Pomocná veličina D 2 hodnoty: Yes (Y ) No (N) pravděpodobnostní distribuce YN.xx Večerní procházka

61 Graf bayesovské sítě se 6 uzly – veličinami қ (t,g,b,d,r,w) = π 1 (b) π 2 (r|b) π 3 (w|d,r) π 4 (g|b) π 5 (t) π 6 (d|t,g) 2 × 2 × 3 × 2 × 3 × 3 − 1 = = 28 G B R T D π 1 (b) π 2 (r|b) π 3 (w|d,r) π 4 (g|b) π 5 (t) π 6 (d|t,g) Večerní procházka D

62 Definice bayesovské sítě Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {X i } iєV

63 Definice bayesovské sítě Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {X i } iєV 2. Systém podmíněných pravděpodobnostních distribucí { π i (x i |(x ℓ ) ℓєpa(i) )} iεV.

64 Definice bayesovské sítě Tato bayesovská sít’ reprezentuje pravděpodobnostní distribuci қ ((x ℓ ) ℓєV ) = π π i (x i |(x ℓ ) ℓєpa(i) ) iєV Bayesovská sít’ je uspořádaná dvojice 1. Acyklický orientovaný graf G = (V,E), jehož uzlům jsou jednoznačně přiřazeny veličiny {X i } iєV 2. Systém podmíněných pravděpodobnostních distribucí { π i (x i |(x ℓ ) ℓєpa(i) )} iεV.

65 Bayesovská sít’ Graf bayesovské sítě s 8 veličinami

66 Bayesovská sít’ π 1 (x 1 ) π 2 (x 2 ) π 3 (x 3 ) π 4 (x 4 |x 1,x 2 ) π 5 (x 5 |x 2,x 3 ) π 6 (x 6 |x 4 ) π 7 (x 7 |x 5 ) π 8 (x 8 |x 6,x 7 ) Graf bayesovské sítě s 8 veličinami

67 Bayesovská sít’ қ(x 1,... x 8 ) = π 1 (x1) π 2 (x 2 ) π 3 (x 3 ) π 4 (x 4 |x 1,x 2 )... π 8 (x 8 |x 6,x 7 ) π 1 (x 1 ) π 2 (x 2 ) π 3 (x 3 ) π 4 (x 4 |x 1,x 2 ) π 5 (x 5 |x 2,x 3 ) π 6 (x 6 |x 4 ) π 7 (x 7 |x 5 ) π 8 (x 8 |x 6,x 7 ) Graf bayesovské sítě s 8 veličinami

68 Vlastnosti bayesovské sítě 1. қ ((x ℓ ) ℓєV ) = π iєV π i (x i |(x ℓ ) ℓєpa(i) ) je vždy pravděpodobnostní distribucí.

69 2. Distribuce қ ((x ℓ ) ℓєV ) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (x i |(x ℓ ) ℓєpa(i) ) = π i (x i |(x ℓ ) ℓєpa(i) )). Vlastnosti bayesovské sítě A

70 1. қ ((x ℓ ) ℓєV ) = π iєV π i (x i |(x ℓ ) ℓєpa(i) ) je vždy pravděpodobnostní distribucí. 2. Distribuce қ ((x ℓ ) ℓєV ) je konsistentní se všemi zadanými pravděpodobnostními distribucemi: i є V (қ (x i |(x ℓ ) ℓєpa(i) ) = π i (x i |(x ℓ ) ℓєpa(i) )). Vlastnosti bayesovské sítě 3. Nezávislostní struktura distribuce қ ((x ℓ ) ℓ є pa(i) ) obsahuje všechny podmíněné nezávislosti určené grafem G: Necht’ {1,2,3,...,n} = V je uspořádání (očíslování) uzlů V takové, že rodiče jsou vždy před svými dětmi (i є pa(j)  i < j), potom pro všechna i = 2,3,...,n. X i ╨ (X j ) {1,...,i−1}\pa(i) |(X ℓ ) ℓ єpa(i). A

71 Bayesovská sít’ uspořádání uzlů splňuje uvedenou podmínku,a proto X 2 ╨ X 1 X 3 ╨ X 1,X 2 X 4 ╨ X 3 |X 1,X 2 X 5 ╨ X 1,X 4 |X 2,X 3 X 6 ╨ X 1,X 2,X 3,X 5 |X 4 X 7 ╨ X 1,X 2,X 3,X 4,X 6 |X 5 X 8 ╨ X 1,X 2,X 3,X 4,X 5 |X 6,X 7 Graf bayesovské sítě s 8 veličinami қ (x 1,... x 8 ) = π(x 1 ) π (x 2 ) π(x 3 ) π(x 4 |x 1,x 2 )... π(x 8 |x 6,x 7 )

72 d-separace 1. Cestou spojující uzly i a j budeme rozumět buď hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.)

73 Bayesovská sít’

74

75

76 d-separace 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: uzel k je průchozí, jedná-li se o zřetězení nebo, uzel je odstředný, jedná-li se o zřetězení, uzel je dostředný, jedná-li se o zřetězení. k k k k

77 d-separace 2. Necht’ M  V \{i,j}. Říkáme,že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný, nebo na ní existuje uzel ℓ є M, který je dostředný. 1. Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy bud’ (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: uzel k je průchozí, jedná-li se o zřetězení nebo, uzel je odstředný, jedná-li se o zřetězení, uzel je dostředný, jedná-li se o zřetězení. kk k k

78 Bayesovská sít’ M = ø

79 Bayesovská sít’ M = {4,5}

80 Bayesovská sít’ M = {5,8}

81 d-separace 2. Necht’ M  V \{i,j}. Říkáme, že množina M blokuje cestu spojující uzly i a j, jestliže na uvažované cestě existuje uzel k є M, který je průchozí nebo odstředný,nebo na ní existuje uzel ℓ є M, který je dostředný. 3. Necht’ M  V \ {i,j}. Říkáme, že množina M d-separuje uzly i a j, jestliže blokuje všechny cesty spojující i a j. 1.Cestou spojující uzly i a j budeme rozumět bud’ hranu spojující i a j (tedy (i → j) nebo (i ← j)), nebo zřetězení dvou cest: cesty spojující i a k neprocházející uzlem j s cestou spojující k a j neprocházející uzlem i. (Cesta tedy může obsahovat jednu hranu několikrát.) U každého výskytu uzlu k na cestě spojující i a j nastává jedna z následujících tří možností: uzel k je průchozí, jedná-li se o zřetězení nebo, uzel je odstředný, jedná-li se o zřetězení, uzel je dostředný, jedná-li se o zřetězení. k k kk

82 Tvrzení o podmíněné nezávislosti v bayesovských sítích Jsou-li dva uzly i, j є V v grafu bayesovské sítě d-separovány množinou uzlů M  V, pak X i ╨ X j | {X ℓ } ℓ є M.

83 Bayesovská sít’ Cesty spojující a

84 Bayesovská sít’ Cesty spojující a 12

85 Bayesovská sít’ Cesty spojující a

86 Otázka: Existují dvě bayesovské sítě s různými grafy, které mají stejnou závislostní strukturu?

87 (Souvislé) bayesovské sítě o třech uzlech 12 3 π 1 (x 1 ) π 2 (x 2 |x 1 ) π 3 (x 3 |x 1,x 2 )

88 (Souvislé) bayesovské sítě o třech uzlech π 1 (x 1 ) π 2 (x 2 |x 1 ) π 3 (x 3 |x 1,x 2 ) π 1 (x 2 ) π 2 (x 3 |x 2 ) π 3 (x 1 |x 2,x 3 )

89 (Souvislé) bayesovské sítě o třech uzlech π 1 (x 1 ) π 2 (x 2 |x 1 ) π 3 (x 3 |x 2 ) π 1 (x 3 ) π 2 (x 2 |x 3 ) π 3 (x 1 |x 2 ) π 1 (x 2 ) π 2 (x 3 |x 2 ) π 3 (x 1 |x 2 ) π 1 (x 1 ) π 2 (x 3 ) π 3 (x 2 |x 1,x 3 )

90 Tvrzení o ekvivalenci struktur bayesovských sítí Dva acyklické orientované grafy definují stejnou nezávislostní strukturu, jestliže: 1. hrany spojují stejné dvojice uzlů; 2. mají stejné “imorality”.

91 Bayesovské sítě o třech uzlech a třech hranách

92 Bayesovské sítě o třech uzlech a dvou hranách

93 Další příklad ekvivalentních bayesovských sítí

94 Přednosti bayesovských sítí 1.Umí modelovat skutečně složité situace X 1 ╨ X 2 X 1 ╨ X 2 |X 3 X 1 ╨ X 2 |X 3,X 4 X 1 ╨ X 2 |X 3,X 4,X 5 X 1 ╨ X 2 |X 3,X 4,X 5,X 6 X 1 ╨ X 2 |X 3,X 4,X 5,X 6,X

95 Přednosti bayesovských sítí 1.Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model - zahrnuje některé další, jako speciální případ Naivní Bayes i, j є {2,3,...,7}, i  j X i ╨ X i | X A

96 Přednosti bayesovských sítí 1. Umí modelovat skutečně složité situace 2. Obecný pravděpodobnostní model – zahrnuje některé další, jako speciální případ 3. Dostupný software umožňuje pracovat s poměrně velkými sítěmi HUGIN, NETICA

97 Problémy spojené s používáním bayesovských sítí většina je spojena s orientací hran:

98 Problémy spojené s používáním bayesovských sítí většina je spojena s orientací hran: Kauzální interpretace

99 Problémy spojené s používáním bayesovských sítí většina je spojena s orientací hran: Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení Kauzální interpretace

100 Problémy spojené s používáním bayesovských sítí většina je spojena s orientací hran: výpočty se provádějí v jiném typu modelu; před prováděním výpočtů je třeba bayesovskou sít’ převést na rozložitelný model Problémy při výpočtech: Nejednoznačnost grafu definujícího nezávislostní strukturu zvyšuje složitost při učení Kauzální interpretace

101 Rozložitené modely Jiný typ grafického markovského modelu (definovaný neorientovaným grafem) Potřebujeme, umět číst podmíněné nezávislosti z neorientovaného grafu,

102 Definice separování Mějme neorientovaný graf G = (V,E), dva různé uzly i,j є V a množinu uzlů M  V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M

103 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. a jsou separovány ø 17 UI

104 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M. 235 UI a jsou separovány ø a jsou separovány 17

105 Definice separování Mějme neorientovaný graf G = (V,E),dva různé uzly i,j є V a množinu uzlů M V \ {i,j}. Říkáme,že uzly i a j jsou separovány množinou M, jestliže každá cesta z i do j obsahuje alespoň jeden uzel z M UI a jsou separovány ø a jsou separovány a jsou separovány 147

106 Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou

107 Definice kliky Mějme neorientovaný graf G = (V,E). Klikou nazýváme každou maximální množinu jeho uzlů, ve které je každá dvojice spojena hranou. Seznam klik

108 Definice rozložitelného (triangulovaného) grafu Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: 1. neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C 1,C 2,...,C m je možno uspořádat tak, že splňují RIP  i = 3,...,m  k (1 ≤ k < i) (C i ∩ (C 1 U... U C i−1 )  C k ).

109 Seznam klik: Definice rozložitelného (triangulovaného) grafu Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: 1. neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C 1,C 2,...,C m je možno uspořádat tak, že splňují RIP  i = 3,...,m  k (1 ≤ k < i) (C i ∩ (C 1 U... U C i−1 )  C k ).

110 Seznam klik: Definice rozložitelného (triangulovaného) grafu Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: 1. neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C 1,C 2,...,C m je možno uspořádat tak, že splňují RIP  i = 3,...,m  k (1 ≤ k < i) (C i ∩ (C 1 U... U C i−1 )  C k ). 5

111 Seznam klik: Definice rozložitelného (triangulovaného) grafu Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: 1. neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C 1,C 2,...,C m je možno uspořádat tak, že splňují RIP  i = 3,...,m  k (1 ≤ k < i) (C i ∩ (C 1 U... U C i−1 )  C k ). 5

112 Seznam klik: Definice rozložitelného (triangulovaného) grafu Neorientovaný graf G = (V,E) nazýváme rozložitelný (triangulovaný) Jestliže: 1. neobsahuje cyklus délky větší než 3, který nemá tětivu 2. jeho kliky C 1,C 2,...,C m je možno uspořádat tak, že splňují RIP  i = 3,...,m  k (1 ≤ k < i) (C i ∩ (C 1 U... U C i−1 )  C k ). 5

113 Tvrzení o jednoznačnosti rozložitelného modelu Necht’ C 1,C 2,...,C m jsou kliky rozložitelného grafu G = (V,E). Jsou-li π 1 ((x i ) iєC1 ), π 2 ((x i ) iєC2 ),..., π m ((x i ) iєCm ) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((x i ) iєV ), pro kterou platí: (i)  j = 1,...,m қ ((x i ) iєCj ) = π j ((x i ) iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak X i ╨ X j |{X k } kєM [қ].

114 Tvrzení o jednoznačnosti rozložitelného modelu Necht’ C 1,C 2,...,C m jsou kliky rozložitelného grafu G = (V,E). Jsou-li π 1 ((x i ) iєC1 ), π 2 ((x i ) iєC2 ),..., π m ((x i ) iєCm ) po dvojicích konsistentní pravděpodobnostní distribuce, pak existuje právě jedna distribuce қ ((x i ) iєV ), pro kterou platí: (i)  j = 1,...,m қ ((x i ) iєCj ) = π j ((x i ) iєCj ); (ii) jsou-li i a j v G separovány množinou M, pak X i ╨ X j |{X k } kєM [қ]. Jsou-li navíc kliky C 1,C 2,...,C m uspořádány tak, že splňují RIP, pak қ ((x i ) iєV ) = π j=1,…,m π j ((x i ) iєCi\(C1U... UCi−1) |(x i ) iєCi∩(C1U... UCi−1) ).

115 Lokální výpočty dle Lauritzena a Spiegelhaltera Převedení bayesovské sítě na rozložitelný model moralizace triangularizace

116 Bayesovská sít’

117 Moralizovaný graf

118 Triangularizovaný (rozložitelný) graf

119 Bayesovská sít’ rozložitelný graf

120 Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =

121 Bayesovská sít’ rozložitelný graf Čím platíme za výpočty výhodnější tvar? Větší paměťové nároky: = =42 „ztráta“ řady podmíněných nezávislostí

122 Shrnutí

123 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností

124 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí

125 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí Shrnutí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem

126 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem Shrnutí 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla

127 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý”

128 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly

129 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě

130 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN, NETICA)

131 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti, ale v rozložitelném modelu

132 Shrnutí 1. Bayesovská sít’ je dvojice: acyklický graf a systém podmíněných pravděpodobností 2. Distribuce reprezentovaná sítí je součin zadaných podmíněných distribucí 3. Tato distribuce má speciální závislostní strukturu popsanou grafem 4. Nezávislosti umíme zjistit pomocí d-separačního pravidla 5. Při konstrukci sítě je nutno udržet počet rodičů jednotlivých uzlů “malý” 6. Za tím účelem můžeme zavést “umělé” uzly 7. Můžeme též otáčet hrany aniž bychom změnili strukturu sítě 8. Výpočty provádíme pomocí vhodných programů (HUGIN,NETICA) 9. Výpočty se neprovádí v bayesovské síti,ale v rozložitelném model Děkuji Vám za sledování této přednášky

133 Literatura doporučená k dalšímu studiu 1. Jensen, Finn V.: Introduction to Bayesian Networks. UCL Press, London, Jensen, Finn V.: Bayesian Networks and Decision Graphs. Springer Verlag, Lauritzen, Stephen L.: Graphical Models. Clarendon Press, Oxford, Neapolitan, Richard E.: Learning Bayesian Networks. Prentince Hall, Upper Saddle River, NJ, 2003.


Stáhnout ppt "Úvod do teorie Bayesovských sítí aneb co bychom měli znát, chceme-li je používat Radim Jiroušek."

Podobné prezentace


Reklamy Google