Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Klasifikace a rozpoznávání Bayesovská rozhodovací teorie.

Podobné prezentace


Prezentace na téma: "Klasifikace a rozpoznávání Bayesovská rozhodovací teorie."— Transkript prezentace:

1 Klasifikace a rozpoznávání Bayesovská rozhodovací teorie

2 Extrakce příznaků  Četnost  Váha [dkg] Granáty Jablka

3 Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky – „váhové kategorie“ Nechť tabulka reflektuje skutečné pravděpodobnosti jednotlivých kategorií nejlehčí lehčí lehký střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7[kg]

4 Apriorní pravděpodobnost – Stav věci Hádej co mám za zády, jablko nebo granát? Klasifikační pravidlo: –Vyber čeho je nejvíc –Třída s největší apriorní pravděpodobností (a-priori probability) nejlehčí lehčí lehký střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7[kg] P ( gran ¶ a t ) = P ( j a blk o ) = P ! P ( ! ) = 1

5 Společná pravděpodobnost Je to těžké. Hádej co to je? Klasifikační pravidlo: –Ve sloupci váhové kategorie vyber nejčastější třídu –Třída s největší společnou pravděpodobností (joint probability) – pravděpodobnost chlívečku. –… ale také největší podmíněnou pravděpodobností (viz další slajd) nejlehčí lehčí lehký střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7[kg] P ( gran ¶ a t ; t · e · z k¶ y ) = P ( j a blk o ; t · e · z k¶ y ) = P ! ; x P ( ! ; x ) = 1

6 Podmíněná pravděpodobnost Je to těžké. Z jakou pravděpodobností je to granát? Podmíněnou pravděpodobnost (conditional probability) - pravděpodobnost chlívečku dáno sloupec nejlehčí lehčí lehký střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7[kg] P ( gran ¶ a t j t · e · z k¶ y ) =

7 Ještě nějaké další pravděpodobnosti nejlehčí lehčí lehký střední 0.3 – 0.4 těžký 0.4 – 0.5 těžší 0.5 – 0.6 nejtěžší 0.6 – 0.7[kg] P ( gran ¶ a t ) = P ( gran ¶ a t j t · e · z k¶ y ) = P ( t · e · z k¶ y j gran ¶ a t ) = P ( t · e · z k¶ y ) = P ( gran ¶ a t ; t · e · z k¶ y ) = P ( gran ¶ a t j t · e · z k¶ y ) P ( t · e · z k¶ y ) = P ( gran ¶ a t ; t · e · z k¶ y ) = P ( t · e · z k¶ y j gran ¶ a t ) P ( gran ¶ a t ) =

8 Bayesův teorém Věrohodnost nás zatím moc nezajímala, ale za chvíli to bude hlavní co se budeme snažit odhadovat z trénovacích dat. Již dříve jsme viděli že (product rule): Pro evidenci platí (sum rule): např.: Posteriorní pravděpodobnost (posterior probability) Věrohodnost (likelihood) Apriorní pravděpodobnost (prior probability) Evidence P ( ! j x ) = P ( x j ! ) P ( ! ) P ( x ) P ( ! ; x ) = P ( x j ! ) P ( ! ) P ( x ) = P ! P ( ! ; x ) P ( t · e · z k¶ y ) = P ( gran ¶ a t ; t · e · z k¶ y ) + P ( j a blk o ; t · e · z k¶ y ) =

9 Maximum a-posteriori (MAP) klasifikátor Mějme 2 třídy ω 1 a ω 2 –Pro daný příznak x vyber třídu ω s větší posteriorní pravděpodobností P(ω|x) –Vyber ω 1 pouze pokud: P ( ! 1 j x ) > P ( ! 2 j x ) P ( ! 1 ; x ) > P ( ! 2 ; x ) P ( x j ! 1 ) P ( ! 1 ) P ( x ) > P ( x j ! 2 ) P ( ! 2 ) P ( x )

10 Maximum a-posteriori (MAP) klasifikátor Pro každé x minimalizuje pravděpodobnost chyby: P(chyby|x) = P(ω 1 |x) pokud vybereme ω 2 P(chyby|x) = P(ω 2 |x) pokud vybereme ω 1 Pro dané x vybíráme třídu ω s větším P(ω|x)  minimalizace chyby Musíme ovšem znát skutečná rozložení –P(ω|x) –nebo P(x,ω) –nebo P(x|ω) a P(ω), které reflektují rozpoznávaná data Obecně pro N tříd –Vyber třídu s největší posteiorní pravděpodobností: argmax ! P ( ! j x ) = argmax ! p ( x j ! ) P ( ! )

11 Bude nás zajímat funkce rozložení pravděpodobnosti příznaků podmíněné třídou Spojité příznaky P(.) – bude pravděpodobnost p(.) – bude hodnota funkce rozložení pravděpodobnosti P ( x 2 ( a ; b )) = R b a p ( x ) d x p ( x j ! ) Plocha pod funkci musí být 1 Hodnoty mohou být ale libovolné kladné 0.7 [kg]

12 Bayesův teorém – spojité příznaky  x x  x x  x x p ( ! j x ) p ( x j ! ) P ( ! j x ) = p ( x j ! ) P ( ! ) p ( x ) p ( ! ; x ) = p ( x j ! ) P ( ! )

13 Opět se budeme rozhodovat podle: nebo MAP klasifikátor – spojité příznaky  x x  x x p ( ! j x ) P ( ! 1 j x ) > P ( ! 2 j x ) P ( ! 1 ; x ) > P ( ! 2 ; x ) p ( ! ; x ) Na obrazcích vidíme, že obě pravidla vedou ke stejným rozhodnutím

14 Říkali jsme, že MAP klasifikátor minimalizuje pravděpodobnost chyby Plocha pod funkci společného rozložení pravděpodobnosti p(ω,x) v určitém intervalu x je pravděpodobnost výskytu vzoru třídy ω s příznakem v daném intervalu Jaká je tedy celková pravděpodobnost, že klasifikátor udělá chybu? MAP klasifikátor – pravděpodobnost chyby  x x p ( ! ; x ) Jakákoli snaha posunout hranice povede jen k větší chybě   x x p ( ! ; x )  Pravděpodobnost, že modrá třída je chybně klasifikována jako červená

15 Posteriorní pravděpodobnosti pro různé apriorní pravděpodobnosti Změna apriorních pravděpodobností tříd může vézt k různým rozhodnutím P ( ! 1 ) = 1 3 ; P ( ! 2 ) = 2 3 P ( ! 1 ) = 1 2 ; P ( ! 2 ) = 1 2 P ( ! 1 ) = ; P ( ! 2 ) =  x x  x x  x x

16 Vícerozměrné příznaky Místo jednorozměrného příznaku máme N rozměrný příznakový vektor –x = [x 1, x 2, …, x N ] –např. [váha, červenost] –MAP klasifikátor opět vybírá nejpravděpodobnější třídu  p ( ! ; x ) x2x2 x1x1

17

18 Parametrické modely –Pro rozpoznávání s MAP klasifikátorem jsme doposud předpokládali, že známe skutečná rozloženi P(ω|x) nebo P(x,ω) nebo P(x|ω) a P(ω) –Ve skutečnosti ale většinou známe jen trénovací vzory –Pokusíme se tato rozložení odhadnout z dat – budeme trénovat statistické modely unvoicedvoicedsilence

19 Parametrické modely unvoicedvoicedsilence Můžeme se pokusit modelovat přímo posteriorní pravděpodobnost, a tu použít přímo k rozpoznávání P(ω|x) –tzv. diskriminativní trénování –Ale o tomto bude řeč až později Běžnější je odhadovat rozložení P(x|ω) a P(ω) Tato rozložení popisují předpokládaný proces generování dat – generativní modely Nejprve se musíme rozhodnout pro formu modelu, který použijeme. (např. gaussovské rozložení)

20 Gaussovské rozložení (jednorozměrné) N ( x;¹ ; ¾ 2 ) = 1 ¾ p 2 ¼ e ¡ ( x ¡ ¹ ) 2 2 ¾ 2

21

22 Gaussovské rozložení (dvourozměrné) N ( x ; ¹ ; § ) = 1 p ( 2 ¼ ) P j § j e ¡ 1 2 ( x ¡ ¹ ) T § ¡ 1 ( x ¡ ¹ )

23

24

25

26 Odhad parametrů modelu s maximální věrohodností Hledáme taková nastavení parametrů rozložení pravděpodobnosti Θ, které maximalizuje věrohodnost trénovacích dat (Maximum Likelihood, ML) V následujících příkladech předpokládáme, že odhadujeme parametry nezávisle pro jednotlivé třídy. Pro zjednodušení notace tedy u rozložení neuvádíme závislost na třídě ω, pouze na jejích parametrech Θ. Modely kterými se budeme zabývat jsou: –Gaussovské rozloženi –Směs gaussovských rozložení (Gaussian Mixture Model, GMM) –V následujících přednáškách přibudou další (např. HMM) ^ £ c l ass ML = argmax £ Y x i 2 c l ass p ( x i j £ )

27 Gaussovské rozložení (jednorozměrné) N ( x;¹ ; ¾ 2 ) = 1 ¾ p 2 ¼ e ¡ ( x ¡ ¹ ) 2 2 ¾ 2 ML odhad parametrů: ¹ = 1 T P i x i ¾ 2 = 1 T P i ( x i ¡ ¹ ) 2

28 Gaussovské rozložení (dvourozměrné) ML odhad of parametrů: § = 1 T P i ( x i ¡ ¹ )( x i ¡ ¹ ) T ¹ = 1 T P i x i N ( x ; ¹ ; § ) = 1 p ( 2 ¼ ) P j § j e ¡ 1 2 ( x ¡ ¹ ) T § ¡ 1 ( x ¡ ¹ )

29 Směs gaussovských rozložení GMM kde P c P c = 1 £ = f P c ; ¹ c ; § c g p ( x j £ ) = P c P c N ( x ; ¹ c ; § c )

30 Gaussian Mixture Model p ( x j £ ) = P c P c N ( x;¹ c ; ¾ 2 c ) Evaluation: Vzoreček můžeme chápat jen jako něco co definuje tvar funkce hustoty pravděpodobnosti… nebo jej můžeme vidět jako složitější generativní model,který generuje příznaky následujícím způsobem: –Napřed je jedna z gaussovských komponent vybrána tak aby respektovala apriorní pravděpodobnosti P c –Příznakový vektor se generuje z vybraného gaussovského rozložení. Pro vyhodnoceni modelu ale nevíme, která komponenta příznakový vektor generovala a proto musíme marginalizovat (suma přes gaussovské komponenty násobené apriorními pravděpodobnostmi)

31 Training GMM –Viterbi training Intuitive and Approximate iterative algorithm for training GMM parameters. Using current model parameters, let Gaussians to classify data as the Gaussians were different classes (Even though the both data and all components corresponds to one class modeled by the GMM) Re-estimate parameters of Gaussian using the data associated with to them in the previous step. Repeat the previous two steps until the algorithm converge.

32 Training GMM – EM algorithm Expectation Maximization is very general tool applicable in many cases were we deal with unobserved (hidden) data. Here, we only see the result of its application to the problem of re-estimating parameters of GMM. It guarantees to increase likelihood of training data in every iteration, however it does not guarantees to find the global optimum. The algorithm is very similar to Viterbi training presented above. Only instead of hard decisions, it uses “soft” posterior probabilities of Gaussians (given the old model) as a weights and weight average is used to compute new mean and variance estimates. ^ ¹ ( new ) c = P i ° c i x i P i ° c i ^ ¾ 2 c ( new ) = P i ° c i ( x i ¡ ^ ¹ ( new ) c ) 2 P i ° c i ° c i = P c N ( x i ; ^ ¹ ( o ld ) c ; ^ ¾ 2 c ( o ld ) ) P c P c N ( x i ; ^ ¹ ( o ld ) c ; ^ ¾ 2 c ( o ld ) )


Stáhnout ppt "Klasifikace a rozpoznávání Bayesovská rozhodovací teorie."

Podobné prezentace


Reklamy Google