Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 Reprezentace klasifikátoru pomocí „diskriminant“ funkce.

Podobné prezentace


Prezentace na téma: "1 Reprezentace klasifikátoru pomocí „diskriminant“ funkce."— Transkript prezentace:

1 1 Reprezentace klasifikátoru pomocí „diskriminant“ funkce

2 2 Diskriminant funkce nejčastěji se klasifikátor reprezentuje pomocí diskriminant funkce g i (x): –klasifikátor přiřadí x do třídy ω i.... když g i (x) > g j (x) pro každé j≠i => klasifikátor je síť/stroj, který spočte c diskriminant funkcí a vybere třídu, která odpovídá největšímu diskriminantu

3 3 Bayesovský klasifikátor Bayesovský klasifikátor, který minimalizuje celkovou ztrátu: g i (x) = -l i kde l i = λ ki ∙ p(x|ω k ) ∙ P(ω k ).... ztráta při klasifikaci x do ω i => maximum diskriminant funkce odpovídá minimu podmíněné ztráty Bayesovský klasifikátor, který minimalizuje pravď. chybné klasifikace: g i (x) = P(ω i |x) => maximum diskriminant funkce odpovídá maximu pravděpodobnosti P(ω i |x) c ∑ k=1

4 4 Diskriminant funkce diskriminant funkce není jednoznačná –můžeme vynásobit kladnou konstantou, posunout o konstantu,... –obecně: když nahradíme g i (x) za f(g i (x)), kde f je monotónní rostoucí funkce => výsledek klasifikace se nezmění => diskriminant funkce mohou být zapsány různě, ale rozhodovací pravidla jsou ekvivalentní: –když g i (x) > g j (x) pro každé j≠i => x leží v R i => x bude klasifikován do ω i oblasti jsou odděleny rozhodovacími hranicemi

5 5 Diskriminant funkce pro dvě třídy klasifikátor, který umístí vzor do jedné ze dvou tříd, je dichotomizér –když g 1 (x) > g 2 (x) => x leží v R 1 => x bude klasifikován do ω 1 –když g 1 (x) x leží v R 2 => x bude klasifikován do ω 2 často se definuje jediná funkce g(x) = g 1 (x) - g 2 (x) –když g(x) > 0 => x leží v R 1 => x bude klasifikován do ω 1 –když g(x) x leží v R 2 => x bude klasifikován do ω 2 => klasifikace jen podle znaménka diskriminant funkce pro minimalizaci pravď. chybné klasifikace se nejčastěji používají diskriminant funkce: g(x) = P(ω 1 |x) - P(ω 2 |x) g(x) = ln + ln p(x|ω 1 ) p(x|ω 2 ) P(ω 1 ) P(ω 2 )

6 6 Gaussovo normální rozdělení mnoho jevů lze považovat za ideální vzory poničené velkým počtem náhodných procesů => Gaussovo normální rozdělení je častý model pro rozdělení pravděpodobností hustota spojitého normálného rozdělení: p(x) = 1/√2π σ 2 ∙ exp(-1/2 (x-μ) 2 / σ 2 ) –μ je očekávaná (střední) hodnota –σ 2 je očekávaná kvadratická odchylka (rozptyl) p(x) ~ N(μ, σ 2 )

7 7 Multi-normální rozdělení dimenze d hustota spojitého multi-normálního rozdělení p(x) ~ N(μ, Σ) –x... d-rozměrný sloupcový vektor –μ... d-rozměrný vektor středních hodnot –Σ... kovarianční matice velikosti d× d –|Σ|... determinant kovarianční matice –Σ inverzní matice ke kovarianční matici střední hodnota μ = E[x] = ∫ x ∙ p(x) dx kovarianční matice Σ = E[(x-μ)∙(x-μ) T ] = ∫ (x-μ)∙(x-μ) T ∙ p(x) dx

8 8 Diskriminant funkce pro normální rozdělení pro normální rozdělení se používá diskriminant funkce g i (x) = ln p(x|ω i ) + ln P(ω i ) podmíněné pravděpodobnosti mají multi-normální rozdělení p(x|ω i ) ~ N(μ i, Σ i ) nyní dosadíme za p(x|ω i ) do g i (x): g i (x) = – 1/2 (x-μ i ) T ∙ Σ i -1 ∙ (x-μ i ) – d/2 ∙ ln(2π) – 1/2 ∙ ln |Σ i | + ln P(ω i ) (*) nyní se na výraz (*) podíváme detailněji pro jednotlivé případy 1. Σ i = σ 2 ∙ I 2. Σ i = Σ 3. Σ i libovolná

9 9 1. případ: Σ i = σ 2 ∙ I co to znamená? –příznaky jsou statisticky nezávislé a všechny mají stejný rozptyl –kovariační matice je diagonální a na diagonále jsou σ 2 geometricky: –vzory spadají do stejně velkých hypersférických shluků –shluk pro třídu ω i je vycentrován okolo střední hodnoty μ i => jak bude vypadat diskriminant funkce a klasifikátor? –v tomto případě lze spočítat determinant a inverzní matici ke kovarianční matici: |Σ i | = σ 2d Σ i -1 = (1/σ 2 ) ∙ I po dosazení do vztahu (*) za |Σ i | a Σ i -1 dostaneme: g i (x) = – 1/(2σ 2 ) ∙ (x-μ i ) T ∙ (x-μ i ) – d/2 ∙ ln(2π) – 1/2 ∙ ln (σ 2d ) + ln P(ω i )

10 10 zanedbáme 1. případ – diskriminant funkce po dosazení do vztahu (*) za |Σ i | a Σ i -1 dostaneme: g i (x) = – 1/(2σ 2 ) ∙ (x-μ i ) T ∙ (x-μ i ) – d/2 ∙ ln(2π) – 1/2 ∙ ln (σ 2d ) + ln P(ω i ) zanedbáme konstanty: g i (x) = – 1/(2σ 2 ) ∙ (x-μ i ) T ∙ (x-μ i ) + ln P(ω i ) roznásobíme závorky: g i (x) = – 1/(2σ 2 ) ∙ (xx T - 2μ i T x + μ i T μ i ) + ln P(ω i ) po zanedbání konstanty dostaneme lineární funkci proměnné x: g i (x) = – 1/(2σ 2 ) ∙ (-2μ i T x + μ i T μ i ) + ln P(ω i ) g i (x) zapíšeme ve tvaru lineární funkce proměnné x: g i (x) = w i T x + w i0 w i = 1/σ 2 ∙ μ i w i0 = – 1/(2σ 2 ) ∙ μ i T μ i + ln P(ω i )... práh i-té třídy => dostaneme lineární stroj zanedbáme

11 11 1. případ - rozhodovací plochy rozhodovací plochy jsou části nadrovin definované rovnicemi: g i (x) = g j (x) rovnici můžeme napsat ve tvaru: w T (x – x 0 ) = 0 w = μ i – μ j x 0 = 1/2 (μ i + μ j ) – (σ 2 / ||μ i – μ j || 2 ) ∙ ln ( P(ω i )/P(ω j ) ) ∙ (μ i – μ j ) poloha rozhodovacích nadrovin: –nadroviny procházejí bodem x 0 a jsou kolmé na w –protože w = μ i – μ j => nadrovina oddělující R i a R j je kolmá na spojnici středních hodnot –když P(ω i ) = P(ω j )... x 0 je střed mezi středními hodnotami –když P(ω i ) ≠ P(ω j )... x 0 je posunut od více pravděpodobného shluku –když σ 2 je relativně malý v porovnání s ||μ i – μ j || 2... hranice není příliš citlivá na přesné hodnoty apriorních pravděpodobností

12 12 1. případ - příklady P(ω i ) = P(ω j ) d=2 d=3

13 13 1. případ - příklady pokud se změní P(ω i ) => posunou se hranice pro hodně odlišné pravď. P(ω i ) nemusí ležet mezi spojnicí středních hodnot d = 1

14 14 1. případ - příklady pokud se změní P(ω i ) => posunou se hranice pro hodně odlišné pravď. P(ω i ) nemusí ležet mezi spojnicí středních hodnot d = 2

15 15 1. případ - příklady pokud se změní P(ω i ) => posunou se hranice pro hodně odlišné pravď. P(ω i ) nemusí ležet mezi spojnicí středních hodnot d = 3

16 16 Klasifikace podle minimální vzdálenosti uvažujme speciální případ, že P(ω i ) jsou stejné => ve funkci (*) je člen ln P(ω i ) aditivní konstanta... zanedbáme => dostaneme g i (x)= – ||x – μ j || rozhodovací pravidlo je triviální: 1. předložíme vzor x 2. změříme Eukleidovskou vzdálenost ||x – μ j || pro každou střední hodnotu μ j 3. vzor zařadíme do třídy s nejmenší vzdáleností => klasifikátor je založen na minimální vzdálenosti => každý vektor středních hodnot je považován za ideální prototyp pro vzory z jeho třídy (proces template-matching)

17 17 2. případ: Σ i = Σ co to znamená? –kovarianční matice jsou pro všechny třídy stejné (ale libovolné) geometricky: –vzory spadají do hyperelipsoidních shluků stejného tvaru a velikosti –shluk pro třídu ω i má centrum v μ i => jak bude v tomto případě vypadat diskriminant funkce a klasifikátor? |Σ i | a d/2 ∙ ln(2π) nezávisí na i... aditivní konstanty... zanedbáme diskriminant funkce (*) má tvar: g i (x) = – 1/2 (x-μ i ) T ∙ Σ -1 ∙ (x-μ i ) + ln P(ω i )

18 18 Klasifikace podle Mahalanobisovy vzdálenosti uvažujme speciální případ, že P(ω i ) jsou stejné => člen ln P(ω i ) zanedbáme výsledné rozhodovací pravidlo: 1. předložíme vzor x 2. změříme Mahalanobisovu vzdálenost (x-μ i ) T ∙ Σ -1 ∙ (x-μ i ) 3. vzor zařadíme do třídy s nejmenší Mahalanobisovou vzdáleností

19 19 2. případ – rozhodovací plochy vrátíme se k diskriminant funkci g i (x): g i (x) = – 1/2 ∙ (x-μ i ) T ∙ Σ -1 ∙ (x-μ i ) + ln P(ω i ) roznásobíme závorky a zanedbáme x T Σ -1 x (nezávisí na i): g i (x) = w i T x + w i0 w i = Σ -1 ∙ μ i w i0 = – 1/2 ∙ μ i T ∙ Σ -1 ∙μ i + ln P(ω i ) => diskriminant funkce je opět lineární funkce a tedy rozhodovací plochy jsou nadroviny

20 20 2. případ – rozhodovací plochy rozhodovací plochy zjistíme z rovnice g i (x) = g j (x) po dosazení dostaneme rovnici nadroviny: poloha rozhodovacích nadrovin: –nadroviny procházejí bodem x 0 na spojnici středních hodnot –w není obecně ve směru μ i – μ j => nadrovina oddělující R i a R j obecně není kolmá na spojnici středních hodnot –když P(ω i ) = P(ω j )... x 0 je střed mezi středními hodnotami –když P(ω i ) ≠ P(ω j )... x 0 je posunut od více pravděpodobného shluku

21 21 2. případ - příklady nadrovina nemusí být kolmá na spojnici středních hodnot pokud se změní P(ω i ) => posunou se hranice d = 2

22 22 2. případ - příklady d = 3 nadrovina nemusí být kolmá na spojnici středních hodnot pokud se změní P(ω i ) => posunou se hranice

23 23 3. případ: Σ i libovolná co to znamená? –kovarianční matice jsou různé pro jednotlivé třídy => jak bude v tomto případě vypadat diskriminant funkce a klasifikátor? lze odstranit pouze člen d/2 ∙ ln(2π) jako aditivní konstantu diskriminant funkce má tvar: g i (x) = x T ∙ W i ∙ x + w i T ∙ x + w i0 W i = – 1/2 ∙ Σ i -1 w i = Σ i -1 ∙ μ i w i0 = – 1/2 ∙ μ i T ∙ Σ i -1 ∙μ i – 1/2 ln |Σ i | + ln P(ω i ) => diskriminant funkce je kvadratická funkce => rozhodovací plochy jsou hyperkvadratické a můžou mít libovolný tvar (nadroviny, dvojice nadrovin, hyper-paraboloidy, hyper-hyperboloidy,...)

24 24 3. případ - příklady

25 25 3. případ - příklady

26 26 3. případ - příklady oblasti příslušející k jedné oblasti nemusí být spojeny (ani v dimenzi 1)

27 27 3. případ - příklady pro případ 4 tříd (každá je normální rozdělení) –jestliže jsou rozdělení obecné => rozhodovací oblasti jsou složité

28 28 Početní příklad spočtěte hranici dvou tříd daných obrázkem – nechť P(ω 1 ) = P(ω 2 ) pro každou třídu máme 4 body z Gaussova rozdělení –1. třída: –2. třída:

29 29 Početní příklad spočteme diskrétní verze střední hodnoty a kovarianční matice: máme nejobecnější případ (různé Σ i ) –spočteme inverzní matice k Σ 1 a Σ 2

30 30 Početní příklad hledáme rozhodovací plochu –dosadíme do rovnice g 1 (x) = g 2 (x), kde x = po úpravách dostaneme rovnici: x 2 = – 1.125x x 1 2 => rovnice paraboly s vrcholem v bodě průsečík středních hodnot => rozhodovací hranice neprochází průsečíkem (jiná rozdělení tříd)

31 31 Bayesovo rozhodovací kritérium a normální rozdělení Bayesovo rozhodovací kritérium garantuje nejmenší pravděpodobnost chyby ukázali jsme, jak udělat klasifikátor a jak spočítat rozhodovací plochy neřekli jsme, jak spočítat pravděpodobnost chyby –spočtení pravděpodobnosti chyby je obecně pro Gaussiány je složité (zejména díky nespojitým oblastem) –analyticky lze spočítat horní odhad chyby (vzorce – lze najít v literatuře)


Stáhnout ppt "1 Reprezentace klasifikátoru pomocí „diskriminant“ funkce."

Podobné prezentace


Reklamy Google