Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 Odhady parametrů. 2 Co potřebujeme pro návrh klasifikátoru pro konstrukci klasifikátoru potřebujeme: –apriorní pravděpodobnost P(ω i ) –podmíněnou pravděpodobnost.

Podobné prezentace


Prezentace na téma: "1 Odhady parametrů. 2 Co potřebujeme pro návrh klasifikátoru pro konstrukci klasifikátoru potřebujeme: –apriorní pravděpodobnost P(ω i ) –podmíněnou pravděpodobnost."— Transkript prezentace:

1 1 Odhady parametrů

2 2 Co potřebujeme pro návrh klasifikátoru pro konstrukci klasifikátoru potřebujeme: –apriorní pravděpodobnost P(ω i ) –podmíněnou pravděpodobnost p(x|ω i ) v praxi: –typicky nemáme úplnou informaci o pravděpodobnostní struktuře problému –máme jen trénovací data řešení: –použijeme trénovací vzory k odhadu neznámých pravděpodobností –tyto odhady použijeme jako skutečná data

3 3 Odhadu parametrů klasifikátoru odhady: –odhad pravděpodobnosti P(ω i )... nebývá problém –odhad podmíněné pravděpodobnosti p(x|ω i )... problémy počet dostupných vzorů je nedostatečný problémy u rostoucí dimenze vstupních vzorů => problém lze redukovat, když známe počet parametrů a informaci, jak parametrizovat příklad: –můžeme předpokládat, že p(x|ω i ) má normální rozdělení, ale neznáme přesné hodnoty μ i a Σ i –tato znalost zjednodušší problém nehledáme neznámou funkci p(x|ω i ) odhadujeme parametry μ i a Σ i

4 4 Odhadu parametrů klasifikátoru nejznámější metody: –metoda maximální věrohodnosti –metoda Bayesovského odhadu => získané výsledky jsou typicky téměř identické, ale metody jsou koncepčně odlišné 1. metoda maximální věrohodnosti –nahlíží na parametry jako na veličiny, jejichž hodnoty jsou pevné, ale neznámé –nejlepší odhad těchto hodnot je ten, který maximalizuje pravděpodobnost získanou z trénovacích vzorů 2. Bayesovský odhad –nahlíží na parametry jako na náhodné veličiny, které mají některou ze známých rozdělení –informace z trénovacích vzorů se promítne do p(x|ω i ) a „poopravuje“ naše názory na pravdivost parametrů rozdělení –přidáním dalších trénovacích vzorů se „zpřesní“ hustota p(x|ω i )... Bayesovské učení

5 5 Učení s učitelem a bez učitele vzory x byly získány: –nejprve výběrem třídy ω i s pravděpodobností P(ω i ) –pak nezávislým výběrem x podle p(x|ω i ) učení s učitelem –u vzoru víme, do které třídy patří učení bez učitele –u vzoru nevíme, do které třídy patří

6 6 Metoda maximální věrohodnosti výhody: –téměř vždy dobrá konvergence –často jednodušší než jiné metody předpoklady: –máme c tříd –pro každou třídu máme sadu trénovacích dat D 1,...,D c –vzory z D i jsou vybrány nezávisle, aby odpovídaly p(x|ω i ) –p(x|ω i ) má známý parametrický tvar, který je jednoznačně určen vektorem θ i => závislost p(x|ω i ) na θ i budeme zapisovat p(x|ω i,θ i ) cíl: –na základě trénovacích vzorů najít vhodné odhady parametrů θ 1,..., θ c pro jednotlivé třídy ω 1,..., ω c

7 7 Zjednodušení metody pro zjednodušení budeme předpokládat, že vzory z D i nedávají žádnou informaci o θ j (i ≠ j) –parametry pro různé třídy jsou funkčně nezávislé –tedy můžeme pracovat s jednotlivými třídami odděleně (zlepší se značení) => pracujeme jen s 1 třídou: –D... trénovací vzory pro danou třídu - vybrané tak, aby odpovídali p(x|θ) –na základě D chceme odhadnout θ nechť D má n vzorů x 1,..., x n nezávislých vzorů: p(D|θ) = ∏ p(x k |θ) max. věrohodnost θ je taková hodnota, která maximalizuje p(D|θ) –intuitivně: max. věrohodnost odpovídá θ, která „nejlépe pasuje“ na trénovací data n k=1 věrohodnost θ s ohledem na trénovací data

8 8 Ilustrační příklad na dolním obrázku je zachycena věrohodnost p(D|θ) jako funkce střední hodnoty θ = (μ) hodnota, která maximalizuje věrohodnost, je na obrázku je několik trénovacích vzorů (dim=1), které byly vzaty z Gaussova rozdělení s daným rozptylem ale neznámou střední hodnotou čárkovaně jsou 4 z nekonečně možných rozdělení

9 9 Logaritmická věrohodnost pro analytické účely se často pracuje s logaritmickou věrohodností: –logaritmus je rostoucí monotónní funkce: maximalizuje logaritmickou věrohodnost => maximalizuje věrohodnost když je p(D|θ) „rozumná“ a diferenciovatelná => lze najít metodami diferenciálního počtu

10 10 Analytické nalezení vektoru parametrů θ nechť θ má p parametrů: θ = (θ 1,...,θ p ) definujeme log-věrohodnostní funkci l(θ): l(θ) = ln p(D|θ) hledaný vektor parametrů zapíšeme: = argmax l(θ) věrohodnost s ohledem na trénovací data D zapíšeme jako: do log-věrohodnosti dosadíme za p(D|θ): θ

11 11 Analytické nalezení vektoru parametrů θ nyní hledáme maximum log-věrohodnosti l(θ) => výraz zderivujeme a položíme rovno 0 výraz je vektor: => vektor je nulový, když každá jeho složka je nulová => tím najdeme hledaný

12 12 uvedenou metodu aplikujeme na případ normálního rozdělení budeme uvažovat dvě situace: 1. normální rozdělení s neznámou střední hodnotou - známe kovarianční matici (rozptyl) daného rozdělení - hledáme jen střední hodnotu 2. normální rozdělení s neznámou střední hodnotou i kovarianční maticí (rozptylem) - typická situace - víme, že veličina má normální rozdělení, ale neznáme parametry rozdělení - hledáme střední hodnotu i kovariační matici (rozptyl) známe: trénovací data D hledáme: neznámé parametry normálního rozdělení Příklad - normální rozdělení

13 13 uvažujeme normální rozdělení: –známe kovariační matici –známe trénovací data –hledáme střední hodnotu pro vzory z normálního rozdělení platí: nyní spočteme ln p(x k |μ): Příklad 1 – neznámé μ

14 14 výraz budeme postupně logaritmovat: výraz nyní parciálně zderivujeme podle μ: Příklad 1 – neznámé μ => toto je pro jeden trénovací vzor

15 15 nyní spočtený výraz dosadíme do obecného vztahu a dostaneme výraz: derivaci položíme rovno nule (hledáme maximum): výraz vynásobíme Σ: Příklad 1 – neznámé μ

16 16 po úpravě dostaneme výsledek: => μ je aritmetický průměr trénovacích vzorů toto je velmi dobrý výsledek (a dal se čekat) geometricky: –trénovací vzory leží ve shluku a μ je střed tohoto shluku tento odhad by nás zřejmě napadl i bez znalosti metody maximální věrohodnosti Příklad 1 – neznámé μ

17 17 uvažujeme normální rozdělení: –známe trénovací data –hledáme střední hodnotu a kovariační matici => vektor θ bude mít složky (μ, Σ) nejprve se zaměříme na jednorozměrný případ: θ = (μ, σ 2 ) pak rozšíříme do vícerozměrného případu Příklad 2 – neznámé μ a Σ

18 18 pro vzory z normálního rozdělení platí: nyní spočteme ln p(x k |μ): výraz zlogaritmujeme podle θ: Příklad 2 – neznámé μ a Σ parciální derivace podle θ 1 parciální derivace podle θ 2

19 19 spočtený vektor parciálních derivací položíme rovno 0 (hledáme maximum): tento vektor je nulový, když každá složka je nulová: Příklad 2 – neznámé μ a Σ (*) (**)

20 20 upravíme rovnici (*): upravíme rovnici (**): vynásobíme : dostaneme výsledek (**): Příklad 2 – neznámé μ a Σ

21 21 dostali jsme odhady pro jednorozměrný případ: vícerozměrný případ spočteme stejně (jen více počítání): dostali jsme, že odhad střední hodnoty je střední hodnota vzorků a odhad kovarianční matice je aritmetický průměr z matic Příklad 2 – neznámé μ a Σ

22 22 odhad σ 2 získaný pomocí maximální věrohodnosti je zkreslený očekávaná hodnota přes všechny trénovací sady velikosti n se nerovná skutečné hodnotě σ 2 vztah můžeme ověřit snadno jen pro extrémní případ n=1 a σ 2 ≠ 0: podobně lze ukázat, že i odhad kovarianční matice je „nepřesný“ Přesnost odhadu (1)

23 23 základní nestranný odhad pro kovarianční matici je: když je odhad nestranný pro všechny rozdělení (jako (2)) => nazveme jej absolutně nestranným odhadem když má odhad tendenci být nestranným s rostoucím počtem trénovacích vzorů (jako (1)) => nazveme jej asymptoticky nestranným odhadem pro rozpoznávání vzorů s velkými trénovacími množinami stačí pracovat s asymptoticky nestraným odhadem jiný asymptotický odhad kovarianční matice je: => odhady (2) i (3) jsou v podstatě identické pro velké n Přesnost odhadu (2) (3)

24 24 existence dvou podobných (ale přesto odlišných) odhadů kovarianční matice je znepokojivá => který z nich je správný? –pro n>1 není žádný špatný, jen jsou odlišné –neexistuje jeden odhad, který splňuje všechny námi požadované vlastnosti –pro naše účely je nejdůležitější vlastnost „odhad, který vede k nejlepší klasifikaci“ => příliš složitá vlasnost klasifikátor založený na metodě odhadu parametrů pomocí max. věrohodnosti –nemůžou jiné odhady vést k lepší klasifikaci? –když máme spolehlivý model pro rozdělení a jeho závislost na vektoru parametrů θ => klasifikátor může dát výborné výsledky –co když je náš model rozdělení chybný => získáme i tak nejlepší klasifikátor na námi vystavěném modelu? „NE“ příklad –předpokládáme, že rozdělení je N(μ,1), ale ve skutečnosti je N(μ,10) –nalezená hodnota μ pomocí max. věrohodnosti nemusí být nejlepší pro všechny klasifikátory odvozené z N(μ,1) Přesnost odhadu – problémy

25 25 ukažte, že když je náš model „slabý“ => klasifikátor používající odhady získané pomocí max. věrohodnosti není nejlepší víme: –P(ω 1 )= P(ω 2 )=0.5 –p(x| ω 1 ) ~ N(0,1) předpokládáme: –p(x|ω 2 ) ~ N(μ,1)... μ chceme odvodit pomocí max. věrohodnosti nechť skutečné rozdělení ω 2 je p(x|ω 2 ) ~ N(1,10 6 ) otázky: 1. Jaký je odhad v ω 2 pomocí metody max. věrohodnosti? 2. Jaká je rozhodovací hranice tříd ω 1 a ω 2, když ω 2 je založena na odhadu p(x|ω 2 ) ~ N(,1)? 3. Jaká je rozhodovací hranice tříd ω 1 a ω 2, když o ω 2 víme, p(x|ω 2 ) ~ N(1,10 6 ) ? 4. Uvažujme klasifikátor založený na p(x|ω 2 ) ~ N(,1). Najděte novou hodnostu, která dá menší chybu při klasifikaci. Příklad na zamyšlení

26 26 metoda se dívá na θ jako na náhodnou veličinu a trénovací data nám pomůžou zkonvertovat hustotu této veličiny do P(ω i |x) –metoda typicky dává velmi podobné výsledky jako metoda max. věrohodnosti, ale je zde konceptuální rozdíl jádrem klasifikace je pravděpodobnost P(ω i |x) –Bayesovský vzorec nám tuto hodnotu spočte, když známe p(x|ω i ) a P(ω i ) potřebujeme: –P(ω i |x) známe: –tvar funkce hustoty –trénovací data Metoda Bayesovského odhadu

27 27 D je množina trénovacích vzorů (rozdělená do jednotlivých tříd D 1,... D c ) chceme spočítat P(ω i |x) => na základě tohoto dostaneme klasifikátor Bayesovský vzorec: => použijeme informaci z trénovacích vzorů pro spočtení P(x|ω i,D) a P(ω i |D) pro provedení výpočtu si situaci zjednodušíme: –předpokládejme, že apriorní pravděpodobnosti jsou známé nebo je lze snadno získat => budeme psát P(ω i ) = P(ω i |D) –budeme předpokládat, že vzory z D i nemají vliv na P(x|ω j,D) pro i≠j Odvození metody

28 28 tyto zjednodušení mají dva důsledky: –1. důsledek: můžeme pracovat s jednotlivými třídami odděleně tedy na spočtení p(x|ω i,D) stačí znát jen vzory z D i (a ne celou D) tedy Bayesův vzorec bude mít tvar: –2. důsledek: protože lze s třídami pracovat odděleně, nepotřebujeme indexy rozlišující třídy tedy uvažujeme c problémů tvaru „použít trénovací množinu D vybraných nezávisle podle fixního ale neznámého rozdělení p(x) k určení p(x|D)“ požadované rozdělení p(x) je neznámé, ale známe jeho tvar –tedy neznáme jen hodnoty θ => tedy p(x) můžeme zapsat ve tvaru p(x|θ) Odvození metody

29 29 jakákoliv informace o θ obsažená v trénovacích datech, je také obsažena v neznámé hustotě p(θ) –tedy vlastnosti z trénovacích vzorů jsou zkonvertovány do hustoty p(θ|D) –doufáme, že tato hustota bude mít ostrý vrchol okolo hledaného θ ke spočtení p(x|D) použijeme integraci hustoty p(x,θ|D) přes θ: p(x,θ|D) lze psát jako součin p(x|θ,D)∙p(θ|D) výběr x je nezávislý a trénovací vzory jsou do D vybrány nezávisle: Odvození metody integrace přes celý prostor parametrů p(x,y) = p(x|y) ∙ p(y) p(x|θ,D) je téměř jako p(x|θ)

30 30 získaný integrál spojuje podmíněnou hustotu p(x|D) a hustotu p(θ|D) pro neznámý vektor parametrů: nyní aplikujeme větu o střední hodnotě integrálu: –jestliže p(θ|D) má ostrý vrchol okolo nějaké hodnoty, dostaneme: dostaneme: Odvození metody

31 31 tedy výsledek dostaneme substitucí odhadu jako skutečného parametru –zde předpokládáme, že p(x|θ) je hladká a že ocasy integrálu nejsou důležité –typicky jsou tyto podmínky splněny (ale není to obecné pravidlo) obecně když si nejsme moc jisti o přesné hodnotě, rovnice s integrálem nás dovede ke zprůměrování p(x|θ) přes možné θ když má neznámá hustota známý tvar => vzory použijí „svůj vliv“ na p(x|D) skrz hustotu p(θ|D) Odvození metody

32 32 použïjeme metodu Bayesovského odhadu ke spočtení p(θ|D) a požadované hustoty p(x|θ) pro případ p(x|θ) ~ N(μ,Σ) pro jednoduchost uvažujeme jen jednorozměrný případ x = (x) p(x|μ) má normální rozdělení s neznámou střední hodnotu μ (rozptyl je znám) p(x|θ) = p(x|μ) ~ N(μ,σ 2 ) dále předpokládáme, že známe hustotu p(μ) –pro jednoduchý výpočet bude mít p(μ) normální rozdělení p(μ) ~ N(μ 0,σ 0 2 ) –z tohoto rozdělení p(μ) budeme vybírat nejvhodnější μ (na základě trénovacích dat) Bayesovský odhad se skládá ze dvou kroků: –Krok 1. - spočtení p(μ|D) –Krok 2. - spočtení p(x|D) Příklad - normální rozdělení

33 33 máme n trénovacích vzorů x 1,... x n v D –vzory byly vybrány nezávisle pomocí Bayesova vzorce dostaneme vztah p(μ|D): kde α je normalizační faktor, který závisí na D (ne na μ) rovnice ukazuje, jak pozorování trénovacích vzorů ovlivňuje naše myšlenky ohledně skutečné hodnoty μ –tedy dostaneme vztah od p(μ) k p(μ|D) –p(μ)... známe –p(μ|D)... chceme spočítat Krok 1. - spočtení p(μ|D) vzory vybrány nezávisle

34 34 nyní použijeme naše předpoklady: –p(x k |μ) ~ N(μ,σ 2 )... rozdělení x –p(μ) ~ N(μ 0,σ 0 2 )... rozdělení μ tyto předpoklady dosadíme do Bayesova vzorce: konstanty skryjeme do koeficientu α: Krok 1. - spočtení p(μ|D)

35 35 součin exponenciál je exponenciála součtu: roznásobíme závorky a členy, které nezávisí na μ, sloučíme do α'': tedy p(μ|D) je exponenciální funkce kvadratické funkce proměnné μ: p(μ|D) má opět normální rozdělení a to pro libovolný počet vzorů p(μ|D) ~ N(μ n,σ n 2 ) Krok 1. - spočtení p(μ|D)

36 36 koeficienty μ n a σ n 2 zjistíme porovnání koeficinetů ve výsledné rovnici s odpovídajícími koeficinety normálního rozdělení N(μ n,σ n 2 ): a explicitně vyjádříme μ n a σ n 2 : => tyto rovnice ukazují, jak je apriorní informace kombinována s empirickými informacemi z trénovacích dat pro výpočet p(μ|D) Krok 1. - spočtení p(μ|D) střední hodnota trénovacích dat

37 37 co představují získané koeficienty μ n a σ n 2 : –μ n představuje náš nejlepší odhad pro μ na základě n trénovacích vzorů –σ n 2 měří nejistotu našeho odhadu σ n 2 klesá monotónně s rostoucím n => každé další pozorování (trénovací vzor) sníží naší nejistotu ohledně správnosti μ s rostoucím n má p(μ|D) ostřejší vrchol –pro n →∞ dosáhne p(μ|D) Diracovy delta funkce => Bayesovské učení Krok 1. - spočtení p(μ|D)

38 38 Bayesovské učení

39 39 μ n je lineární kombinace a μ 0 : –koeficienty jsou nezáporné a jejich součet je 1 –tedy μ n leží někde mezi a μ 0 1. σ 0 ≠ 0 –μ n dosáhne střední hodnoty trénovacích dat pro n=∞ 2. σ 0 = 0 –degenerovaný případ - jistota, že μ n = μ 0, je tak silná, že žádný počet trénovacích vzorů nemůže změnit naše pozorování 3. σ 0 >>σ –jsme velmi nejisti ohledně našeho odhadu => položíme μ n = a tím použijeme jen trénovací data k odhadu μ obecně: –relativní rovnováha mezi apriorní znalostí a empirockými daty je dána poměrem σ 2 k σ dogmatismus –když není dogmatismus nekonečno => po dostatečném počtu trén. vzorů skutečné hodnoty μ 0 a σ 0 2 přestanou být důležité a μ n zkonverguje ke střední hodnotě trénovacích vzorů Krok 1. - spočtení p(μ|D)

40 40 nyní známe p(μ|D) a chceme spočítat p(x|D) zatím jsme uvažovali jen jednu třídu => ve skutečnosti p(x|D) je p(x|ω i,D i ) víme, že: do integrálu dosadíme známá normální rozdělení: Krok 2. - spočtení p(x|D) N(μ,σ 2 ) N(μ n,σ n 2 )

41 41 integrál přeskupíme: tedy dostaneme výsledek: p(x|D) funkce proměnné x je proporcionální k Krok 2. - spočtení p(x|D)

42 42 p(x|D) má normální rozdělení: –střední hodnota μ n –rozptyl σ 2 + σ n 2 => p(x|D) ~ N(μ n,σ 2 + σ n 2 ) vyšli jsme ze znalosti p(x|μ) ~ N(μ,σ n 2 ) získali jsme podmíněnou pravděpodobnost p(x|D) nahrazením: –μ za μ n... střední hodnota μ n se vezme za skutečnou hodnotu –σ 2 za σ 2 + σ n 2... známý σ 2 rozptyl je navýšen o σ n 2 (nejistota pocházející z nedostatečné znalosti střední hodnoty μ) závěr: –hustota p(x|D) je požadovaná hustota p(x|ω i,D i ) –společně s apriorní informací P(ω i ) dostaneme informace nutné pro klasifikátor Krok 2. - spočtení p(x|D)

43 43 předpoklady: –tvar p(x|θ) je znám (neznáme hodnoty θ) –iniciální znalosti o θ jsou obsaženy ve známé hustotě p(θ) –zbytek naší znalosti o θ je v trénovacích datech x 1,..., x n z D (vybrány nezávisle z neznámé hustoty p(x)) výpočet: –spočteme p(D|θ) pomocí předpokladu o nezávislosti vybraných vzorů: –spočteme p(θ|D) pomocí Bayesova vzorce: –spočteme požadovanou p(x|D): => spočtená p(x|D) je hledanou p(x|ω i,D i ) Bayesovský odhad - shrnutí

44 44 označme D n ={x 1,..., x n } nyní zapíšeme nezávislost vybraných vzorů: tento výraz dosadíme do Bayesova vzorce pro p(θ|D): protože p(θ|D 0 )= p(θ), postupným dosazováním dostaneme: p(θ), p(θ|x 1 ), p(θ|x 1,x 2 ), => rekurzivní Bayesovská metoda k odhadu parametrů –online učící metoda, kde učení jde tak, jak jsou data získávána Rekurzivní Bayesovská metoda

45 45 Bayesovské učení: –když posloupnost p(θ), p(θ|x 1 ), p(θ|x 1,x 2 ),.... konverguje k Diracově delta funkci vycentrované okolo skutečné hodnoty parametru pro většinu nejčastěji používaných hustot posloupnost konverguje k Diracově delta funkci 1. pro velké množstvé vzorů existuje jen jedna hodnota θ, pro kterou p(x|θ) „pasuje“ na data –z p(x|θ) lze jednoznačně určit θ 2. existují případy, kdy existuje více hodnot θ pro p(x|θ) –nelze jednoznačně určit θ z p(x|θ) –p(x|D n ) bude mít vrchol mimo všech hodnot θ, které odpovídají datům –je nutné použít integrál na výpočet p(x|D n ), který „smaže“ víceznačnosti => p(x|D n ) typicky konverguje k p(x) Bayesovské učení

46 46 značení: –metoda maximální věrohodnosti... MMV –metoda Bayesovského odhadu... BO pro n →∞ jsou typicky BO i MMV ekvivaletní v praxi máme limitované sady dat a zde se metody mohou lišit kritéria pro výběr metody: –výpočetní složitost –interpretovatelnost –důvěra v apriorní informace Kdy se liší metoda max. věrohodnosti a Bayesovský odhad?

47 47 výpočetní složitost: –MMV má snadnější techniky diferenciálního počtu při hledání θ (+) –BO má složitou mnohorozměrnou integraci (-) interpretovatelnost: –MMV bývá snadno pochopitelná a interpretovatelná, protože vrací jediný nejlepší model (parametr) z dané trénovací množiny (+) –BO dává vážený průměr modelů (parametrů), které vedou ke složitějším a hůře pochopitelnějším modelům (-) –BO váží nejistotu v možných modelech (+) důvěra v apriorní informace (jako tvar p(x|θ)): –u MMV musí mít uvažovaný parametrický tvar –u BO ne => existují případy, kdy Bayesovské řešení nemá původní předpokládaný tvar (BO využívá více informací než MMV) –navíc BO objasní rovnováhu mezi přesností odhadu a jeho rozptylem Kritéria pro výběr metody

48 48 Bayesovská chyba (chyba nerozlišitelnosti) –chyba vzniklá překrýváním hustot p(x|ω i ) pro různé i –tato chyba je vlastnost problému a nelze se jí vyhnout chyba modelu –chyba způsobená volbou nesprávného modelu –chybu lze odstranit, jen když známe skutečný model, který generuje data –návrháři obvykle volí model, který je založen na znalosti problematiky (než na metodách odhadu) chyba odhadu –chyba vzniklá z faktu, že parametry odhadujeme z konečného počtu dat –chybu lze zredukovat zvyšováním počtu trénovacích dat relativní příspěvky chyb závisí na daném problému –v limitním případě (nekonečně trénovacích dat) chyba odhadu zmizí a celková chyba klasifikace bude stejná pro obě metody Druhy chyb

49 49 praxe: máme 50 až stovky příznaků (typicky binárně kódované) –můžeme předpokládat, že každý příznak je důležitý –nicméně lze pochybovat, že každý příznak poskytne nezávisou informaci obecně: –když daná množina příznaků není adekvátní, je přirozené přidat další příznak (zejména takový, který pomůže separovat nejhůře oddělitelné dvojice tříd) –rostoucí počet příznaků zvýší časovou i prostorovou složitost ale zlepšení výkonu bývá důležitější naneštěstí praxe ukazuje, že existuje jistá mez na přidávání dalších příznaků –při překročení této meze se výkon nezlepší ale naopak zhorší –tento paradox představuje vážný problém při návrhu klasifikátoru problém: –jednoduché případy neukazují experimentálně zjištěné jevy –složité reálné případy nelze dobře analyzovat Dimenzionalita dat

50 50 když známe pravděpodobnostní strukturu problému: –přidáním dalšího příznaku se Bayesovská ztráta nemůže zhoršit –v nejhorším případě bude Bayesovský klasifikátor ignorovat nové příznaky –když nové příznaky přinesou nějakou novou informaci => výkon se musí zlepšit –v 3D se hustoty nepřekrývají –při projekci do roviny x 1 x 2 nebo do přímky x 1 se promítnuté hustoty překrývají Přesnost klasifikace a problém dimenzionality dat

51 51 co dělat, když nejsou dostupná adekvátní data? –snížit dimenzi dat a vybrat vhodnější podmnožinu příznaků –předpokládat, že všechny třídy sdílí stejnou kovarianční matici a získat další dostupná data –hledat lepší odhad kovarianční matice „zprůměrujeme“ spočtený odhad a nějaký rozumný iniciální odhad když je Σ 0 diagonální => zmizí problémový efekt „náhodné korelace“ alternativně můžeme odstranit „šanci“ korelace pomocí heuristiky např. prahování kovarianční matice vzorů – když magnituda korelačního koeficientu není blízko 1 => nahradíme tuto hodnotu 0 extrém tohoto je předpokládat statistickou nezávislost – vynulovat nediagonální prvky bez ohledu na empirická data ačkoliv jsou takovéto předpoklady téměř jistě nesprávné – výsledné heuristiky dají často lepší výkon než spočtené odhady Nedostupnost adekvátních dat


Stáhnout ppt "1 Odhady parametrů. 2 Co potřebujeme pro návrh klasifikátoru pro konstrukci klasifikátoru potřebujeme: –apriorní pravděpodobnost P(ω i ) –podmíněnou pravděpodobnost."

Podobné prezentace


Reklamy Google