Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Neparametrické metody. obsah: –princip odhadu hustoty odhad hustoty pomocí metody Parzenova okénka pravděpodobnostní neuronové sítě odhad hustoty pomocí.

Podobné prezentace


Prezentace na téma: "Neparametrické metody. obsah: –princip odhadu hustoty odhad hustoty pomocí metody Parzenova okénka pravděpodobnostní neuronové sítě odhad hustoty pomocí."— Transkript prezentace:

1 Neparametrické metody

2 obsah: –princip odhadu hustoty odhad hustoty pomocí metody Parzenova okénka pravděpodobnostní neuronové sítě odhad hustoty pomocí metody k n -nejbližších sousedů –odhad aposteriorní pravděpodobnosti –pravidlo nejbližšího souseda a pravidlo k-nejbližších sousedů

3 Neparametrické metody doposud jsme uvažovali učící algoritmy, které předpokládaly znalost hustoty rozdělení –v praxi hustoty rozdělení neznáme –umíme hustoty odhadnout, pokud mají tvar nějaké „běžné“ funkce hustoty (jako např. normální rozdělení,...) –problém: hustota reálných dat málokdy „pasuje“ na některou z běžných funkcí hustoty neparametrické metody: –lze je použít pro libovolné rozdělení bez předpokladu, že známe tvar funkce hustoty rozdělení metod: –odhady funkce hustoty p(x|ω j ) z trénovacích dat když jsou odhady uspokojivé => použijeme tyto odhady jako skutečné hodnoty do klasifikátoru –odhady aposteriorní pravděpodobnosti P(ω j |x)

4 Odhady hustoty metody založené na aproximaci hustoty pomocí histogramu –označme P pravděpodobnost, že x padne do oblasti R: když odhadneme P => můžeme odhadnout i p(x) „hladká zprůměrovaná verze hustoty“ neznáme (*)

5 Odhady hustoty nechť máme n vzorů x 1,..., x n vybraných nezávisle podle p(x) spočteme pravděpodnost P k, že k z n vzorů spadne do oblasti R: –tedy P k má binomické rozdělení a očekávaná hodnota pro k je: binomické rozdělení pro k má ostrý vrchol okolo střední hodnoty –poměr k/n bude dobrý odhad pro P (zejména pro velké n) P ~ k/n (**)

6 Odhady hustoty když oblast je R malá => p se v oblasti R příliš nemění => oblast lze aproximovat obdélníkem: –x je bod uvnitř R –V je objem R kombinací vztahů (*), (**) a (***) dostaneme, že pravděpodobnost v bodě x lze odhadnout jako: (***) pravděpodobnost, že bod x padne do R „velikost“ oblasti R pravděpodobnost v bodě x – „výška“ obdélníku

7 Odhady hustoty příklad na zobrazení závislosti odhadnuté p(x) na hodnotě k/n: –skutečná P=0.7 –každá křivka je binomická - je označena počtem vzorů n a je naškálovaná, aby dala stejnou hodnotu v maximu –pro rostoucí n má křivka ostřejší vrchol (pro n→∞ dostaneme Diracovu delta funkci) jak se bude měnit odhad pro n→∞?

8 Odhady hustoty uvažujme následující postup pro odhad hustoty: –vytvoříme posloupnost R 1, R 2... každá R i obsahuje vzor x R 1 pracuje s 1 trénovacím vzorem, R 2 pracuje s 2 trénovacími vzory,... –označme V n objem R n –pro p n (x) bude platit: kde k n je počet vzorů, které padnou do R n p n (x) je n-tý odhad pro p(x) –aby p n (x) konvergovalo k p(x), musí být splněno: lim n→∞ V n = 0 lim n→∞ k n = ∞ lim n→∞ k n /n = 0... ačkoliv velké množství vzorů padne do R n => musí to být jen malý vzorek z celkového počtu vzorů n

9 Odhady hustoty 2 nejčastější způsoby, jak získat tyto posloupnosti, aby splňovaly požadované podmínky: –zmenšovat počáteční oblast určením V n jako funkci n např. V n = 1 / √n pak je nutné ukázat, že náhodná veličina k n a k n /n se budou chovat „patřičně“ => metoda: Parzenovo okénko –určit k n jako funkci n např. k n = √n objem V n roste, dokud neobsahuje k n sousedů x => metoda: k-nejbližších sousedů

10 metoda na odhad hustoty, která předpokládá, že oblast R n je d-dimenzionální hyperkostka –hyperkostka se stranou h n má objem V n : V n = h n d –potřebujeme analyticky zjistit výraz pro k n počet vzorů, které padnou do hyperkostky, budeme definovat pomocí okénka: φ(u) = 1 |u j | ≤ 1/2 pro j=1,...,d 0 jinak => φ(u) definuje jednotkovou hyperkostku vycentrovanou v počátku okénko pro hyperkostku o objemu V n vycentrovanou v x má tvar: = 1 když x i padne do hyperkostky o objemu V n vycentrované v x 0 jinak Odhad hustoty pomocí metody Parzenova okénka

11 (*) počet vzorů, které padnou do této hyperkostky, je: tento výraz dosadíme do a dostaneme odhad hustoty p n (x): –aby byl odhad p n (x) funkcí hustoty, pak musí být nezáporný a integrovatelný –zde se snažíme aproximovat spojitou funkci p(x) pomocí nespojité skokové funkce φ(u) => náš odhad bude zatížen chybou Parzen tento odhad (*) zobecnil pomocí hladké funkce φ(u) –aby docílil toho, že odhad p n (x) bude hustotou => zavedel okénko tak, aby samo bylo funkcí hustoty: φ(u) ≥ 0 a ∫ φ(u)du = 1 => pomocí takového okénka bude funkce (*) již funkcí hustoty a okénko bude mít stejný jednotkový objem Odhad hustoty pomocí metody Parzenova okénka

12 Parzenovo okénko – vliv h n máme definované okénko a chceme zjistit, jak bude okénko ovlivňovat délka okénka h n : –zavedeme funkci δ n (x): –pomocí funkce δ n (x) vyjádříme p n (x): –protože V n =h n d => pak h n má vliv na amplitudu (výšku) i šířku funkce δ n (x)

13 Příklady Parzenova okénka δ n (x) je normalizována => na svislé ose jsou různá škálování příklad (dim=2) –Parzenovo okénko má tvar 2D-rotační symetrické normální funkce –je zachycen tvar funkce δ n pro 3 různé hodnoty h n

14 Vlastnosti Parzenova okénka nastavení h n : –h n velmi velké: amplituda δ n je malá (funkce je nízká) x musí být daleko od x i, aby se δ n (x-x i ) změnilo od δ n (0) –h n velmi malé: vrchol δ n (x-x i ) je vysoký a vrcholu se nabývá blízko x=x i p n (x) bude mít tvar ostrých výběžků vycentrovaných v trénovacích vzorech –h n dosáhne 0: δ n (x-x i ) je Diracova delta funkce vycentrovaná v x i

15 Příklady Parzenova okénka uvažujme Parzenovo okénko s parametry jako v přechozím případě nyní předložíme 5 trénovacích vzorů pro odhad hustoty p n (x) –získaný tvar p n (x) je uveden na obrázku (různé škálování na svislé ose)

16 Konvergence Parzenova okénka mluvíme o konvergenci posloupnosti náhodných proměnných –x je pevná hodnota h n => hodnota p n (x) závisí na trénovacích vzorech x 1,...,x n p n (x) má: –střední hodnotu –rozptyl σ n 2 (x) p n (x) konverguje k p(x), když: –pro důkaz konvergence je nutné zavést podmínky na hustotu p(x), okénkovou funkci φ(u) a délku okénka h n důkaz lze najít v literatuře

17 1. ilustrační příklad (dim=1) chceme odhadnout neznámou hustotu p(x) –ve skutečnosti má neznámá hustota normální rozdělení p(x) ~ N(0,1) –použijeme okénko, které má tvar Gaussovy funkce: –velikost h n definujeme jako: kde h 1 je parametr, který ovlivňuje šířku okénka a je nastavitelný uživatelem => p n (x) bude mít tvar:

18 1. ilustrační příklad – výsledky odhad neznámé hustoty p(x) ~ N(0,1) pomocí metody Parzenova okénka –různý parametr h 1 pro šířku okénka a různý počet vzorů n

19 1. ilustrační příklad – postřehy různé iniciální šířky okénka h 1 a různý počet vzorů n –svislá osa má různé škálování, aby byla vystižena struktura grafu –pro n→∞ jsou odhady stejné a odpovídají skutečné hustotě nezávisle na šířce okénka –n=1 p n (x) je jediná Gaussovka vycentrovaná v prvním vzoru –n=10 pro h 1 =0.1 je možné rozlišit příspěvky jednotlivých vzorů pro h 1 =0.5 nebo h 1 =1 situace se zlepší –pro rostoucí n se zlepšuje schopnost p n (x) rozlišit změny v p(x) –když je n velké p n (x) je citlivější na lokální nepravidelnosti ve vzorech (ač víme, že p n (x) bude konvergovat pro n →∞ k hladké křivce normálního rozdělení)

20 2. ilustrační příklad (dim=2) odhad neznámé hustoty p(x), která má ve skutečnosti dvourozměrné normální rozdělení –různý parametr h 1 pro šířku okénka a různý počet vzorů n (n=1 a n=10)

21 2. ilustrační příklad (dim=2) odhad neznámé hustoty p(x), která má ve skutečnosti dvourozměrné normální rozdělení –různý parametr h 1 pro šířku okénka a různý počet vzorů n (n=100 a n=∞)

22 3. ilustrační příklad (dim=1) neznámá hustota je směs uniformní a trojúhelníkové hustoty

23 3. ilustrační příklad – postřehy neznámá hustota je směs uniformní a trojúhelníkové hustoty n = 1 –dozvíme se více o okénkové funkci než o neznámé hustotě n = 16 –žádný z odhadů není dobrý n = 256, h 1 = 1 –výsledky začínají být přijatelné

24 v klasifikátoru založeném na Parzenově okénku se odhaduje hustota pro každou třídu vzor se klasifikuje podle odpovídající maximální aposteriorní pravděpodobnosti pro 2 třídy může klasifikátor vypadat: –x dáme do ω 1 (ω 2 ) když: Klasifikace založená na Parzenově okénku

25 Klasifikace – rozhodovací hranice rozhodovací hranice závisí na okénkové funkci φ a na šířce h –h malé => oblasti jsou komplikované –h velké => oblasti jsou jednodušší

26 Parzenovo okénko – závěr okénko úzké => malá chyba na trénovacích vzorech klasifikátor má klasifikovat i neznámé vzory –malá chyba na trénovacích vzorech negarantuje malou chybu na testovacích datech parametrické metody: –výhoda spočívá v obecnosti (+) –potřeba obrovského množství trénovacích dat (−) mnohem více než u metod, kde známe tvar hustoty funkce –časová i prostorová náročnost (−) požadavek na velké množství dat roste exponenciálně s dimenzí dat => „ prokletí dimenze “ mnohodimenzionální funkce mají potenciál být mnohonásobně složitější než nízko- dimenzionální funkce tyto komplikace se těžko poznají jediný způsob, jak obejít „ prokletí dimenze “ je přidat další informace o datech

27 Pravděpodobnostní neuronové sítě většina metod při rozpoznávání lze implementovat paralelně –lze použít neuronové sítě (NS) => zde se ukážeme použití NS na Parzenovo okénko uvažujem n d-dimenzionálních vzorů v c třídách –d vstupních jednotek (neuronů) –n „pattern“-neuronů –c výstupních neuronů, kterén přísluší jednotlivým třídám –vstupní neuron je spojen s každým „pattern“-neuronem –každý „pattern“-neuron je spojen s právě jediným výstupním neuronem

28 Pravděpodobnostní neuronové sítě spojení mezi vstupní a „pattern“-vrstvou představují váhy, které je nutné naučit každý „pattern“-neuron spočte skalární součin svého váhového vektoru a normalizovaného trénovacího vzoru z = w T x na výsledek skalárného součinu z se aplikuje funkce: exp [(z-1)/σ 2 ] každý neuron ve výstupní vrstvě spočte součet výstupů z „pattern“-neuronů, se kterými je spojen

29 Učení pravděpodobnostní neuronové sítě každý trénovací vzor je normalizován: síti je předložen první trénovací vzor x 1 : –váhy spojující vstupní jednotky a první „pattern“-neuron se nastaví na tento vzor: w 1 = x 1 –je vytvořena vazba od prvního „pattern“-neuronu k výstupnímu neuronu, který odpovídá třídě, kam x 1 patří tento proces se opakuje pro každý trénovací vzor: –váhy se nastaví na odpovídající vzory: w k = x k k=1,...,n –je vytvořena vazba mezi každým „pattern“-neuronem a výstupnímu neuronem, který odpovídá třídě, kam x k patří

30 Algoritmus učení značení: –x j = (x j1,..., x jn ) j=1,...,n –w j = (w j1,..., w jn ) j=1,...,n algoritmus: 1. begin initialize j←0, n, a ij ←0 j=1,...,n i=1,...,c 2. do j←j+1 3. x jk ← x jk / (Σx ji ) 2 // normalizace 4. w jk ← x jk // učení 5. if (x in ω i ) then a ij ←1 6. until j=n 7. end

31 Klasifikace pomocí neuronové sítě testovaný vzor je normalizován a poté je předložen vstupní vrstvě každý „pattern“-neuron spočte skalární součin net k : net k = w k T ∙x na net k je aplikována aktivační funkce: –kde σ je uživatelsky definovaný parametr, který určuje šířku Gaussova okénka každý výstupní neuron spočte součet příspěvků od jednotlivých „pattern“- neuronů, se kterými je spojen vazbou

32 Klasifikace pomocí neuronové sítě aktivační funkce musí být exponenciála, abychom při klasifikaci dostali Parzenovo okénko: protože w k T ∙w k =1 a x T ∙x =1 a h n je konstanta výstup „pattern“-neuronu: –odpovídá pravděpodobnosti, že testovaný vzor byl generován Gaussovkou umístěnou ve středu tohoto trénovacího vzoru –součet těchto lokálních odhadů dá diskriminant funkci g i (x).... odhad hustoty pomocí Parzenova okénka –max g i (x) dá hledanou třídu pro testovaný vzor x

33 Algoritmus klasifikace algoritmus: 1. begin initialize k←0, x←tested_pattern 2. do k←k+1 3. net k ← w k T ∙ x 4. if (a ki =1) then g i ←g i +exp((net k -1)/σ 2 ) 5. until k=n 6. return class←argmax i (g i (x)) 7. end vlastnosti popsané neuronové sítě: –výhodou je rychlost učení – stačí jeden průchod trénovací množinou –prostorová složitost je úměrná počtu vazeb O((n+1)d) –lze použít online učení nový vzor lze snadno zabudovat do již naučeného modelu

34 Odhad hustoty pomocí k n -nejbližších sousedů chceme najít „nejlepší“ okénko => uděláme ho závislé na trénovacích datech princip odhadu hustoty p n (x) z n trénovacích vzorů: –uděláme okénko okolo x –toto okénko zvětšujeme, dokud v něm není k n vzorů => tyto vzory nazveme k n -nejbližších sousedů k bodu x hustota blízko bodu x je: –velká => okénko bude relativně malé a dostaneme dobré rozlišení –malá => okénko bude široké a zastaví se, až narazí na nějakou oblast s velkou hustotou odhad hustoty je –chceme, aby k n →∞ pro n →∞ –to nám zaručí, že k n /n bude dobrý odhad pravděpodobnosti

35 Odhad hustoty pomocí k n -nejbližších sousedů – postřehy postřeh: –ačkoliv p n (x) je spojitá => její gradient není spojitý –navíc body nespojitosti gradientu jsou málokdy na pozici trén. vzorů odhad hustoty pomocí 3- a 5- nejbližších sousedů (dim=1) odhad hustoty pomocí 5-nejbližších sousedů (dim=2)

36 Porovnání metody k n -nejbližších sousedů a Parzenova okénka uvažujeme dřívější příklad: –odhadujeme uniformní a trojúhelníkové hustoty pro n =1, 16, 256, ∞ Parzenovo okénko k n -nejbližších sousedů

37 Metoda k n -nejbližších sousedů – postřehy n = 1 a k n = √n =1 –odhad hustoty má tvar p n (x) = 1/(2|x-x 1 |) –a to je velmi špatný odhad hustoty pro rostoucí n se odhad zlepšuje, ale: ∫ p n (x)=∞.... špatné (má být 1) tato nepříjemná skutečnost je kompenzována faktem, že p n (x) se nikdy nepřiblíží k 0 –nikdy nemůža nastat situace, že žádný vzor nespadne do okénka (okénko je konstruováno tak, aby v něm bylo právě k n vzorů) –toto se hodí pro mnohorozměrné prostory

38 Klasifikace založená na metodě k-nejbližších sousedů pro jednoduchost uvažujeme jen 2 třídy ω 1 a ω 2 postup: –předložíme neznámý vzor x a zjistíme (Eukleidovskou) vzdálenost k trén. vzorům –označme r 1 (r 2 ) poloměr hyperkoule se středem v x, které obsahuje k trénovacích bodů z ω 1 (ω 2 ) –označme V 1 (V 2 ) objem těchto hyperkoulí –vzor x bude klasifikován do ω 1 (ω 2 ), když: poznámky: –hodnota k může být různá pro jednotlivé třídy –když se místo Eukleidovské vzdálenosti použije Mahalanobisova vzdálenost => dostaneme hyperelipsoidy

39 Odhad aposteriorní pravděpodobnosti popsané metody lze použít nejen k odhadu hustoty ve třídě, ale také k odhadu aposterironí pravděpdoobnosti P(ω i |x) z n trénovacích vzorů –umístíme okénko o velikosti V okolo x, které bude mít k trénovacích vzorů –nechť k i z k trénovacích vzorů patří do třídy ω i => rozumný odhad P n (ω i |x) = k i / k –v případě klasifikátoru založením na minimální pravděpodobnosti chyby vybíráme třídu, která je nejvíce reprezentována v daném okénku –když máme dostatek trénovacích vzorů a dostatečně malé okénko => dostaneme dobré výsledky poměr počtu vzorů v okénku, které padnou do dané třídy ku počtu vzorů v okénku

40 Metody odhadu hustoty - shrnutí metody na odhad hustoty: –Parzenovo okénko definujeme, jak se má zvětšovat objem okénka V n je funkcí n např. V n = 1/√n –k n -nejbližších sousedů definujeme, kolik vzorů má okénko obsahovat - V n se zvětšuje, dokud nemá k n vzorů k n je funkcí n např. k n = √n když n→∞, pak nekonečně vzorů padne do okénka

41 Pravidlo nejbližšího souseda základní princip pravidla: –označme D n = {x 1,..., x n } množinu n „označkovaných prototypů“ (tj. trénovací vzory, u kterých máme značku, do jakých tříd patří) –označme x neznámý bod, který máme klasifikovat –označme x’ z množiny D n prototyp, který je nejblíž k x –pravidlo nejbližšího souseda klasifikuje vzor x do třídy, kam patří x’ vlastnosti pravidla: –pravidlo nejbližšího souseda je suboptimální –typicky vede k horší chybě pravděpodobnosti než je minimální možná chyba –lze ukázat, že s nekonečným množstvím trénovacích vzorů pravděpodobnost chyby není nikdy horší než dvojnásobek Bayesovské pravděpodobnosti chyby

42 Proč funguje pravidlo nejbližšího souseda? označme θ’ značku třídy, kam patří nejbližší soused –pravděpodobnost, že θ’=ω i, je aposteriorní pravděpodobnost P(ω i |x’) –když je počet vzorů velký můžeme předpokládat, že x’ je dostatečně blízko k x tedy P(ω i |x’) ≈ P(ω i |x) => toto je pravděpodobnost, že vzor x bude ve třídě ω i => pravidlo nejbližšího souseda bude „přiřazovat“ tyto pravděpodobnosti ke třídám pravidlo nejbližšího souseda rozdělí příznakový prostor do oblastí: –oblast je tvořena všemi body, které jsou bližší trénovacímu bodu x’ než k ostatním trénovacím vzorům –všechny body v jedné oblasti jsou označkovány třídou, jakou má „jejich“ trénovací vzor –dostaneme tzv. Voronoiovu mozaiku

43 Pravidlo nejbližšího souseda – Voronoiova mozaika dim=2... pravidlo rozdělí prostor do n-úhelníkových oblastí dim=3... oblasti jsou 3D a dělicí rozvnice mají tvar krystalu

44 Pravidlo nejbližšího souseda – vlastnosti označme ω m nejpravděpodobnější třídu pro bod x: když P(ω m |x) je blízko 1 –výběr nejbližšího souseda je téměř shodný jako Bayesovský výběr –když minumum chybné pravděpodobnosti je malé => pravděpodobnost chyby při metodě nejbližšího souseda je také malá když P(ω m |x) je blízko 1/c –všechny třídy jsou zhruba stejně pravděpodobné –výběr Bayesovským pravidlem i pravidlem nejbližšího souseda jsou zřídkakdy stejné –pravděpodobnosti chyby je přibližně stejná u obou metod

45 Pravidlo nejbližšího souseda – vlastnosti značení – P n (e) je průměrná pravděpodobnost chyby na n trénovacích vzorech – lze ukázat, že platí: –lze najít vztah mezi chybou Bayesovské klasifikace a klasifikace pomocí nejbližšího souseda pro nekonečně trénovacích vzorů jak je to pro konečně trénovacích vzorů? –je vynakládáno velké úsilí na tento problém, ale všechny výsledky pro obecný případ jsou negativní –lze ukázat, že konvergence může být libovolně pomala a chyba P n (e) se dokonce ani nemusí monotónně snižovat (pro rostoucí n) –je těžké cokoliv analyticky spočítat, když neuděláme další předpoklady o pravděpodobnostní struktuře zvoleného problému minimální možná chyba klasifikace (Bayesovská klasifikace)

46 Pravidlo k-nejbližších sousedů zobecnění metody nejbližšího souseda idea: –vzor x je klasifikován do třídy, která je nejvíce zastoupena mezi k nejbližšími trénovacími vzory k neznámému vzoru najdeme jeho k nejbližších sousedů (trénovacích vzorů) a zjistíme jejich třídy třída, která má „největší počet hlasů“, zvítězí máme vzor x do bodu x umístíme sférickou oblast tuto sférickou oblast rozšiřujeme, dokud neobsahuje k trénovacích vzorů zjistíme „počet hlasů“ zde je k=5 a tak x je klasifikován do množiny černých bodů

47 Zlepšení výpočetní složitosti nejbližšího souseda v literatuře existuje mnoho analýz týkající se výpočetné složitosti této metody (pro dim=1 a dim=2) zde se zaměříme na mnohodimenzionální prostory –nechť máme n trénovacích vzorů dimenze d a hledáme trénovací vzor, který je nejblíže neznámému vektoru x 2 základní techniky, jak lze snížit výpočetní složitost –metoda částečné vzdálenosti –eliminace zbytečných prototypů

48 Metoda částečné vzdálenosti definujeme r: r nepočítáme dál –když částečná vzdálenost je větší než celá vzdálenost pro doposud nejbližší vzor, pak nemusíme počítat dál

49 Eliminace zbytečných prototypů editace/čistění/kondenzace metoda eliminuje prototypy, v jejichž okolí jsou jen trénovací vzory ze stejné třídy –tyto prototypy můžeme odstranit –rozhodovací hranice i celková chyba se nezmění algoritmus: 1. begin initialize j←0, D←trénovací_data, n←počet_prototypů 2.vytvoř úplný Voronoi diagram z množiny D 3.do j←j+1; pro každý prototyp x j ’ 4. najdi Voronoiovy sousedy k x j ’ 5. if (některý soused je z jiné třídy než x j ’) then označ x j ’ 6.until j=n 7.odstraň všechny neoznačené prototypy 8.vytvoř Voronoi diagram ze zbývajících (označených) prototypů 9. end

50 prototyp zůstane zachován: –když prototyp přispívá k rozhodovací hranici (tedy aspoň jeden z jeho sousedů patří k jiné třídě) vlastnosti metody: –algoritmus negarantuje minimální množinu prototypů (–) –algoritmus sníží výpočetní složitost, aniž by se měnila přesnost výpočtu (+) –nelze dodatečně přidávat trénovací data do „vyčištěného“ modelu (–) k vyčištení je potřeba znalost všech trénovacích dat Eliminace zbytečných prototypů

51 doposud jsme uvažovali jen Eukleidovskou vzdálenost –lze použít i jiné metriky vlastnosti metriky: –nezápornost: D(a,b) ≥ 0 –reflexivita: D(a,b) = 0 jen když a = b –symetrie: D(a,b) = D(b,a) –trojúhelníková nerovnost: D(a,b) + D(b,c) ≥ D(a,c) nejběžnější metriky: –Eukleidovská metrika: –Minkowského metrika: Metriky pro metody nejbližších sousedů

52 Minkowského metrika: –k=1... Manhatannovská vzdálenost (vzdálenost městských bloků) –k=2... Eukleidovslá vzdálenost (vzdálenost městských bloků) –k=∞... projekce a, b na jednotlivé souřadnicové osy na jednotlivých souřadnicových osách najdeme vzdálenosti promítnutých bodů L ∞ je maximum mezi vzdálenostmi v jednotlivých souřadnicových osách Metriky pro metody nejbližších sousedů každá výplň odpovídá bodům ve vzdálenosti 1 od počátku měřeno Minkowského metrikou

53 ne vždy se hodí Eukleidovská metrika např. prostor je transformován tak, že každá ze souřadnicových os se vynásobí nějakou konstantou –Eukleidovské vzdálenosti ve transformovaném prostoru mohou být odlišné od vzdáleností v původním prostoru –toto může mít vliv na nalezení nejbližšího souseda Metriky pro metody nejbližších sousedů vlevo je předložen x v původním prostoru => nejbližší bod je černý bod vpravo je transformovaný prostor, kde byla osa x vynásobena konstantou α=1/3 => nejbližší bod je červený bod

54 Eukleidovská metrika má také problém s invariancí vůči posunutí Metriky pro metody nejbližších sousedů na obrázku x’ reprezentuje ručně psanou cifru 5 x’(s=3) je stejná cifra jen posunutá o 3 pixely doprava x 8 je ručně psaná cifra 8 Eukleidovská vzdálenost D(x’,x’(s=3)) > D(x’,x 8 ) => tedy klasifikátor bude fungovat špatně na grafu dole je zachycena vzdálenost původní a posunuté cifry 5 v závislosti na velikosti posunutí když s>1 pak D(x’,x’(s)) > D(x’,x 8 ) => tedy klasifikace je chybná

55 tato metrika je výpočetně náročná, ale je invariantní vůči základním transformacím uvažujme r transformací –horizontální a verikální posun, rotace, škálování, čárové ztenčení,.... konstrukce klasifikátoru –vezmene každý prototyp x’ a aplikujeme jednotlivé transformace F i (x’,α i ) –vytvoříme tangentový vektor TV i pro každou transformaci i TV i = F i (x’,α i ) - x’ –tangentové vektory TV i pro x’ dáme do matice T Tangentová metrika a klasifikátor např. F i (x’,α i ) je rotace o malý úhel α i

56 klasifikace neznámého vektoru x –pro každý prototyp x’ spočteme tangentovou vzdálenost –najdeme prototyp s minimální tangentovou vzdáleností od x Tangentová metrika a klasifikátor minimální hodnotu a najdeme např. metodami diferenciálního počtu

57 prototyp ručně psané cifry 5 (v levém dolním rohu) byl ovlivněn 2 transformacemi – rotací a čárovým ztenčením Tangentová metrika a klasifikátor – příklad dostaneme 2 tangentové vektory TV 1 a TV 2 (jsou nakresleny vně os) každý z 16 obrázků uvnitř os reprezentuje prototyp + lineární kombinace tangentových vektorů s koeficienty a 1, a 2 x’ tan = x+a 1 TV 1 +a 2 TV 2 malé červené číslo v obrázku je Eukleidovská vzdálenost mezi prototypem a tangentovou aproximací x’ tan Eukleidovská vzdálenost je 0 pro: a 1 = 1, a 2 = 0 a 1 = 0, a 2 = 1 a 1 = 0, a 2 = 0

58 Tangentová metrika a klasifikátor – příklad prototyp x’, který je kombinací dvou základních transformací, spadne na povrch mnoharozměrné plochy (šedá plocha) tangentový prostor prototypu x’ je r-dimenzionální Eukleidovský prostor určený tangentovými vektory (zde TV 1 a TV 2 ) tangentová vzdálenost D tan (x, x’) je nejmenší Eukleidovská vzdálenost od bodu x k tangentovému prostoru bodu x’ (červená čára k roviny k bodům x 1 a x 2 ) Eukleidovská vzdálenost od x’ k x 1 je menší než k bodu x 2 ale u tangentové vzdálenosti je situace je obrácená Eukleidovská vzdálenost od x 2 k tangentovému prostoru x’ je kvadratická funkce proměnné a (červený paraboloid) pomocí jednoduché gradientní metody snadno najdeme optimální hodnotu pro parametr a pomocí nalezené hodnoty a spočteme tangentovou vzdálenost D tan (x 2, x’)


Stáhnout ppt "Neparametrické metody. obsah: –princip odhadu hustoty odhad hustoty pomocí metody Parzenova okénka pravděpodobnostní neuronové sítě odhad hustoty pomocí."

Podobné prezentace


Reklamy Google