Rozpoznávání vzorů bez učitele (klastrování)

Rozpoznávání vzorů bez učitele (klastrování)

Rozpoznávání vzorů bez učitele (klastrování)
obsah popis dat pro klastrování míry podobnosti vzdálenosti nemetrické podobnosti kriteriální funkce kritérium součtu čtverců chyb kritérium minimálního rozptylu kritérium determinantu invariantní kritérium iterativní optimalizace

Rozpoznávání vzorů bez učitele
doposud: zatím jsme uvažovali, že trénovací data mají „značku“ třídy, kam patří (učení klasifikátoru s učitelem) nyní: zaměříme se na učení bez učitele (nemáme informaci, do jaké třídy má trénovací vzor patřit) důvody pro tento přístup: sbírání velkých dat a jejich značkování je velmi náročné získat nahrávky řeči je snadné, ale označení jednotlivých fonémů v řeči je pracné chceme použít velké neoznačkované množiny pro naučení klasifikátoru a malé označkované množiny použijeme pro testování klasifikátoru data mining pomocí učení bez učitele lze najít příznaky, které mohou být užitečné pro další kategorizaci v prvních fázích výzkumu nám tyto metody pomohou dát vhled do struktury problému najdeme skupiny vzorů, které mají podobné vlastnosti

Popis dat a klastrování
cíl: zjistit strukturu mnohorozměrných neoznačených vzorů geometricky: d-rozměrné vzory mohou vytvářet shluky bodů v d-rozměrném prostoru a ty chceme najít příklad nechť víme, že body jsou z normálního rozdělení rozdělení popisuje střední hodnota vzorů a kovariační matice vzorů střední hodnota vzorů střed shluku tedy na shluk můžeme nahlížet jako na jediný bod m, který nejlépe reprezentuje data ve smyslu minimalizace sumy mocnin vzdálenosti m od vzorů kovarianční matice dat popisuje velikost rozptylu dat v jednotlivých směrech okolo m když data pocházejí z normálního rozdělení shluk má eliptický tvar střední hodnota dat má tendenci být v místě největší koncentrace dat

problém: když vzory nemají normální rozdělení, pak získané statistiky (střední hodnota a kovarianční matice) dají velmi zavádějící popis dat na obrázku jsou 4 sady dat, které mají stejnou střední hodnotu a kovarianční matici ale tyto údaje neodhalily celou strukturu dat

jiný předpoklad: vzory pocházejí ze směsi c normálních rozdělení => lépe můžeme odhadnout strukturu toto odpovídá faktu, že vzory spadnou do eliptických shluků různých velikostí a orientace když je počet vzorů v jednotlivých shlucích dostatečně velký => můžeme teoreticky aproximovat libovolnou hustotu shluků problém odhadu parametrů rozdělení není triviální navíc typicky máme jen velmi málo apriorních informací o povaze problému => při odhadu parametrů dostaneme jen velmi „slabé“ nebo dokonce nesmyslné výsledky řešení: místo hledání struktury v datech zavedeme na datech strukturu neparametrické metody k odhadu neznámé hustoty (např. Parzenovo okénko, ...) když je metoda přesná, pak výsledkem je úplný popis toho, co se můžeme z dat naučit oblasti s velkou hustotou na daném okolí, které mohou odpovídat významným třídám v datech, lze najít jako vrcholy při odhadu hustoty klastrování

Klastrování klastrování formálně: nevýhody:
metody dají popis dat ve smyslu shluků bodů, které vykazují velký stupeň vzájemné podobnosti formálně: metoda klastrování používá kriteriální funkci např. součet mocnin vzdáleností od středu shluku a hledá se takové uspořádání shluků, které dá extrém kriteriální funkce nevýhody: někdy tyto metody mohou být výpočetně náročné

Míry podobnosti klastrování
problém nalezení „přirozených“ shluků v datech potřebujeme definovat, co to znamená „přirozené shluky“ ... míra podobnosti nejčastěji je mírou podobnosti vzdálenost dvou vzorů můžeme definovat vhodnou metriku a počítat matici vzdáleností mezi všemi dvojicemi vzorů pokud je vzdálenost dobrou mírou podobnosti vzdálenost mezi vzory ve stejném shluku bude výrazně menší než mezi vzory z různých shluků

Míry podobnosti příklad:
uvažujme, že vzory padnou do stejného shluku, když Eukleidovská vzdálenost je menší než prahová hodnota d0 d0 příliš velká .... všechny vzory padnou do 1 shluku d0 příliš malá .... každý vzor vytvoří svůj vlastní shluk abychom dostali „přirozené“ shluky d0 musí být větší než typická velikost uvnitř shluku d0 musí být menší než typická velikost mezi shluky spojnice jsou mezi body ve stejném shluku

Míry podobnosti výsledek shlukování závisí na volbě míry podobnosti
výběr je obzvášť důležitý, když data jsou rozmístěna stejnoměrně ve všech směrech uvažujme opět Eukleidovskou vzdálenosti jako míru podobnosti klastry definované Eukleidovskou vzdáleností budou invariantní vůči posunutí a rotaci v příznakovém prostoru nebudou invariantní obecně vůči lineární transformaci jednoduché škálování os může způsobit různé shluky původní data svislá osa .... koeficient 0,5 vodorovná osa ... koeficient 2

Normalizace dat invariance dat lze dosáhnout např normalizací dat
invariance vůči posunutí a škálování posuneme a naškálujeme data tak, aby všechny příznaky měly nulovou střední hodnotu a jednotkový rozptyl invariance rotaci otočíme osy tak, aby souhlasily s vlastními vektory kovarianční matice vzorů .... tzv. hlavní komponenty problém: ne vždy je normalizace žádána když data padnou do dobře oddělených shluků => normalizace do jednotkového rozptylu poničí oddělené shluky

Míry podobnosti vzdálenosti nemetrické podobnosti .... s(x,x’)
Minkowského metrika (pro q≥1) Mahalanobisova vzdálenost nemetrické podobnosti .... s(x,x’) srovnávají dva vektory x a x’ typicky je to symetrická funkce, která dá velkou hodnotu, když x a x’ jsou „podobné“ míra podobnosti pomocí kosinu úhlu 2 vektorů

Míry podobnosti míra podobnosti pomocí kosinu úhlu 2 vektorů
když jsou příznaky binární, pak funkce podobnosti má negeometrickou interpretaci nechť vzor x má i-tý atribut, když xi = 1 xT∙x’ .... počet atributů, které mají oba vektory x a x’ ║x║∙║x’║ = (xT∙x∙x’T∙x’)1/2 ... geometrický průměr počtu atributů, které má x, a počtu atributů, které má x’ tedy s(x,x’) udává relativní počet společných atributů

Míry podobnosti další míry podobnosti
=> „procento“ sdílených stributů => poměr počtu sdílených atributů k počtu atributů, které má x nebo x’ .... Tanimoto vzdálenost používá se v „information retrieval“ nebo při biologické taxonometrii

Kriteriální funkce pro klastrování
víme, jak „měřit podobnost“ potřebujeme určit kriteriální funkci, kterou později budeme optimalizovat nechť množina D ={x1, ..., xn} má n vzorů, které chceme rozdělit do c disjunktních podmnožin D1, ..., Dc každá podmnožina reprezentuje shluk vzorů, které jsou si vzájemně více podobnější než se vzory z jiných shluků některé kriteriální funkce kritérium součtu čtverců chyb kritérium minimálního rozptylu kritérium determinantu invariantní kritérium

Kriteriální funkce – kritérium součtu čtverců chyb
nejběžnější značení ni ... počet vzorů v Di mi ... střední hodnota vzorů v Di součet čtverců chyb se definuje: nejlepším reprezentantem shluku Di je vektor středních hodnot mi minimalizuje součet mocnin délek vektorů chyb (x-mi) Je měří celkovou mocninu chyb v n vzorech x1, ... ,xn, které jsou rozděleny do c shluků se středy m1,...,mc

kritérium Je závisí na tom, jak jsou vzory uskupeny do shluků a na počtu shluků optimální rozdělení je takové, které minimalizuje Je .... tzv. minimální odchylka kritérium se hodí pro: kompaktní shluky, které jsou dobře oddělitelné jeden od druhého problém nastane: když počet vzorů v jednotlivých shlucích je hodně odlišný => může se stát, že dojde k rozdělení velkého kompaktného shluku a tím se naruší integrita shluků kritérium nenajde skutečnou strukturu a dojde ke špatnému rozdělení shluků na dolním obrázku

pomocí algebry můžeme předchozí kritérium Je upravit odstraníme střední hodnoty ze vztahu a dostaneme ekvivalentní výraz ŝi můžeme interpretovat jako průměrnou mocninu vzdálenosti mezi body v i-tém shluku toto zvýrazní fakt, že kritérium součtu čtverců používá Eukleidovskou vzdálenost jako míru podobnosti jiná kritéria dostaneme snadno – nahradíme ŝi

Kriteriální funkce – kritérium minimálního rozptylu
další kritéria dostaneme ze součtu čtverců chyb nahrazením výrazu ŝi nahradíme ŝi za např. medián, průměr nebo maximální vzdálenost mezi body ve shluku více obecně: do ŝi dosadíme libovolnou funkci podobnosti s(x,x’) nebo optimální rozdělení je takové, které najde extrém kriteriální funkce

Kriteriální funkce – kritérium determinantu
kritérium je založené na matici rozptylu kritérium determinantu je definováno: a ∑Si není singulární matice rozdělení, které minimalizuje Jd je velmi podobné tomu, které minimalizuje Je ale nemusí být stejné (viz obrázek dále) je matice rozptylu pro i-tý shluk

Kriteriální funkce – invariantní kritérium
kritérium je také založené na matici rozptylu pojmy: matice rozptylu shluků: matice rozptylu „mezi shluky“: λ1,..., λd vlastní čísla matice (SW)-1SB

Kriteriální funkce – invariantní kritérium
vlastní čísla jsou invariantní vůči většině lineárních transformací a tedy použijeme je pro kritérium invariantní kritérium je definováno: toto kritérium se snažíme maximalizovat

Kriteriální funkce – příklad
předkládaná data nevykazují žádné zřejmé shluky pro klastrování použijeme 3 kriteriální funkce Je ... kritérium součtu čtverců chyb Jd ... kritérium determinantu Jf ... invariantní kritérium

Iterativní optimalizace
pokud si zvolíme kriteriální funkci => problém klastrování se stane problémem diskrétní optimalizace chceme najít takové rozdělení shluků, které dá extrémální hodnotu kriteriální funkce existuje cn/c! způsobů jak rozdělit n vzorů do c tříd exponenciálně mnoho => nelze zkoušet jednotlivá rozdělení => použijeme metodu iterativní optimalizace princip iterativní optimalizace zvolíme počáteční rozdělení vzorů do shluků postupně přesouváme vzory z jedné třídy do jiné, když se zlepšuje hodnota kriterální funkce nevýhody této metody: metoda garantuje jen lokální optimalizaci (ne globální) různé počáteční rozdělení vedou k různým řešením a nelze říci, zda jsme našli nejlepší řešení nebo ne

Iterativní optimalizace - odvození metody
postupně zlepšujeme hodnotu kriteriální funkce jako kriteriální funkci uvažujeme sumu čtverců chyby ... Je Ji je chyba ve shluku Di mi je střední hodnota ve shluku Di vzor x' byl ve shluku Di a nyní ho přesuneme do shluku Dj ve shluku Dj i Di se změní střední hodnota mj a mi ve shluku Dj vzroste hodnota kriteriální funkce Jj ve shluku Di poklesne hodnota kriteriální funkce Ji

po přesunutí vzoru x' ze shluku Di do shluku Dj změní se střední hodnota mj vzroste hodnota kriteriální funkce Jj

po přesunutí vzoru x' ze shluku Di do shluku Dj změní se střední hodnota mi klesne hodnota kriteriální funkce Ji můžeme předpokládat, že ni ≠ 1, protože shluky s jedním vzorem nebudou zrušeny

po přesunutí vzoru x' ze shluku Di do shluku Dj je výhodné, když pokles v Ji je větší než nárůst v Jj a to se typicky stane, když x' je blíže k mj než k mi tedy pro x' z Di hledáme shluk Dj, kde je minimální

Iterativní optimalizace - algoritmus
1. begin inicializace n, c, m1,...,mc 2. do náhodně vyber vzor x’ i←argmink ║mk-x’║ // klasifikace x’ if (ni ≠ 1) then spočti pro každé j: if (j=i) then rj = (nj/(nj-1))∙║mi-x’║2 else rj = (nj/(nj+1))∙║mj-x’║2 k = argminj rj přesuň x’ z Di do Dk přepočti Je, mi, mk 12. until Je se v n krocích nezmění 13. return m1,..., mc 14. end

Iterativní optimalizace - poznámky
vlastnosti metody: tato metoda může snadno uvíznout v lokálním minimu (-) výsledky jsou závislé na pořadí výběru vzorů (-) v daném kroku je metoda optimální (+) snadno lze metodu modifikovat pro online učení (+) metoda závisí na počátečním rozdělení: bohužel není žádné a jednoduché a univerzální řešení, jak nalézt dobré počáteční rozdělení 1. vybrat náhodně c vzorů a ty prohlásit za počáteční středy shluků 2. k nalezení počátečního rozdělení pro c shluků použijeme řešení pro problému pro c-1 shluků pro 1 shluk .... počáteční střed v střední hodnotě všech vzorů pro c shluků .... počáteční rozdělení použije finální hodnoty shluků v problému s c-1 shluky a vzor, který je nejvzdálenější od svého nejbližšího středu shluku

Rozpoznávání vzorů bez učitele (klastrování)

Podobné prezentace

Prezentace na téma: "Rozpoznávání vzorů bez učitele (klastrování)"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Rozpoznávání vzorů bez učitele (klastrování)

Podobné prezentace

Prezentace na téma: "Rozpoznávání vzorů bez učitele (klastrování)"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář