Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Rozpoznávání vzorů bez učitele (klastrování). obsah –popis dat pro klastrování –míry podobnosti vzdálenosti nemetrické podobnosti –kriteriální funkce.

Podobné prezentace


Prezentace na téma: "Rozpoznávání vzorů bez učitele (klastrování). obsah –popis dat pro klastrování –míry podobnosti vzdálenosti nemetrické podobnosti –kriteriální funkce."— Transkript prezentace:

1 Rozpoznávání vzorů bez učitele (klastrování)

2 obsah –popis dat pro klastrování –míry podobnosti vzdálenosti nemetrické podobnosti –kriteriální funkce kritérium součtu čtverců chyb kritérium minimálního rozptylu kritérium determinantu invariantní kritérium –iterativní optimalizace

3 doposud: –zatím jsme uvažovali, že trénovací data mají „značku“ třídy, kam patří (učení klasifikátoru s učitelem) nyní: –zaměříme se na učení bez učitele (nemáme informaci, do jaké třídy má trénovací vzor patřit) důvody pro tento přístup: –sbírání velkých dat a jejich značkování je velmi náročné získat nahrávky řeči je snadné, ale označení jednotlivých fonémů v řeči je pracné –chceme použít velké neoznačkované množiny pro naučení klasifikátoru a malé označkované množiny použijeme pro testování klasifikátoru data mining –pomocí učení bez učitele lze najít příznaky, které mohou být užitečné pro další kategorizaci –v prvních fázích výzkumu nám tyto metody pomohou dát vhled do struktury problému najdeme skupiny vzorů, které mají podobné vlastnosti Rozpoznávání vzorů bez učitele

4 cíl: –zjistit strukturu mnohorozměrných neoznačených vzorů –geometricky: d-rozměrné vzory mohou vytvářet shluky bodů v d-rozměrném prostoru a ty chceme najít příklad –nechť víme, že body jsou z normálního rozdělení rozdělení popisuje střední hodnota vzorů a kovariační matice vzorů –střední hodnota vzorů střed shluku tedy na shluk můžeme nahlížet jako na jediný bod m, který nejlépe reprezentuje data ve smyslu minimalizace sumy mocnin vzdálenosti m od vzorů –kovarianční matice dat popisuje velikost rozptylu dat v jednotlivých směrech okolo m –když data pocházejí z normálního rozdělení shluk má eliptický tvar střední hodnota dat má tendenci být v místě největší koncentrace dat Popis dat a klastrování

5 problém: –když vzory nemají normální rozdělení, pak získané statistiky (střední hodnota a kovarianční matice) dají velmi zavádějící popis dat Popis dat a klastrování na obrázku jsou 4 sady dat, které mají stejnou střední hodnotu a kovarianční matici ale tyto údaje neodhalily celou strukturu dat

6 jiný předpoklad: –vzory pocházejí ze směsi c normálních rozdělení => lépe můžeme odhadnout strukturu toto odpovídá faktu, že vzory spadnou do eliptických shluků různých velikostí a orientace –když je počet vzorů v jednotlivých shlucích dostatečně velký => můžeme teoreticky aproximovat libovolnou hustotu shluků problém odhadu parametrů rozdělení není triviální navíc typicky máme jen velmi málo apriorních informací o povaze problému => při odhadu parametrů dostaneme jen velmi „slabé“ nebo dokonce nesmyslné výsledky řešení: místo hledání struktury v datech zavedeme na datech strukturu –neparametrické metody k odhadu neznámé hustoty (např. Parzenovo okénko,...) když je metoda přesná, pak výsledkem je úplný popis toho, co se můžeme z dat naučit oblasti s velkou hustotou na daném okolí, které mohou odpovídat významným třídám v datech, lze najít jako vrcholy při odhadu hustoty –klastrování Popis dat a klastrování

7 klastrování –metody dají popis dat ve smyslu shluků bodů, které vykazují velký stupeň vzájemné podobnosti formálně: –metoda klastrování používá kriteriální funkci např. součet mocnin vzdáleností od středu shluku a hledá se takové uspořádání shluků, které dá extrém kriteriální funkce nevýhody: –někdy tyto metody mohou být výpočetně náročné Klastrování

8 klastrování –problém nalezení „přirozených“ shluků v datech –potřebujeme definovat, co to znamená „přirozené shluky“... míra podobnosti nejčastěji je mírou podobnosti vzdálenost dvou vzorů –můžeme definovat vhodnou metriku a počítat matici vzdáleností mezi všemi dvojicemi vzorů –pokud je vzdálenost dobrou mírou podobnosti vzdálenost mezi vzory ve stejném shluku bude výrazně menší než mezi vzory z různých shluků Míry podobnosti

9 příklad: –uvažujme, že vzory padnou do stejného shluku, když Eukleidovská vzdálenost je menší než prahová hodnota d 0 d 0 příliš velká.... všechny vzory padnou do 1 shluku d 0 příliš malá.... každý vzor vytvoří svůj vlastní shluk –abychom dostali „přirozené“ shluky d 0 musí být větší než typická velikost uvnitř shluku d 0 musí být menší než typická velikost mezi shluky spojnice jsou mezi body ve stejném shluku Míry podobnosti

10 výsledek shlukování závisí na volbě míry podobnosti –výběr je obzvášť důležitý, když data jsou rozmístěna stejnoměrně ve všech směrech –uvažujme opět Eukleidovskou vzdálenosti jako míru podobnosti klastry definované Eukleidovskou vzdáleností budou invariantní vůči posunutí a rotaci v příznakovém prostoru nebudou invariantní obecně vůči lineární transformaci jednoduché škálování os může způsobit různé shluky Míry podobnosti původní data svislá osa.... koeficient 0,5 vodorovná osa... koeficient 2

11 invariance dat lze dosáhnout např normalizací dat –invariance vůči posunutí a škálování posuneme a naškálujeme data tak, aby všechny příznaky měly nulovou střední hodnotu a jednotkový rozptyl –invariance rotaci otočíme osy tak, aby souhlasily s vlastními vektory kovarianční matice vzorů.... tzv. hlavní komponenty problém: –ne vždy je normalizace žádána když data padnou do dobře oddělených shluků => normalizace do jednotkového rozptylu poničí oddělené shluky Normalizace dat

12 vzdálenosti –Minkowského metrika (pro q≥1) –Mahalanobisova vzdálenost nemetrické podobnosti.... s(x,x’) –srovnávají dva vektory x a x’ –typicky je to symetrická funkce, která dá velkou hodnotu, když x a x’ jsou „podobné“ –míra podobnosti pomocí kosinu úhlu 2 vektorů Míry podobnosti

13 míra podobnosti pomocí kosinu úhlu 2 vektorů když jsou příznaky binární, pak funkce podobnosti má negeometrickou interpretaci –nechť vzor x má i-tý atribut, když x i = 1 –x T ∙x’.... počet atributů, které mají oba vektory x a x’ –║x║∙║x’║ = (x T ∙x∙x’ T ∙x’) 1/2... geometrický průměr počtu atributů, které má x, a počtu atributů, které má x’ –tedy s(x,x’) udává relativní počet společných atributů Míry podobnosti

14 další míry podobnosti => „procento“ sdílených stributů => poměr počtu sdílených atributů k počtu atributů, které má x nebo x’.... Tanimoto vzdálenost –používá se v „information retrieval“ nebo při biologické taxonometrii Míry podobnosti

15 víme, jak „měřit podobnost“ potřebujeme určit kriteriální funkci, kterou později budeme optimalizovat nechť množina D ={x 1,..., x n } má n vzorů, které chceme rozdělit do c disjunktních podmnožin D 1,..., D c každá podmnožina reprezentuje shluk vzorů, které jsou si vzájemně více podobnější než se vzory z jiných shluků některé kriteriální funkce –kritérium součtu čtverců chyb –kritérium minimálního rozptylu –kritérium determinantu –invariantní kritérium Kriteriální funkce pro klastrování

16 nejběžnější značení –n i... počet vzorů v D i –m i... střední hodnota vzorů v D i součet čtverců chyb se definuje: –nejlepším reprezentantem shluku D i je vektor středních hodnot m i –minimalizuje součet mocnin délek vektorů chyb (x-m i ) –J e měří celkovou mocninu chyb v n vzorech x 1,...,x n, které jsou rozděleny do c shluků se středy m 1,...,m c Kriteriální funkce – kritérium součtu čtverců chyb

17 kritérium J e závisí na tom, jak jsou vzory uskupeny do shluků a na počtu shluků optimální rozdělení je takové, které minimalizuje J e.... tzv. minimální odchylka kritérium se hodí pro: –kompaktní shluky, které jsou dobře oddělitelné jeden od druhého problém nastane: –když počet vzorů v jednotlivých shlucích je hodně odlišný => může se stát, že dojde k rozdělení velkého kompaktného shluku a tím se naruší integrita shluků kritérium nenajde skutečnou strukturu a dojde ke špatnému rozdělení shluků na dolním obrázku Kriteriální funkce – kritérium součtu čtverců chyb

18 pomocí algebry můžeme předchozí kritérium J e upravit –odstraníme střední hodnoty ze vztahu a dostaneme ekvivalentní výraz ŝ i můžeme interpretovat jako průměrnou mocninu vzdálenosti mezi body v i- tém shluku –toto zvýrazní fakt, že kritérium součtu čtverců používá Eukleidovskou vzdálenost jako míru podobnosti –jiná kritéria dostaneme snadno – nahradíme ŝ i Kriteriální funkce – kritérium součtu čtverců chyb

19 další kritéria dostaneme ze součtu čtverců chyb nahrazením výrazu ŝ i –nahradíme ŝ i za např. medián, průměr nebo maximální vzdálenost mezi body ve shluku více obecně: –do ŝ i dosadíme libovolnou funkci podobnosti s(x,x’) –nebo optimální rozdělení je takové, které najde extrém kriteriální funkce Kriteriální funkce – kritérium minimálního rozptylu

20 kritérium je založené na matici rozptylu kritérium determinantu je definováno: a ∑S i není singulární matice rozdělení, které minimalizuje J d je velmi podobné tomu, které minimalizuje J e –ale nemusí být stejné (viz obrázek dále) Kriteriální funkce – kritérium determinantu je matice rozptylu pro i- tý shluk

21 kritérium je také založené na matici rozptylu pojmy: –matice rozptylu shluků: –matice rozptylu „mezi shluky“: –λ 1,..., λ d vlastní čísla matice (S W ) -1 S B Kriteriální funkce – invariantní kritérium

22 vlastní čísla jsou invariantní vůči většině lineárních transformací –a tedy použijeme je pro kritérium invariantní kritérium je definováno: toto kritérium se snažíme maximalizovat Kriteriální funkce – invariantní kritérium

23 předkládaná data nevykazují žádné zřejmé shluky pro klastrování použijeme 3 kriteriální funkce –J e... kritérium součtu čtverců chyb –J d... kritérium determinantu –J f... invariantní kritérium Kriteriální funkce – příklad

24 pokud si zvolíme kriteriální funkci => problém klastrování se stane problémem diskrétní optimalizace –chceme najít takové rozdělení shluků, které dá extrémální hodnotu kriteriální funkce –existuje c n /c! způsobů jak rozdělit n vzorů do c tříd exponenciálně mnoho => nelze zkoušet jednotlivá rozdělení => použijeme metodu iterativní optimalizace princip iterativní optimalizace –zvolíme počáteční rozdělení vzorů do shluků –postupně přesouváme vzory z jedné třídy do jiné, když se zlepšuje hodnota kriterální funkce –nevýhody této metody: metoda garantuje jen lokální optimalizaci (ne globální) různé počáteční rozdělení vedou k různým řešením a nelze říci, zda jsme našli nejlepší řešení nebo ne Iterativní optimalizace

25 postupně zlepšujeme hodnotu kriteriální funkce –jako kriteriální funkci uvažujeme sumu čtverců chyby... J e –J i je chyba ve shluku D i –m i je střední hodnota ve shluku D i vzor x' byl ve shluku D i a nyní ho přesuneme do shluku D j –ve shluku D j i D i se změní střední hodnota m j a m i –ve shluku D j vzroste hodnota kriteriální funkce J j –ve shluku D i poklesne hodnota kriteriální funkce J i Iterativní optimalizace - odvození metody

26 po přesunutí vzoru x' ze shluku D i do shluku D j –změní se střední hodnota m j –vzroste hodnota kriteriální funkce J j Iterativní optimalizace - odvození metody

27 po přesunutí vzoru x' ze shluku D i do shluku D j –změní se střední hodnota m i –klesne hodnota kriteriální funkce J i –můžeme předpokládat, že n i ≠ 1, protože shluky s jedním vzorem nebudou zrušeny Iterativní optimalizace - odvození metody

28 po přesunutí vzoru x' ze shluku D i do shluku D j je výhodné, když pokles v J i je větší než nárůst v J j a to se typicky stane, když x' je blíže k m j než k m i tedy pro x' z D i hledáme shluk D j, kde je minimální Iterativní optimalizace - odvození metody

29 Iterativní optimalizace - algoritmus algoritmus 1. begin inicializace n, c, m 1,...,m c 2. do náhodně vyber vzor x’ 3. i←argmin k ║m k -x’║ // klasifikace x’ 4. if (n i ≠ 1) then spočti pro každé j: 5. if (j=i) then 6. r j = (n j /(n j -1))∙║m i -x’║ 2 7. else 8. r j = (n j /(n j +1))∙║m j -x’║ 2 9. k = argmin j r j 10. přesuň x’ z D i do D k 11. přepočti J e, m i, m k 12. until J e se v n krocích nezmění 13. return m 1,..., m c 14. end

30 Iterativní optimalizace - poznámky vlastnosti metody: –tato metoda může snadno uvíznout v lokálním minimu (-) –výsledky jsou závislé na pořadí výběru vzorů (-) –v daném kroku je metoda optimální (+) –snadno lze metodu modifikovat pro online učení (+) metoda závisí na počátečním rozdělení: –bohužel není žádné a jednoduché a univerzální řešení, jak nalézt dobré počáteční rozdělení 1. vybrat náhodně c vzorů a ty prohlásit za počáteční středy shluků 2. k nalezení počátečního rozdělení pro c shluků použijeme řešení pro problému pro c-1 shluků pro 1 shluk.... počáteční střed v střední hodnotě všech vzorů pro c shluků.... počáteční rozdělení použije finální hodnoty shluků v problému s c-1 shluky a vzor, který je nejvzdálenější od svého nejbližšího středu shluku


Stáhnout ppt "Rozpoznávání vzorů bez učitele (klastrování). obsah –popis dat pro klastrování –míry podobnosti vzdálenosti nemetrické podobnosti –kriteriální funkce."

Podobné prezentace


Reklamy Google