Rozpoznávání vzorů bez učitele (klastrování)

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Statistická indukce Teorie odhadu.
Algoritmus k-means Ivan Pirner 2007/2008. Cíle mého snažení: • naprogramovat v MATLABu algoritmus k-means • vymyslet funkce popisující vzdálenost ve 40dimenzionálním.
Lineární model posteriorní hustota pravděpodobnosti lineární model:
PA081 Programování numerických výpočtů Přednáška 2.
PA081 Programování numerických výpočtů
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
Odhady parametrů základního souboru
Rozhodněte o její pohyblivosti (určete počet stupňů volnosti).
Lineární regresní analýza Úvod od problému
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Diskrétní rozdělení a jejich použití
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Shluková analýza.
METODA KONEČNÝCH PRVKŮ
Regrese Aproximace metodou nejmenších čtverců
Shluková analýza.
Funkce více proměnných.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Lineární regresní analýza
Metody výběru variant Používají se pro výběr v případě více variant řešení stejného problému Lze vybírat dle jednoho nebo více kritérií V případě více.
Klastrování - II.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Pojem účinného průřezu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Experimentální fyzika I. 2
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Rozpoznávání v řetězcích
Gradientní metody Metoda největšího spádu (volný extrém)
2. Vybrané základní pojmy matematické statistiky
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Počítačová chemie (5. přednáška)
Klastrování - III.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání vzorů (template matching)
Klasifikace a rozpoznávání
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
17.
Inferenční statistika - úvod
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Klasifikace a rozpoznávání Lineární klasifikátory.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
Tektonická analýza, podzim 2006, Analýza duktilní deformace IV. Deformace eliptické nebo elipsoidální částice je popsána vztahem: kde A je matice elipsy.
Soustavy lineárních rovnic Matematika 9. ročník Creation IP&RK.
Odhady odhady bodové a intervalové odhady
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Úvod do databázových systémů
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Konstrukce trojúhelníku s kružnicí opsanou v zadání
Popisná statistika: přehled
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Funkce více proměnných.
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
Soustavy lineárních rovnic
Induktivní statistika
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Rozpoznávání vzorů bez učitele (klastrování)

Rozpoznávání vzorů bez učitele (klastrování) obsah popis dat pro klastrování míry podobnosti vzdálenosti nemetrické podobnosti kriteriální funkce kritérium součtu čtverců chyb kritérium minimálního rozptylu kritérium determinantu invariantní kritérium iterativní optimalizace

Rozpoznávání vzorů bez učitele doposud: zatím jsme uvažovali, že trénovací data mají „značku“ třídy, kam patří (učení klasifikátoru s učitelem) nyní: zaměříme se na učení bez učitele (nemáme informaci, do jaké třídy má trénovací vzor patřit) důvody pro tento přístup: sbírání velkých dat a jejich značkování je velmi náročné získat nahrávky řeči je snadné, ale označení jednotlivých fonémů v řeči je pracné chceme použít velké neoznačkované množiny pro naučení klasifikátoru a malé označkované množiny použijeme pro testování klasifikátoru data mining pomocí učení bez učitele lze najít příznaky, které mohou být užitečné pro další kategorizaci v prvních fázích výzkumu nám tyto metody pomohou dát vhled do struktury problému najdeme skupiny vzorů, které mají podobné vlastnosti

Popis dat a klastrování cíl: zjistit strukturu mnohorozměrných neoznačených vzorů geometricky: d-rozměrné vzory mohou vytvářet shluky bodů v d-rozměrném prostoru a ty chceme najít příklad nechť víme, že body jsou z normálního rozdělení rozdělení popisuje střední hodnota vzorů a kovariační matice vzorů střední hodnota vzorů střed shluku tedy na shluk můžeme nahlížet jako na jediný bod m, který nejlépe reprezentuje data ve smyslu minimalizace sumy mocnin vzdálenosti m od vzorů kovarianční matice dat popisuje velikost rozptylu dat v jednotlivých směrech okolo m když data pocházejí z normálního rozdělení shluk má eliptický tvar střední hodnota dat má tendenci být v místě největší koncentrace dat

Popis dat a klastrování problém: když vzory nemají normální rozdělení, pak získané statistiky (střední hodnota a kovarianční matice) dají velmi zavádějící popis dat na obrázku jsou 4 sady dat, které mají stejnou střední hodnotu a kovarianční matici ale tyto údaje neodhalily celou strukturu dat

Popis dat a klastrování jiný předpoklad: vzory pocházejí ze směsi c normálních rozdělení => lépe můžeme odhadnout strukturu toto odpovídá faktu, že vzory spadnou do eliptických shluků různých velikostí a orientace když je počet vzorů v jednotlivých shlucích dostatečně velký => můžeme teoreticky aproximovat libovolnou hustotu shluků problém odhadu parametrů rozdělení není triviální navíc typicky máme jen velmi málo apriorních informací o povaze problému => při odhadu parametrů dostaneme jen velmi „slabé“ nebo dokonce nesmyslné výsledky řešení: místo hledání struktury v datech zavedeme na datech strukturu neparametrické metody k odhadu neznámé hustoty (např. Parzenovo okénko, ...) když je metoda přesná, pak výsledkem je úplný popis toho, co se můžeme z dat naučit oblasti s velkou hustotou na daném okolí, které mohou odpovídat významným třídám v datech, lze najít jako vrcholy při odhadu hustoty klastrování

Klastrování klastrování formálně: nevýhody: metody dají popis dat ve smyslu shluků bodů, které vykazují velký stupeň vzájemné podobnosti formálně: metoda klastrování používá kriteriální funkci např. součet mocnin vzdáleností od středu shluku a hledá se takové uspořádání shluků, které dá extrém kriteriální funkce nevýhody: někdy tyto metody mohou být výpočetně náročné

Míry podobnosti klastrování problém nalezení „přirozených“ shluků v datech potřebujeme definovat, co to znamená „přirozené shluky“ ... míra podobnosti nejčastěji je mírou podobnosti vzdálenost dvou vzorů můžeme definovat vhodnou metriku a počítat matici vzdáleností mezi všemi dvojicemi vzorů pokud je vzdálenost dobrou mírou podobnosti vzdálenost mezi vzory ve stejném shluku bude výrazně menší než mezi vzory z různých shluků

Míry podobnosti příklad: uvažujme, že vzory padnou do stejného shluku, když Eukleidovská vzdálenost je menší než prahová hodnota d0 d0 příliš velká .... všechny vzory padnou do 1 shluku d0 příliš malá .... každý vzor vytvoří svůj vlastní shluk abychom dostali „přirozené“ shluky d0 musí být větší než typická velikost uvnitř shluku d0 musí být menší než typická velikost mezi shluky spojnice jsou mezi body ve stejném shluku

Míry podobnosti výsledek shlukování závisí na volbě míry podobnosti výběr je obzvášť důležitý, když data jsou rozmístěna stejnoměrně ve všech směrech uvažujme opět Eukleidovskou vzdálenosti jako míru podobnosti klastry definované Eukleidovskou vzdáleností budou invariantní vůči posunutí a rotaci v příznakovém prostoru nebudou invariantní obecně vůči lineární transformaci jednoduché škálování os může způsobit různé shluky původní data svislá osa .... koeficient 0,5 vodorovná osa ... koeficient 2

Normalizace dat invariance dat lze dosáhnout např normalizací dat invariance vůči posunutí a škálování posuneme a naškálujeme data tak, aby všechny příznaky měly nulovou střední hodnotu a jednotkový rozptyl invariance rotaci otočíme osy tak, aby souhlasily s vlastními vektory kovarianční matice vzorů .... tzv. hlavní komponenty problém: ne vždy je normalizace žádána když data padnou do dobře oddělených shluků => normalizace do jednotkového rozptylu poničí oddělené shluky

Míry podobnosti vzdálenosti nemetrické podobnosti .... s(x,x’) Minkowského metrika (pro q≥1) Mahalanobisova vzdálenost nemetrické podobnosti .... s(x,x’) srovnávají dva vektory x a x’ typicky je to symetrická funkce, která dá velkou hodnotu, když x a x’ jsou „podobné“ míra podobnosti pomocí kosinu úhlu 2 vektorů

Míry podobnosti míra podobnosti pomocí kosinu úhlu 2 vektorů když jsou příznaky binární, pak funkce podobnosti má negeometrickou interpretaci nechť vzor x má i-tý atribut, když xi = 1 xT∙x’ .... počet atributů, které mají oba vektory x a x’ ║x║∙║x’║ = (xT∙x∙x’T∙x’)1/2 ... geometrický průměr počtu atributů, které má x, a počtu atributů, které má x’ tedy s(x,x’) udává relativní počet společných atributů

Míry podobnosti další míry podobnosti => „procento“ sdílených stributů => poměr počtu sdílených atributů k počtu atributů, které má x nebo x’ .... Tanimoto vzdálenost používá se v „information retrieval“ nebo při biologické taxonometrii

Kriteriální funkce pro klastrování víme, jak „měřit podobnost“ potřebujeme určit kriteriální funkci, kterou později budeme optimalizovat nechť množina D ={x1, ..., xn} má n vzorů, které chceme rozdělit do c disjunktních podmnožin D1, ..., Dc každá podmnožina reprezentuje shluk vzorů, které jsou si vzájemně více podobnější než se vzory z jiných shluků některé kriteriální funkce kritérium součtu čtverců chyb kritérium minimálního rozptylu kritérium determinantu invariantní kritérium

Kriteriální funkce – kritérium součtu čtverců chyb nejběžnější značení ni ... počet vzorů v Di mi ... střední hodnota vzorů v Di součet čtverců chyb se definuje: nejlepším reprezentantem shluku Di je vektor středních hodnot mi minimalizuje součet mocnin délek vektorů chyb (x-mi) Je měří celkovou mocninu chyb v n vzorech x1, ... ,xn, které jsou rozděleny do c shluků se středy m1,...,mc

Kriteriální funkce – kritérium součtu čtverců chyb kritérium Je závisí na tom, jak jsou vzory uskupeny do shluků a na počtu shluků optimální rozdělení je takové, které minimalizuje Je .... tzv. minimální odchylka kritérium se hodí pro: kompaktní shluky, které jsou dobře oddělitelné jeden od druhého problém nastane: když počet vzorů v jednotlivých shlucích je hodně odlišný => může se stát, že dojde k rozdělení velkého kompaktného shluku a tím se naruší integrita shluků kritérium nenajde skutečnou strukturu a dojde ke špatnému rozdělení shluků na dolním obrázku

Kriteriální funkce – kritérium součtu čtverců chyb pomocí algebry můžeme předchozí kritérium Je upravit odstraníme střední hodnoty ze vztahu a dostaneme ekvivalentní výraz ŝi můžeme interpretovat jako průměrnou mocninu vzdálenosti mezi body v i-tém shluku toto zvýrazní fakt, že kritérium součtu čtverců používá Eukleidovskou vzdálenost jako míru podobnosti jiná kritéria dostaneme snadno – nahradíme ŝi

Kriteriální funkce – kritérium minimálního rozptylu další kritéria dostaneme ze součtu čtverců chyb nahrazením výrazu ŝi nahradíme ŝi za např. medián, průměr nebo maximální vzdálenost mezi body ve shluku více obecně: do ŝi dosadíme libovolnou funkci podobnosti s(x,x’) nebo optimální rozdělení je takové, které najde extrém kriteriální funkce

Kriteriální funkce – kritérium determinantu kritérium je založené na matici rozptylu kritérium determinantu je definováno: a ∑Si není singulární matice rozdělení, které minimalizuje Jd je velmi podobné tomu, které minimalizuje Je ale nemusí být stejné (viz obrázek dále) je matice rozptylu pro i-tý shluk

Kriteriální funkce – invariantní kritérium kritérium je také založené na matici rozptylu pojmy: matice rozptylu shluků: matice rozptylu „mezi shluky“: λ1,..., λd vlastní čísla matice (SW)-1SB

Kriteriální funkce – invariantní kritérium vlastní čísla jsou invariantní vůči většině lineárních transformací a tedy použijeme je pro kritérium invariantní kritérium je definováno: toto kritérium se snažíme maximalizovat

Kriteriální funkce – příklad předkládaná data nevykazují žádné zřejmé shluky pro klastrování použijeme 3 kriteriální funkce Je ... kritérium součtu čtverců chyb Jd ... kritérium determinantu Jf ... invariantní kritérium

Iterativní optimalizace pokud si zvolíme kriteriální funkci => problém klastrování se stane problémem diskrétní optimalizace chceme najít takové rozdělení shluků, které dá extrémální hodnotu kriteriální funkce existuje cn/c! způsobů jak rozdělit n vzorů do c tříd exponenciálně mnoho => nelze zkoušet jednotlivá rozdělení => použijeme metodu iterativní optimalizace princip iterativní optimalizace zvolíme počáteční rozdělení vzorů do shluků postupně přesouváme vzory z jedné třídy do jiné, když se zlepšuje hodnota kriterální funkce nevýhody této metody: metoda garantuje jen lokální optimalizaci (ne globální) různé počáteční rozdělení vedou k různým řešením a nelze říci, zda jsme našli nejlepší řešení nebo ne

Iterativní optimalizace - odvození metody postupně zlepšujeme hodnotu kriteriální funkce jako kriteriální funkci uvažujeme sumu čtverců chyby ... Je Ji je chyba ve shluku Di mi je střední hodnota ve shluku Di vzor x' byl ve shluku Di a nyní ho přesuneme do shluku Dj ve shluku Dj i Di se změní střední hodnota mj a mi ve shluku Dj vzroste hodnota kriteriální funkce Jj ve shluku Di poklesne hodnota kriteriální funkce Ji

Iterativní optimalizace - odvození metody po přesunutí vzoru x' ze shluku Di do shluku Dj změní se střední hodnota mj vzroste hodnota kriteriální funkce Jj

Iterativní optimalizace - odvození metody po přesunutí vzoru x' ze shluku Di do shluku Dj změní se střední hodnota mi klesne hodnota kriteriální funkce Ji můžeme předpokládat, že ni ≠ 1, protože shluky s jedním vzorem nebudou zrušeny

Iterativní optimalizace - odvození metody po přesunutí vzoru x' ze shluku Di do shluku Dj je výhodné, když pokles v Ji je větší než nárůst v Jj a to se typicky stane, když x' je blíže k mj než k mi tedy pro x' z Di hledáme shluk Dj, kde je minimální

Iterativní optimalizace - algoritmus 1. begin inicializace n, c, m1,...,mc 2. do náhodně vyber vzor x’ 3. i←argmink ║mk-x’║ // klasifikace x’ 4. if (ni ≠ 1) then spočti pro každé j: 5. if (j=i) then 6. rj = (nj/(nj-1))∙║mi-x’║2 7. else 8. rj = (nj/(nj+1))∙║mj-x’║2 9. k = argminj rj 10. přesuň x’ z Di do Dk 11. přepočti Je, mi, mk 12. until Je se v n krocích nezmění 13. return m1,..., mc 14. end

Iterativní optimalizace - poznámky vlastnosti metody: tato metoda může snadno uvíznout v lokálním minimu (-) výsledky jsou závislé na pořadí výběru vzorů (-) v daném kroku je metoda optimální (+) snadno lze metodu modifikovat pro online učení (+) metoda závisí na počátečním rozdělení: bohužel není žádné a jednoduché a univerzální řešení, jak nalézt dobré počáteční rozdělení 1. vybrat náhodně c vzorů a ty prohlásit za počáteční středy shluků 2. k nalezení počátečního rozdělení pro c shluků použijeme řešení pro problému pro c-1 shluků pro 1 shluk .... počáteční střed v střední hodnotě všech vzorů pro c shluků .... počáteční rozdělení použije finální hodnoty shluků v problému s c-1 shluky a vzor, který je nejvzdálenější od svého nejbližšího středu shluku