Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází
2
Obsah.Presentace Základy shlukování Typy dat Techniky shlukování
Rozdělovací metody Hierarchické metody Metody založené na hustotě prvků Mřížkové metody
3
Definice.Problému Úkol: Cíl: Řešení: Rozdělení objektů do skupin
Nalezení skupin Klasifikace – známe jednotlivé třídy Shlukování – neznáme příslušné třídy
4
Co.je.shlukování? Shlukování Shluk
Proces sdružování dat do skupin na základě podobnosti Množina dat maximálně si podobných v rámci shluku a maximálně odlišných mezi shluky
5
Použití.Shlukování Praxe: Vědní obory: V běžném životě
Business sféra – odlišení skupin zákazníků Lékařství – kategorizace genů Dolování dat Statistika Biologie Strojové učení Ekonomie
6
Typy.Dat Typy dat X11 … X1f … X1p Xi1 … Xif … Xip
Doposud dva přístupy: Datová matice : n objektů X p proměnných X11 … X1f … X1p Xi1 … Xif … Xip Xn1 … Xnf … Xnp
7
Typy.Dat Matice odlišností : n objektů X n objektů d(2,1) 0
d(2,1) 0 d(3,1) d(2,2) 0 d(n,1) d(n,1) … d(i,j) - vyjadřuje odlišnost objektů d(i,j) = d(j,i), d(i,i) = 0
8
Typy.Dat Intervalové proměnné
Typicky: váha, výška, zeměpisná délka a šířka, teplota Závislost na volbě měřítka normalizace Normalizace snaha dát všem proměnným stejnou váhu Výpočet odlišnosti – využití geometrické reprezentace – je určena vzdáleností každého páru
9
Typy.Dat Intervalové proměnné Metriky pro měření vzdáleností
Musí splňovat podmínky : d(i,j) ≥ 0 d(i,j) = d(j,i) d(i,i) = 0 d(i,j) ≤ d(i,h) + d(h,j)
10
Typy.Dat Intervalové proměnné Nejznámější metriky:
Eukleidovská vzdálenost Manhattan vzdálenost Minkowského vzdálenost
11
Typy.Dat Binární proměnné Pouze dva stavy: 1 .. vlastnost je přítomna
0 .. vlastnost není přítomna Typ: Symetrické – stejná váha stavů Nesymetrické – rozdílné váhy
12
Typy.Dat Objekt j Binární proměnné 1 0 1 q r 0 s t Objekt j
1 0 1 q r 0 s t Objekt j Jaccardův koeficient: r + s q + r + s d(i,j) = Řada dalších: Michenerův, Sokalův, Russelův, Hammanův…
13
Typy.Dat Nominální proměnné - zobecněním binární proměnné
- připouští více než dva stavy - nejjednodušší výpočet vzdálenosti: p - m p d(i,j) = p – počet proměnných m – počet shod
14
Typy.Dat Ordinální proměnné - podobné nominálním proměnným
- opět vybíráme z množiny stavů - navíc existuje nějaké uspořádání na množině - provedeme normalizaci na interval <0..1> - převedeme na intervalovou proměnnou - použijeme libovolnou metriku pro intervalovou proměnnou
15
Typy.Dat Proměnné smíšených typů
- v reálném světě objekty popsány proměnnými různých typů - dva přístupy: Udělat nad každým typem zvlášť Jedna shlukovací analýza bez ohledu na typ - u všech proměnných provedeme normalizaci na interval <0..1>
16
Typy.Dat Shrnutí Jsme tedy vždy schopni vyjádřit odlišnost mezi objekty, i když jsou objekty popsány proměnným různých typů
17
Shlukovací.metody Metody shlukovací analýzy Dělící metody
Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…
18
Shlukovací.metody Dělící metody Cíl: Rozdělit n objektů do k shluků
Princip: Dělení podle kriteria – podobnostní funkce Možnosti: Výpočet všech možných rozdělení Použití heuristik: K-Means – shluk je reprezentován těžištěm K-Medoids – shluk je reprezentován objektem nejblíže k těžišti
19
Shlukovací.metody Dělící metody Algoritmus :
Vstup: Počet shluků k a databáze n objektů Výstup: k shluků Postup: Vyber k objektů jako středy shluků repeat přepočítej těžiště shluků přiřaď každý objekt do shluku na základě vzdálenosti od těžiště until Žádná_změna
20
Shlukovací.metody Dělící metody K-Means, K-Medoids algoritmy
Ideální při výběru malého počtu shluků z velkého počtu objektů Málo odolná vzhledem k nekonzistentním vzorkům dat a šumu Nutnost volit počáteční počet shluků k Uplatnění: PAM Partitioning around Medoids CLARA Clustering LARge Applications CLARANS Clustering LARge Applications based upon RANdomized Search
21
Shlukovací.metody Metody shlukovací analýzy Dělící metody
Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…
22
Shlukovací.metody Hierarchické metody
Princip: Vytváření stromové struktury shluků Možnosti: Přístup aglomerativní Strategie bottom-up Každý objekt = 1 shluk Postupně slučujeme shluky dokud nejsou všechny objekty v jediném shluku nebo nejsou splněna kriteria ukončení (typicky: počet shluků) Naleží většina metod >> liší se pouze v porovnávání shluků
23
Shlukovací.metody Hierarchické metody Přístup divisivní
Strategie top-down Všechny objekty v jediném shluku Postupně dělí shluky na menší dokud netvoří každý objekt jeden shluk nebo nejsou splněna kriteria ukončení Výpočet odlišnosti shluků: Minimální vzdálenost Maximální vzdálenost Střední vzdálenost Průměrná vzdálenost
24
Shlukovací.metody Hierarchické metody
Hl. nevýhodou >> neschopnost úprav po již provedeném rozdělení nebo spojení shluků Pozn: Proto často spojené s dalšími shlukovacími technikami Uplatnění: CURE Clustering Using REpresentatives CHameleon A Hierarchical Clustering Alg. Using Dynamic Modeling BIRCH Balanced Iterative Reducing and Clustering Using Hierarachies
25
Shlukovací.metody Metody shlukovací analýzy Dělící metody
Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…
26
Shlukovací.metody Metody založené na hustotě
Princip: Shluky jsou formovány na základě hustoty objektů v oblasti Dva parametry: E – maximální rádius okolí MinPts – minimální počet prvků v okolí Jádro – objekt obsahující ve svém okolí vymezeném rádiusem nejméně MinPts objektů Objekt p se nazývá přímo dosažitelný z objektu q, jestliže p je v okolí q a q je jádrem
27
Shlukovací.metody Metody založené na hustotě
Objekt p se nazývá dosažitelný z q, jestliže existuje posloupnost objektů p1..pn ,p1=p , pn=q a platí, že pi+1 je přímo dosažitelný z pi Objekty p a s nazveme propojené, jestliže existuje objekt q, a oba objekty p a s jsou dosažitelné z q Shluk je definován jako maximální možná množina propojených objektů Pozn: Pak každý objekt, který se nenachází ve nějakém shluku, je považován za šum
28
Shlukovací.metody Metody založené na hustotě Algoritmus
Zkontroluje okolí každého bodu >> jestliže splňuje podmínku MinPts, vytvoří nový shluk Následně iterativně vytváří množiny přímo dosažitelných bodů z jednotlivých jader Končí v případě, že již nelze přidat žádný bod do libovolného shluku Uplatnění: DBSCAN Density-Based Spatial Clustering of Application with Noise OPTICS Ordering Points To Identify Clustering Structure DENCLUE DENsity-based CLUstering
29
Shlukovací.metody Metody shlukovací analýzy Dělící metody
Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…
30
Shlukovací.metody Mřížkové metody
Princip: Dělení objektů do multiúrovňové mřížkové datové struktury Dochází k dělení prostoru na konečný počet buněk. Všechny operace pracují nad mřížkovou strukturou tvořenou těmito buňkami Doba zpracování je nezávislá na počtu objektů je závislá na počtu buněk mřížkové struktury Rychlá doba zpracování
31
Shlukovací.metody Mřížkové metody Uplatnění:
STING STatistical Information Grid pracuje se statistickými informacemi uloženými v mřížce WaveCluster Clustering Using Wavelet Transformation transformuje prostor použitím vlnkové transformace CLIQUE CLustering In QUEst využívá Apriori znalostí
32
Shlukovací.metody Metody shlukovací analýzy Dělící metody
Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…
33
Shlukovací.metody Další metody Konceptuální shlukování
Princip: Snaží se sestrojit klasifikační schéma, pro jednotlivé shluky vytváří charakteristický popis využívá klasifikačního stromu Metody neuronových sítí Princip: základem jsou neurony soutěžící o objekt na vstupu, vítězný neuron pak přenastaví váhy
34
Shrnutí To nejdůležitější
Shluk je množina objektů podobných si navzájem v rámci shluků a odlišná mezi jednotlivými shluky Proces vytváření shluků je shlukování Kvalita shlukování je úměrná schopnostem porovnat odlišnosti jednotlivých objektů Umíme porovnat a změřit míru podobnosti objektů popsaných různými typy dat (intervalové, binární, … proměnné) Shlukování je významný nástroj při dolování dat Bylo vyvinuto mnoho algoritmů, které lze rozčlenit na Dělící, Hierarchické, Pracující s hustotou, Mřížkové … Velmi důležitá je: volba vstupních parametrů interpretace výsledků
35
Konec.Presentace Děkuji za pozornost
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.