Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází.

Podobné prezentace


Prezentace na téma: "SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází."— Transkript prezentace:

1 SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází

2 •Základy shlukování •Typy dat •Techniky shlukování –Rozdělovací metody –Hierarchické metody –Metody založené na hustotě prvků –Mřížkové metody Obsah.Presentace

3 Úkol: Cíl: Řešení: Definice.Problému Rozdělení objektů do skupin Nalezení skupin Klasifikace – známe jednotlivé třídy Shlukování – neznáme příslušné třídy

4 Shlukování Shluk Co.je.shlukování? Proces sdružování dat do skupin na základě podobnosti Množina dat maximálně si podobných v rámci shluku a maximálně odlišných mezi shluky

5 •V běžném životě •Business sféra – odlišení skupin zákazníků •Lékařství – kategorizace genů •Dolování dat •Statistika •Biologie •Strojové učení •Ekonomie Použití.Shlukování Praxe: Vědní obory:

6 Typy dat Doposud dva přístupy: Datová matice : n objektů X p proměnných Typy.Dat X 11 …X 1f …X 1p    X i1 …X if …X ip    X n1 …X nf …X np

7 Matice odlišností : n objektů X n objektů Typy.Dat 0 d(2,1) 0 d(3,1)d(2,2) 0    d(n,1)d(n,1) … 0 d(i,j)- vyjadřuje odlišnost objektů d(i,j) = d(j,i), d(i,i) = 0

8 Intervalové proměnné Typy.Dat Typicky: váha, výška, zeměpisná délka a šířka, teplota Závislost na volbě měřítka  normalizace Normalizace  snaha dát všem proměnným stejnou váhu Výpočet odlišnosti – využití geometrické reprezentace – je určena vzdáleností každého páru

9 Intervalové proměnné Typy.Dat Metriky pro měření vzdáleností Musí splňovat podmínky : d(i,j) ≥0 d(i,j) = d(j,i) d(i,i) = 0 d(i,j) ≤ d(i,h) + d(h,j)

10 Intervalové proměnné Typy.Dat Nejznámější metriky: Eukleidovská vzdálenost Manhattan vzdálenost Minkowského vzdálenost

11 Binární proměnné Typy.Dat Pouze dva stavy: 1.. vlastnost je přítomna 0.. vlastnost není přítomna Typ: Symetrické – stejná váha stavů Nesymetrické – rozdílné váhy

12 Binární proměnné Typy.Dat Objekt j 10 1qr 0st Objekt j r + s q + r + s d(i,j) = Jaccardův koeficient: Řada dalších: Michenerův, Sokalův, Russelův, Hammanův…

13 Nominální proměnné Typy.Dat - zobecněním binární proměnné - připouští více než dva stavy - nejjednodušší výpočet vzdálenosti: p - m p d(i,j) = p – počet proměnných m – počet shod

14 Ordinální proměnné Typy.Dat - podobné nominálním proměnným - opět vybíráme z množiny stavů - navíc existuje nějaké uspořádání na množině - provedeme normalizaci na interval - převedeme na intervalovou proměnnou - použijeme libovolnou metriku pro intervalovou proměnnou

15 Proměnné smíšených typů Typy.Dat - v reálném světě objekty popsány proměnnými různých typů - dva přístupy: Udělat nad každým typem zvlášť Jedna shlukovací analýza bez ohledu na typ - u všech proměnných provedeme normalizaci na interval

16 Shrnutí Typy.Dat Jsme tedy vždy schopni vyjádřit odlišnost mezi objekty, i když jsou objekty popsány proměnným různých typů

17 Metody shlukovací analýzy Shlukovací.metody Dělící metody Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…

18 Dělící metody Shlukovací.metody Cíl: Rozdělit n objektů do k shluků Princip: Dělení podle kriteria – podobnostní funkce Možnosti: Výpočet všech možných rozdělení Použití heuristik: K-Means – shluk je reprezentován těžištěm K-Medoids – shluk je reprezentován objektem nejblíže k těžišti

19 Dělící metody Shlukovací.metody Algoritmus : Vstup: Počet shluků k a databáze n objektů Výstup: k shluků Postup: Vyber k objektů jako středy shluků repeat přepočítej těžiště shluků přiřaď každý objekt do shluku na základě vzdálenosti od těžiště until Žádná_změna

20 Dělící metody Shlukovací.metody K-Means, K-Medoids algoritmy Ideální při výběru malého počtu shluků z velkého počtu objektů Málo odolná vzhledem k nekonzistentním vzorkům dat a šumu Nutnost volit počáteční počet shluků k Uplatnění: PAM Partitioning around Medoids CLARA Clustering LARge Applications CLARANS Clustering LARge Applications based upon RANdomized Search

21 Metody shlukovací analýzy Shlukovací.metody Dělící metody Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…

22 Hierarchické metody Shlukovací.metody Princip: Vytváření stromové struktury shluků Možnosti: Přístup aglomerativní Strategie bottom-up Každý objekt = 1 shluk Postupně slučujeme shluky dokud nejsou všechny objekty v jediném shluku nebo nejsou splněna kriteria ukončení (typicky: počet shluků) Naleží většina metod >> liší se pouze v porovnávání shluků

23 Hierarchické metody Shlukovací.metody Přístup divisivní Strategie top-down Všechny objekty v jediném shluku Postupně dělí shluky na menší dokud netvoří každý objekt jeden shluk nebo nejsou splněna kriteria ukončení Výpočet odlišnosti shluků: Minimální vzdálenost Maximální vzdálenost Střední vzdálenost Průměrná vzdálenost

24 Hierarchické metody Shlukovací.metody Hl. nevýhodou >> neschopnost úprav po již provedeném rozdělení nebo spojení shluků Pozn: Proto často spojené s dalšími shlukovacími technikami Uplatnění: CURE Clustering Using REpresentatives CHameleon A Hierarchical Clustering Alg. Using Dynamic Modeling BIRCH Balanced Iterative Reducing and Clustering Using Hierarachies

25 Metody shlukovací analýzy Shlukovací.metody Dělící metody Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…

26 Metody založené na hustotě Shlukovací.metody Princip: Shluky jsou formovány na základě hustoty objektů v oblasti Dva parametry: E – maximální rádius okolí MinPts – minimální počet prvků v okolí Jádro – objekt obsahující ve svém okolí vymezeném rádiusem nejméně MinPts objektů Objekt p se nazývá přímo dosažitelný z objektu q, jestliže p je v okolí q a q je jádrem

27 Metody založené na hustotě Shlukovací.metody Objekt p se nazývá dosažitelný z q, jestliže existuje posloupnost objektů p 1..p n,p 1 =p, p n =q a platí, že p i+1 je přímo dosažitelný z p i Objekty p a s nazveme propojené, jestliže existuje objekt q, a oba objekty p a s jsou dosažitelné z q Shluk je definován jako maximální možná množina propojených objektů Pozn:Pak každý objekt, který se nenachází ve nějakém shluku, je považován za šum

28 Metody založené na hustotě Shlukovací.metody Algoritmus Zkontroluje okolí každého bodu >> jestliže splňuje podmínku MinPts, vytvoří nový shluk Následně iterativně vytváří množiny přímo dosažitelných bodů z jednotlivých jader Končí v případě, že již nelze přidat žádný bod do libovolného shluku Uplatnění: DBSCAN Density-Based Spatial Clustering of Application with Noise OPTICS Ordering Points To Identify Clustering Structure DENCLUE DENsity-based CLUstering

29 Metody shlukovací analýzy Shlukovací.metody Dělící metody Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…

30 Mřížkové metody Shlukovací.metody Princip: Dělení objektů do multiúrovňové mřížkové datové struktury Dochází k dělení prostoru na konečný počet buněk. Všechny operace pracují nad mřížkovou strukturou tvořenou těmito buňkami Doba zpracování je nezávislá na počtu objektů je závislá na počtu buněk mřížkové struktury Rychlá doba zpracování

31 Mřížkové metody Shlukovací.metody Uplatnění: STING STatistical Information Grid pracuje se statistickými informacemi uloženými v mřížce WaveCluster Clustering Using Wavelet Transformation transformuje prostor použitím vlnkové transformace CLIQUE CLustering In QUEst využívá Apriori znalostí

32 Metody shlukovací analýzy Shlukovací.metody Dělící metody Hierarchické metody Metody založené na hustotě Mřížkové metody Další metody…

33 Další metody Shlukovací.metody Konceptuální shlukování Princip: Snaží se sestrojit klasifikační schéma, pro jednotlivé shluky vytváří charakteristický popis využívá klasifikačního stromu Metody neuronových sítí Princip: základem jsou neurony soutěžící o objekt na vstupu, vítězný neuron pak přenastaví váhy

34 To nejdůležitější Shrnutí Shluk je množina objektů podobných si navzájem v rámci shluků a odlišná mezi jednotlivými shluky Proces vytváření shluků je shlukování Kvalita shlukování je úměrná schopnostem porovnat odlišnosti jednotlivých objektů Umíme porovnat a změřit míru podobnosti objektů popsaných různými typy dat (intervalové, binární, … proměnné) Shlukování je významný nástroj při dolování dat Bylo vyvinuto mnoho algoritmů, které lze rozčlenit na Dělící, Hierarchické, Pracující s hustotou, Mřížkové … Velmi důležitá je:volba vstupních parametrů interpretace výsledků

35 Děkuji za pozornost Konec.Presentace


Stáhnout ppt "SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází."

Podobné prezentace


Reklamy Google