Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Shlukovací algoritmy založené na vzorkování
Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady
2
Motivace Potřeba metod pro analýzu dat velkých datových souborů
Minimalizace počtu průchodů celým datovým souborem Výběr vzorku dat
3
Algoritmy využívající ke vzorkování stromy
CLARANS (pro velké datové soubory) (Clustering Large Application based on RANdomized Search) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) SCAHIPAT (Spatial Clustering Algorithm Based on Hierarchical-Partition Tree)
4
CLARANS (pro velké soubory)
R*- stromy 8 29 3 1 2 4 6 7 9 15 26 30 35 40 43
5
CLARANS náhodný výběr k medoidů
přiřazení zbývajících objektů k jim nejbližšímu medoidu náhodný výběr jednoho zástupce z medoidů a náhodný výběr jednoho z objektů zkoumaného souboru, který není medoidem zjištění, zda by záměnou těchto dvou objektů došlo ke zlepšení pokud by ke zlepšení došlo, provede záměnu
6
BIRCH CF - stromy
7
BIRCH vytvoření CF-stromu postupným zařazením datových objektů
kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)
8
SCAHIPAT H-P stromy (Hierarchical-Partition Tree)
9
SCAHIPAT vytvoření H-P stromu
výpočet statistik (hustota, hranice) pro každou podmnožinu spojování vhodných podmnožin vyřazení objektů, které jsou podezřelé z odlehlosti
10
Algoritmy nevyužívající ke vzorkování stromy
BIRCH k-průměrů FEKM (Fast and Exact K-Means)
11
BIRCH k-průměrů Shluky (skupiny) objektů
Upravená varianta algoritmu BIRCH Nevytváří CF-strom Uspořádaná trojice údajů (m, q, b), kde m je velikost daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku
12
FEKM Náhodný výběr Postup zpracování:
Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat V rámci tohoto souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů V každé iteraci se zaznamená všech k center a k nim popisné statistiky V druhé fázi algoritmus prochází celý datový soubor Každý datový objekt se přiřadí do určitého shluku (k nejbližšímu centru) Problém chybného zařazení do shluku se týká především objektů ležících na okraji shluků Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila a uložila předchozí fáze Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk a podezřelých okrajových objektů. Pokud existuje přepočtené centrum, které je od původního více vzdálené, než předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem
13
Shrnutí Nevýhoda většina zmíněných algoritmů = vzorkování přináší zhoršenou kvalitu shlukování Nevýhoda algoritmu FEKM = malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat Bylo by možné zkombinovat některý z uvedených algoritmů s algoritmem FEKM tak, aby bylo dosaženo lepších výsledků?
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.