Shlukovací algoritmy založené na vzorkování

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
OBSAH TESTŮ JEJICH RELEVANCE A KVALITA Od „osnov“ k vyhodnocení testů.
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází.
Algoritmus k-means Ivan Pirner 2007/2008. Cíle mého snažení: • naprogramovat v MATLABu algoritmus k-means • vymyslet funkce popisující vzdálenost ve 40dimenzionálním.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
LOGISTICKÉ SYSTÉMY 6/14.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Návrh a optimalizace filtru OTA-C s využitím heuristických algoritmů ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra teorie obvodů.
ADT Strom.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
BD01 Základy stavební mechaniky
Rozbory přesnosti v jednotlivých fázích vytyčení
Analýza dat.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
Sociologický výzkum.
Richard Lipka Katedra informatiky a výpočetní techniky Fakulta aplikovaných věd Západočeská univerzita, Plzeň 1.
Uložení a analýza bodového mračna bodů v Oracle Spatial Fakulta aplikovaných věd / Katedra matematiky Západočeská univerzita v Plzni Bc. Michal.
Statistická analýza únavových zkoušek
Shluková analýza.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Aktivní škola - podpora, zlepšení kvality vzdělávání a výuky na základní škole Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem.
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
Statistika 2 Aritmetický průměr, Modus, Medián
Statistika 2. přednáška Ing. Marcela Čapková.
Metody výběru variant Používají se pro výběr v případě více variant řešení stejného problému Lze vybírat dle jednoho nebo více kritérií V případě více.
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Autoři: Martin Dlouhý a Martina Kuncová
Vektorová kvantizace (VQ) (Vector Quantization)
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Databázové systémy Informatika pro ekonomy, př. 18.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.
Vícerozměrné statistické metody
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Zpracování záznamů GPS dispečerských vozů DPO Vedoucí projektu : doc. Ing. Petr Rapant, CSc. Zpracovává : Radim Balon, G363 Vysoká škola báňská – Technická.
Základy pedagogické metodologie
Anti – Aliasing Ondřej Burkert atrey.karlin.mff.cuni.cz/~ondra/stranka.
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Analýza podobnosti výsledků přijímacího řízení na FIS VŠE
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
aneb Assessment Centre a Development Centre
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Základní informace o předmětu1. Přednášející: RNDr. Martin Hála, CSc. katedra matematiky, B105, Další informace a soubory ke stažení.
Statistické metody v digitálním zpracování obrazu Jindřich Soukup 3. února 2012.
Prostorové analýzy Vymezení a rozdělení. Definice prostorových analýz Geoinformace Geodata (prostorová data) Prostorové analýzy jsou souborem technik.
Ukládání dat biodiverzity a jejich vizualizace
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Znázornění dopravní sítě grafem a kostra grafu Předmět: Teorie dopravy - cvičení Ing. František Lachnit, Ph.D.
4. cvičení
- váhy jednotlivých studií
Opakování geometrie - pojmy VY_32_INOVACE_33_Opakovani_geometrie
Metoda molekulární dynamiky
Multifaktorová analýza
Shluková hierarchická analýza Obrázek 1
3. cvičení
Spojitá a kategoriální data Základní popisné statistiky
OBHAJOBA MATURITNÍ PRÁCE
Pravděpodobnost a matematická statistika I.
Neparametrické testy pro porovnání polohy
Pokročilé metody analýzy dat v neurovědách
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Pokročilé neparametrické metody Validační techniky
Autor: Honnerová Helena
Induktivní statistika
Základy statistiky.
Náhodné výběry a jejich zpracování
Transkript prezentace:

Shlukovací algoritmy založené na vzorkování Marta Žambochová Katedra matematiky a statistiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem 3.– 5. června 2012 Nové Hrady

Motivace Potřeba metod pro analýzu dat velkých datových souborů Minimalizace počtu průchodů celým datovým souborem Výběr vzorku dat

Algoritmy využívající ke vzorkování stromy CLARANS (pro velké datové soubory) (Clustering Large Application based on RANdomized Search) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) SCAHIPAT (Spatial Clustering Algorithm Based on Hierarchical-Partition Tree)

CLARANS (pro velké soubory) R*- stromy 8 29 3 1 2 4 6 7 9 15 26 30 35 40 43

CLARANS náhodný výběr k medoidů přiřazení zbývajících objektů k jim nejbližšímu medoidu náhodný výběr jednoho zástupce z medoidů a náhodný výběr jednoho z objektů zkoumaného souboru, který není medoidem zjištění, zda by záměnou těchto dvou objektů došlo ke zlepšení pokud by ke zlepšení došlo, provede záměnu

BIRCH CF - stromy

BIRCH vytvoření CF-stromu postupným zařazením datových objektů kondenzace vytvořeného CF-stromu a optimalizace jeho velikosti shlukování listových vrcholů pomocí aglomerativního hierarchického algoritmu shlukování (přerozdělení objektů k jejich nejbližším centrům, a tím získání nového složení shluků)

SCAHIPAT H-P stromy (Hierarchical-Partition Tree)

SCAHIPAT vytvoření H-P stromu výpočet statistik (hustota, hranice) pro každou podmnožinu spojování vhodných podmnožin vyřazení objektů, které jsou podezřelé z odlehlosti

Algoritmy nevyužívající ke vzorkování stromy BIRCH k-průměrů FEKM (Fast and Exact K-Means)

BIRCH k-průměrů Shluky (skupiny) objektů Upravená varianta algoritmu BIRCH Nevytváří CF-strom Uspořádaná trojice údajů (m, q, b), kde m je velikost daného shluku, q je kvalita daného shluku (součet druhých mocnin vzdáleností centroidu od všech objektů ve shluku) a b je centroid shluku

FEKM Náhodný výběr Postup zpracování: Prvotní vytvoření přiměřeně velkého výběrového souboru z původního souboru dat V rámci tohoto souboru jsou vytvořeny shluky pomocí klasického algoritmu k-průměrů V každé iteraci se zaznamená všech k center a k nim popisné statistiky V druhé fázi algoritmus prochází celý datový soubor Každý datový objekt se přiřadí do určitého shluku (k nejbližšímu centru) Problém chybného zařazení do shluku se týká především objektů ležících na okraji shluků Ve třetí fázi se algoritmus zabývá podezřelými okrajovými body, které odhalila a uložila předchozí fáze Provádí se přepočet s využitím uložených statistik popisujících každý jednotlivý shluk a podezřelých okrajových objektů. Pokud existuje přepočtené centrum, které je od původního více vzdálené, než předem zadaná kritická hodnota, vrací se algoritmus do druhé fáze a probíhá opětovný průchod celým datovým souborem

Shrnutí Nevýhoda většina zmíněných algoritmů = vzorkování přináší zhoršenou kvalitu shlukování Nevýhoda algoritmu FEKM = malý počet průchodů celým souborem pouze ve výjimečných případech, závisí na prvotním vzorku dat Bylo by možné zkombinovat některý z uvedených algoritmů s algoritmem FEKM tak, aby bylo dosaženo lepších výsledků?