Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Shluková analýza
2
Shluková analýza Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek (například osob) do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých.
3
Dělení shlukovacích metod
Hierarchické shlukování Nehierarchicé shlukování
4
Hierarchické shlukování
je systém podmnožin, kde průnikem dvou podmnožin - shluků je buď prázdná množina, nebo jeden z nich. Pokud nastane alespoň jednou druhý případ, je systém hierarchický. Tedy je to jakési větvení, zjemňování klasifikace.
5
Příklad hierarchického shlukování
Původní data Hierarchický shlukový dendrogram
7
Metody hierarchického shlukování
Existují různé způsoby, jak shlukovat objekty na základě jejich vzdálenosti či podobnosti.
8
Metoda nejbližšího souseda (single linkage, nearest neighbor)
Vzdálenost shluků je určována vzdáleností dvou nejbližších objektů z různých shluků. Při použití této metody jsou objekty taženy k sobě, výsledkem jsou dlouhé řetězy.
9
Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbor)
Vzdálenost shluků je určována naopak vzdáleností dvou nejvzdálenějších objektů z různých shluků. Funguje dobře především v případě, že objekty tvoří přirozeně oddělené shluky kulovitého tvaru, nehodí se, pokud je tendence k řetězení.
10
Průměrná párová vzdálenost (average linkage, pair-group average)
Vzdálenost shluků je určována jako průměr vzdáleností všech párů objektů z různých shluků. Je to jakýsi kompromis mezi předchozími dvěma metodami.
11
Dva přístupy k hierarchickému shlukování:
divizní (vycházíme z celku, jednoho shluku, a ten dělíme) aglomerativní (vycházíme z jednotlivých objektů, shluků o jednom členu, a ty spojujeme)
12
Nehierarchické shlukování
je takový systém, kde je průnik shluků prázdný (jedná se o disjunktní množiny).
13
Měření podobnosti objektů
Shluková analýza vychází z podobnosti, resp. nepodobnosti (vzdálenosti) objektů. Její kvantitativní vyjádření je jedním ze základních problémů clusterové analýzy. Existuje mnoho způsobů sestrojení tohoto ukazatele.
14
Základní podmínky pro vhodný předpis míry vzdálenosti (podobnosti) objektů jsou:
nezápornost: d(Oi, Oj) >= 0; oboustrannost: d(Oi, Oj) = d(Oj, Oi); shodné objekty by měly mít ukazatel vzdálenosti roven 0 (podobnostní ukazatel roven maximální hodnotě, většinou 1).
15
Příklady ukazatelů Metriky
Eukleidovská metrika (vhodná pro spojitá data) Manhattanská metrika (vhodná pro diskrétní d.) Chebychevova (maximum) metrika další metriky … Korelační koeficient – hodí se především pro shlukování proměnných
16
Existuje řada dalších způsobů měření vzdálenosti či podobnost.
Při výběru ukazatele je třeba brát v úvahu metodu shlukování a charakter souboru.
17
Centroidní metoda Vzdálenost shluků je určována vzdáleností jejich center (hypotetická jednotka s průměrnými hodnotami znaků). Může být nevážená nebo vážená. Vážená CM zohledňuje velikosti klastrů a hodí se, pokud očekáváme jejich rozdílnost. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.
18
Wardova metoda Vychází z analýzy rozptylu.
Vybírá takové shluky ke sloučení, kde je minimální součet čtverců. Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.