Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Shluková analýza. Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek.

Podobné prezentace


Prezentace na téma: "Shluková analýza. Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek."— Transkript prezentace:

1 Shluková analýza

2 Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek (například osob) do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých.

3 Dělení shlukovacích metod Hierarchické shlukování Nehierarchicé shlukování

4 Hierarchické shlukování je systém podmnožin, kde průnikem dvou podmnožin - shluků je buď prázdná množina, nebo jeden z nich. Pokud nastane alespoň jednou druhý případ, je systém hierarchický. Tedy je to jakési větvení, zjemňování klasifikace.

5 Příklad hierarchického shlukování Původní data Hierarchický shlukový dendrogram

6

7 Metody hierarchického shlukování Existují různé způsoby, jak shlukovat objekty na základě jejich vzdálenosti či podobnosti.

8 Metoda nejbližšího souseda (single linkage, nearest neighbor) Vzdálenost shluků je určována vzdáleností dvou nejbližších objektů z různých shluků. Při použití této metody jsou objekty taženy k sobě, výsledkem jsou dlouhé řetězy.

9 Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbor) Vzdálenost shluků je určována naopak vzdáleností dvou nejvzdálenějších objektů z různých shluků. Funguje dobře především v případě, že objekty tvoří přirozeně oddělené shluky kulovitého tvaru, nehodí se, pokud je tendence k řetězení.

10 Průměrná párová vzdálenost (average linkage, pair-group average) Vzdálenost shluků je určována jako průměr vzdáleností všech párů objektů z různých shluků. Je to jakýsi kompromis mezi předchozími dvěma metodami.

11 Dva přístupy k hierarchickému shlukování: divizní (vycházíme z celku, jednoho shluku, a ten dělíme) aglomerativní (vycházíme z jednotlivých objektů, shluků o jednom členu, a ty spojujeme)

12 Nehierarchické shlukování je takový systém, kde je průnik shluků prázdný (jedná se o disjunktní množiny).

13 Měření podobnosti objektů Shluková analýza vychází z podobnosti, resp. nepodobnosti (vzdálenosti) objektů. Její kvantitativní vyjádření je jedním ze základních problémů clusterové analýzy. Existuje mnoho způsobů sestrojení tohoto ukazatele.

14 Základní podmínky pro vhodný předpis míry vzdálenosti (podobnosti) objektů jsou: nezápornost: d(Oi, Oj) >= 0; oboustrannost: d(Oi, Oj) = d(Oj, Oi); shodné objekty by měly mít ukazatel vzdálenosti roven 0 (podobnostní ukazatel roven maximální hodnotě, většinou 1).

15 Příklady ukazatelů Metriky –Eukleidovská metrika (vhodná pro spojitá data) –Manhattanská metrika (vhodná pro diskrétní d.) –Chebychevova (maximum) metrika –další metriky … Korelační koeficient – hodí se především pro shlukování proměnných

16 Existuje řada dalších způsobů měření vzdálenosti či podobnost. Při výběru ukazatele je třeba brát v úvahu metodu shlukování a charakter souboru.

17 Centroidní metoda Vzdálenost shluků je určována vzdáleností jejich center (hypotetická jednotka s průměrnými hodnotami znaků). Může být nevážená nebo vážená. Vážená CM zohledňuje velikosti klastrů a hodí se, pokud očekáváme jejich rozdílnost. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.

18 Wardova metoda Vychází z analýzy rozptylu. Vybírá takové shluky ke sloučení, kde je minimální součet čtverců. Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.


Stáhnout ppt "Shluková analýza. Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek."

Podobné prezentace


Reklamy Google