Shluková analýza.

Slides:



Advertisements
Podobné prezentace
LOGISTICKÉ SYSTÉMY 14/15.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Analýza struktury povolání v Americe
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
kvantitativních znaků
Použité statistické metody
Časové řady OA a VOŠ Příbram.
EDA pro časové řady.
Hodnocení způsobilosti měřících systémů
Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský,
Dědičnost ukazatelů fyzické zdatnosti
Shluková analýza Shluk (klastr, cluster) je skupina objektů, které uvnitř nějaké větší skupiny nemají ani nahodilý ani rovnoměrný výskyt a jejich vzájemná.
Charakteristiky variability
LOGISTICKÉ SYSTÉMY 7/14.
Metody mezipodnikového srovnávání
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Statistika Vypracoval: Mgr. Lukáš Bičík
Shlukovací algoritmy založené na vzorkování
kvantitativních znaků
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
Biostatistika 9. přednáška Aneta Hybšová
Řízení a supervize v sociálních a zdravotnických organizacích
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Shluková analýza.
Charakteristiky variability
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Charakteristiky variability
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 6.
Rozdělení diskrétních veličin. Příklady diskrétních náhodných veličin Pokus jev nastaljev nenastal pnS hod mincírublíc1/2počet hodůpočet rubů celkem narození.
Mnohorozměrná statistika
Pohled z ptačí perspektivy
Základy zpracování geologických dat
Množiny.
2. Vybrané základní pojmy matematické statistiky
 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.
Průměrné vážené náklady kapitálu
Vícerozměrné statistické metody
Normální rozdělení a ověření normality dat
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 5.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Jednovýběrový a párový t - test
Opakování – přehled metod
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
4. cvičení
Co se dá změřit v psychologii a pedagogice?
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Shluková hierarchická analýza Obrázek 1
3. cvičení
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Pokročilé metody analýzy dat v neurovědách
Metodologie pro ISK 2 Úvod do práce s daty
Viacrozmerné štatistické metódy Viacrozmerné metódy všeobecne
Analýza kardinálních proměnných
ANALÝZA A KLASIFIKACE DAT
Autor: Honnerová Helena
Definiční obory. Množiny řešení. Intervaly.
Transkript prezentace:

Shluková analýza

Shluková analýza Shluková analýza (též clusterová analýza, anglicky cluster analysis) je vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých.

Shlukovou analýzu je možné provádět: na množině objektů, z nichž každý musí být popsán prostřednictvím stejného souboru znaků, které má smysl v dané množině sledovat na množině znaků, které jsou charakterizovány prostřednictvím určitého souboru objektů, nositelů těchto znaků

Dělení shlukovacích metod Hierarchické shlukování Nehierarchicé shlukování

Hierarchické shlukování je systém podmnožin, kde průnikem dvou podmnožin - shluků je buď prázdná množina, nebo jeden z nich. Pokud nastane alespoň jednou druhý případ, je systém hierarchický. Tedy je to jakési větvení, zjemňování klasifikace.

Příklad hierarchického shlukování Původní data Hierarchický shlukový dendrogram

Metody hierarchického shlukování Existují různé způsoby, jak shlukovat objekty na základě jejich vzdálenosti či podobnosti.

Metoda nejbližšího souseda (single linkage, nearest neighbor) Vzdálenost shluků je určována vzdáleností dvou nejbližších objektů z různých shluků. Při použití této metody jsou objekty taženy k sobě, výsledkem jsou dlouhé řetězy.

Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbor) Vzdálenost shluků je určována naopak vzdáleností dvou nejvzdálenějších objektů z různých shluků. Funguje dobře především v případě, že objekty tvoří přirozeně oddělené shluky, nehodí se, pokud je tendence k řetězení.

Průměrná párová vzdálenost (average linkage, pair-group average) Vzdálenost shluků je určována jako průměr vzdáleností všech párů objektů z různých shluků. Může být ve vážené i nevážené podobě.

Dva přístupy k hierarchickému shlukování: divizní (vycházíme z celku, jednoho shluku, a ten dělíme) aglomerativní (vycházíme z jednotlivých objektů, shluků o jednom členu, a ty spojujeme)

Nehierarchické shlukování je takový systém, kde je průnik shluků prázdný (jedná se o disjunktní množiny).

Měření podobnosti objektů Shluková analýza vychází z podobnosti, resp. nepodobnosti (vzdálenosti) objektů. Její kvantitativní vyjádření je jedním ze základních problémů clusterové analýzy. Existuje mnoho způsobů sestrojení tohoto ukazatele.

Základní podmínky pro vhodný předpis míry vzdálenosti (podobnosti) objektů jsou: nezápornost: d(Oi, Oj) >= 0; oboustrannost: d(Oi, Oj) = d (Oj, Oi); shodné objekty by měly mít ukazatel vzdálenosti roven 0 (podobnostní ukazatel roven maximální hodnotě, většinou 1).

Příklady ukazatelů Metriky Koeficienty asociace Korelační koeficient Eukleidovská metrika Čtvercová eukleidovská metrika Manhattanská metrika Chebychevova (maximum) metrika další metriky … Koeficienty asociace Korelační koeficient

Koeficienty asociace určeny pro hodnocení podobnosti pro objekty vyjádřené dichotomickými znaky ukazatele založeny na počtu shod nebo rozdílů znaků

Korelační koeficient hodí se především pro shlukování proměnných

Existuje řada dalších způsobů měření vzdálenosti či podobnost. Při výběru ukazatele je třeba brát v úvahu metodu shlukování a charakter souboru.

Centroidní metoda Vzdálenost shluků je určována vzdáleností jejich center (hypotetická jednotka s průměrnými hodnotami znaků). Může být nevážená nebo vážená. Vážená CM zohledňuje velikosti klastrů a hodí se, pokud očekáváme jejich rozdílnost. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.

Wardova metoda Vychází z analýzy rozptylu. Vybírá takové shluky ke sloučení, kde je minimální součet čtverců. Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.

Shluková analýza v R life <- read.table("life.txt", header=T, row.names=1) plclust(hclust(dist(life), method="single"), labels=row.names(life), ylab="Vzdalenost")

Shluková analýza v R country <- row.names(life) par(mfrow=c(1,3)) plclust(hclust(dist(life) ,method="single"), labels=country,ylab="Vzdalenost") title(" (a) Single linkage") plclust(hclust(dist(life) ,method="complete"), title(" (b) Complete linkage") plclust(hclust(dist(life),method="average") , title(" (c) Average linkage")

Shluková analýza v R rez <- cutree(hclust(dist(life), method="complete"), h=21) rez shluky <- lapply(1:5, function(nc) country[rez==nc]) shluky prumery <- lapply(1:5, function(nc) apply(life[rez==nc,], 2, mean)) prumery pairs(life, panel=function(x,y) text(x,y,rez))