Shluková analýza.

Slides:



Advertisements
Podobné prezentace
LOGISTICKÉ SYSTÉMY 14/15.
Advertisements

Analýza struktury povolání v Americe
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
EDA pro časové řady.
Hodnocení způsobilosti měřících systémů
Dědičnost ukazatelů fyzické zdatnosti
Základy lineárního programování
Shluková analýza Shluk (klastr, cluster) je skupina objektů, které uvnitř nějaké větší skupiny nemají ani nahodilý ani rovnoměrný výskyt a jejich vzájemná.
Charakteristiky variability
Metody mezipodnikového srovnávání
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Heuristické metody Heuristiky dělíme na primární a duální.
Statistika Vypracoval: Mgr. Lukáš Bičík
Shlukovací algoritmy založené na vzorkování
kvantitativních znaků
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
Sociologický výzkum.
Biostatistika 9. přednáška Aneta Hybšová
Řízení a supervize v sociálních a zdravotnických organizacích
Míry podobnosti Klastrová analýza Metoda TWINSPAN
Charakteristiky variability
Lineární regresní analýza
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Charakteristiky variability
Popisná statistika III
Teorie psychodiagnostiky a psychometrie
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Odhad metodou maximální věrohodnost
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 6.
Mnohorozměrná statistika
Pohled z ptačí perspektivy
Základy zpracování geologických dat
2. Vybrané základní pojmy matematické statistiky
 Zkoumáním fyzikálních objektů (např. polí, těles) zjišťujeme že:  zkoumané objekty mají dané vlastnosti,  nacházejí se v určitých stavech,  na nich.
Průměrné vážené náklady kapitálu
Vícerozměrné statistické metody
Biostatistika 8. přednáška
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Trojúhelník.
Teorie her pro manažery, redistribuční systémy Mikroekonomie magisterský kurz - VŠFS Jiří Mihola, Téma 5.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Opakování – přehled metod
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Definiční obor a obor hodnot
Induktivní statistika
- váhy jednotlivých studií
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Multifaktorová analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Shluková hierarchická analýza Obrázek 1
3. cvičení
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Pokročilé metody analýzy dat v neurovědách
Viacrozmerné štatistické metódy Viacrozmerné metódy všeobecne
Analýza kardinálních proměnných
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT
Autor: Honnerová Helena
2. Vybrané základní pojmy matematické statistiky
Induktivní statistika
Definiční obory. Množiny řešení. Intervaly.
Transkript prezentace:

Shluková analýza

Shluková analýza Shluková analýza – vícerozměrná statistická metoda, která se používá ke klasifikaci objektů. Slouží k třídění statistických jednotek (například osob) do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých.

Dělení shlukovacích metod Hierarchické shlukování Nehierarchicé shlukování

Hierarchické shlukování je systém podmnožin, kde průnikem dvou podmnožin - shluků je buď prázdná množina, nebo jeden z nich. Pokud nastane alespoň jednou druhý případ, je systém hierarchický. Tedy je to jakési větvení, zjemňování klasifikace.

Příklad hierarchického shlukování Původní data Hierarchický shlukový dendrogram

Metody hierarchického shlukování Existují různé způsoby, jak shlukovat objekty na základě jejich vzdálenosti či podobnosti.

Metoda nejbližšího souseda (single linkage, nearest neighbor) Vzdálenost shluků je určována vzdáleností dvou nejbližších objektů z různých shluků. Při použití této metody jsou objekty taženy k sobě, výsledkem jsou dlouhé řetězy.

Metoda nejvzdálenějšího souseda (complete linkage, furthest neighbor) Vzdálenost shluků je určována naopak vzdáleností dvou nejvzdálenějších objektů z různých shluků. Funguje dobře především v případě, že objekty tvoří přirozeně oddělené shluky kulovitého tvaru, nehodí se, pokud je tendence k řetězení.

Průměrná párová vzdálenost (average linkage, pair-group average) Vzdálenost shluků je určována jako průměr vzdáleností všech párů objektů z různých shluků. Je to jakýsi kompromis mezi předchozími dvěma metodami.

Dva přístupy k hierarchickému shlukování: divizní (vycházíme z celku, jednoho shluku, a ten dělíme) aglomerativní (vycházíme z jednotlivých objektů, shluků o jednom členu, a ty spojujeme)

Nehierarchické shlukování je takový systém, kde je průnik shluků prázdný (jedná se o disjunktní množiny).

Měření podobnosti objektů Shluková analýza vychází z podobnosti, resp. nepodobnosti (vzdálenosti) objektů. Její kvantitativní vyjádření je jedním ze základních problémů clusterové analýzy. Existuje mnoho způsobů sestrojení tohoto ukazatele.

Základní podmínky pro vhodný předpis míry vzdálenosti (podobnosti) objektů jsou: nezápornost: d(Oi, Oj) >= 0; oboustrannost: d(Oi, Oj) = d(Oj, Oi); shodné objekty by měly mít ukazatel vzdálenosti roven 0 (podobnostní ukazatel roven maximální hodnotě, většinou 1).

Příklady ukazatelů Metriky Eukleidovská metrika (vhodná pro spojitá data) Manhattanská metrika (vhodná pro diskrétní d.) Chebychevova (maximum) metrika další metriky … Korelační koeficient – hodí se především pro shlukování proměnných

Existuje řada dalších způsobů měření vzdálenosti či podobnost. Při výběru ukazatele je třeba brát v úvahu metodu shlukování a charakter souboru.

Centroidní metoda Vzdálenost shluků je určována vzdáleností jejich center (hypotetická jednotka s průměrnými hodnotami znaků). Může být nevážená nebo vážená. Vážená CM zohledňuje velikosti klastrů a hodí se, pokud očekáváme jejich rozdílnost. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.

Wardova metoda Vychází z analýzy rozptylu. Vybírá takové shluky ke sloučení, kde je minimální součet čtverců. Obecně lze říci, že je tato metoda velmi účinná, ale má tendenci tvořit poměrně malé shluky. Požaduje vyjádření vzdálenosti objektů čtvercovou euklidovskou vzdáleností.