SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM
Formulace problému Definice dat Shlukovací analýza Vyhodnocení Obsah.Presentace
Úkol: Formulace.Problému Předpokládejme, že máme zpracovat data pro manažera baseballové ligy. Má zájem na rozčlenění hráčů do skupin s ohledem na nasbíraná a dostupná data. Nemá však bližší představu. Zajímá ho jaké skupiny hráčů se objeví a co je charakterizuje. Převzato z Data Mining Using Enterprise Miner TM A Case Study Approach First Edition
Definice dat: Definice.Dat Poskytnutá data jsou nasbírané údaje o hráčích v průběhu jedné sezóny: Jméno, Tým, Pozice, Divize, Počet nástupů na pálku, Počet odpalů, Počet homerunů, Výplata, …
Vložení uzlu pro data: Input.Node
Vložení uzlu pro data: Input.Node
Načtení dat: Input.Node Odmítnutí zbytečných proměnných >> rejected
Vložení uzlu Replacement: Replacement.Node K nahrazení chybějících hodnot Nutné zejména pokud chybí značné množství hodnot
Vložení uzlu Clustering: Cluster.Node
Vložení uzlu Insight: Insight.Node
Nastavení parametrů uzlu Clustering: Cluster.Node Nastavíme požadovaný počet shluků Můžeme zde nastavit i normalizaci jednotek různých vstupů
Spuštění shlukovací analýzy: Cluster.Node Výška : počet pozorování Barva : vzdálenost nejvzdálenějšího prvku shluku od středu
Nastavení parametrů: Cluster.Node Algoritmus K-means v SAS pracuje standardně v rozsahu 40 shluků. V našem případě těžké interpretovat 10 shluků. Snížíme horní hranici na 10 shluků.
Opravení počtu shluků: Cluster.Node
Znovu shlukovací analýza: Cluster.Node
Normalizované středy: Cluster.Node Porovnání celkových normalizovaných středů od středů jednotlivých shluků
Normalizované středy: Cluster.Node
Využití uzlu Insight: Insight.node Obsahuje všechna pozorování Navíc dva sloupečky: Příslušnost ke shluku, Vzdálenost od středu
Grafické znázornění výsledků pomocí uzlu Insight: Insight.node
Výsledek: Interpretace získaných dat Shluk 1 : Hráči patří k nejmladším, s málo zkušenostmi a pravděpodobně malou “životností” Shluk 2 : Starší hráči s průměrnými výsledky Shluk 3 : Hráči, kteří patří k nejzkušenějším, mají lehce nadprůměrné výsledky, ovšem vynikající výsledky za minulý rok, lze předpokládat, že budou ještě dlouho aktivní
Slabá místa: Shrnutí Nutnost volit počet shluků Interpretace výsledků
Děkuji za pozornost Konec.Presentace