Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilOldřich Pravec
1
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM
2
Formulace problému Definice dat Shlukovací analýza Vyhodnocení Obsah.Presentace
3
Úkol: Formulace.Problému Předpokládejme, že máme zpracovat data pro manažera baseballové ligy. Má zájem na rozčlenění hráčů do skupin s ohledem na nasbíraná a dostupná data. Nemá však bližší představu. Zajímá ho jaké skupiny hráčů se objeví a co je charakterizuje. Převzato z Data Mining Using Enterprise Miner TM A Case Study Approach First Edition
4
Definice dat: Definice.Dat Poskytnutá data jsou nasbírané údaje o hráčích v průběhu jedné sezóny: Jméno, Tým, Pozice, Divize, Počet nástupů na pálku, Počet odpalů, Počet homerunů, Výplata, …
5
Vložení uzlu pro data: Input.Node
6
Vložení uzlu pro data: Input.Node
7
Načtení dat: Input.Node Odmítnutí zbytečných proměnných >> rejected
8
Vložení uzlu Replacement: Replacement.Node K nahrazení chybějících hodnot Nutné zejména pokud chybí značné množství hodnot
9
Vložení uzlu Clustering: Cluster.Node
10
Vložení uzlu Insight: Insight.Node
11
Nastavení parametrů uzlu Clustering: Cluster.Node Nastavíme požadovaný počet shluků Můžeme zde nastavit i normalizaci jednotek různých vstupů
12
Spuštění shlukovací analýzy: Cluster.Node Výška : počet pozorování Barva : vzdálenost nejvzdálenějšího prvku shluku od středu
13
Nastavení parametrů: Cluster.Node Algoritmus K-means v SAS pracuje standardně v rozsahu 40 shluků. V našem případě těžké interpretovat 10 shluků. Snížíme horní hranici na 10 shluků.
14
Opravení počtu shluků: Cluster.Node
15
Znovu shlukovací analýza: Cluster.Node
16
Normalizované středy: Cluster.Node Porovnání celkových normalizovaných středů od středů jednotlivých shluků
17
Normalizované středy: Cluster.Node
18
Využití uzlu Insight: Insight.node Obsahuje všechna pozorování Navíc dva sloupečky: Příslušnost ke shluku, Vzdálenost od středu
19
Grafické znázornění výsledků pomocí uzlu Insight: Insight.node
20
Výsledek: Interpretace získaných dat Shluk 1 : Hráči patří k nejmladším, s málo zkušenostmi a pravděpodobně malou “životností” Shluk 2 : Starší hráči s průměrnými výsledky Shluk 3 : Hráči, kteří patří k nejzkušenějším, mají lehce nadprůměrné výsledky, ovšem vynikající výsledky za minulý rok, lze předpokládat, že budou ještě dlouho aktivní
21
Slabá místa: Shrnutí Nutnost volit počet shluků Interpretace výsledků
22
Děkuji za pozornost Konec.Presentace
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.