SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM.

Slides:



Advertisements
Podobné prezentace
L 04 – Záhlaví / Zápatí § Pojem Záhlaví – Zápatí
Advertisements

SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází.
Dostačující podmínky •Sporný cyklus –Cyklus ve sporném orientovaném grafu •Sporné kolo –Struktura sporných cyklů.
Návod ke správě týmu pro novou verzi webu
Dualita úloh lineárního programování a analýza citlivosti
METODA QFD QUALITY FUNCTION DEPLOYMENT.
Univerzální software Ht Monit
KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např.
Red-Black Stromy Binární Vyhledávací Stromy, u kterých je časová složitost operací v nejhorším případě rovná O(log n)
BLIŽŠÍ POHLED NA TŘÍDY, DĚDIČNOST - úvod
SAS Jan Blaťák Laboratoř vyhledávání znalostí Fakulta informatiky Masarykova Univerzita, Brno
Projektový management
Vzhled stránky Velikost, okraje, orientace. Vzhled stránky POZOR! Zpravidla bychom si měli vzhled stránky uvědomit a rozmyslet jako první Pokud máme celý.
Algoritmizace 9. Ročník.
ADT Strom.
Algoritmizace a programování
VYPRACOVALA: MGR. HANA TOFLOVÁ DNE: ICT2/1/3/13 WORD - tabulky.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Projekt – úkoly, zdroje, vazby úkolů, náklady Ing. Jiří Šilhán.
MS PowerPoint Prezentační manažer Kapitola 4.0 (Text)
Algoritmizace.
Shlukovací algoritmy založené na vzorkování
Geo-informační systémy
také Gaussovo rozdělení (normal or Gaussian distribution)
Shluková analýza.
VY_32_INOVACE_55_MS_Word_IV. Autor : Trýzna Stanislav Školní rok : 2011/2012 Určeno pro : šestý ročník Předmět: informatika Téma : základní orientace.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
TEXTOVÝ EDITOR.
Systém rizikové analýzy při statickém návrhu podzemního díla Jan Pruška.
Fakulta elektrotechniky a informatiky
Modelování odezvy zákazníků v systému SAS Enterprise Miner™ Ukázková úloha pro předmět Získávání znalostí z databází doc. Ing. Jaroslav Zendulka, CSc.
Institut ekonomiky a systému řízení Oddělení GIS
Shluková analýza.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Dokumentace informačního systému
Lineární regrese.
Přednáška č. 1 Proces návrhu databáze
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Rozpoznávání v řetězcích
Struktura porostu Zdeněk Adamec.
Hodnocení pedagogické činnosti studenty 2005/2006.
Metrologie   Přednáška č. 5 Nejistoty měření.
Real time jádro operačního systému Lukáš Hamáček.
Normální rozdělení a ověření normality dat
11. přednáška Měření drsnosti povrchu
Projektový cyklus, analýza SWOT
Marketingový průzkum Milan Mrázek Matematika & Business
Měkké systémy.
NUMERICKÁ HOMOGENIZACE PERFOROVANÝCH DESEK
Metodologie měkkých systémů
Projektové managerství – řízení projektů LS 2011/2012 Mgr. Monika Součková Cvičení FIT ČVUT.
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
© Institut biostatistiky a analýz Vícerozměrné metody - cvičení RNDr. Eva Janoušová Podzim 2014.
2. Hra v normálním tvaru, hra s konstantním součtem Martin Dlouhý VŠE v Praze.
Název: Měření spotřeby paliva na volnoběh s nezahřátým motorem Autor: Petr Hart, DiS. Název SŠ:VOŠ, SPŠ automobilní a technická Tem. oblast:Zážehové motory.
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU:CZ.1.07/1.4.00/ AUTOR:Mgr. Vladimír.
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie PREZENTAČNÍ A KOMUNIKAČNÍ DOVEDNOSTI MANAŽERA VE VYBRANÉM PODNIKU.
Hromadná korespondence 2 OpenOffice
4. cvičení
Proč statistika ? Dva důvody Popis Inference
3. cvičení
Úvod do matematické analýzy - pokračování 3
Metodologie měkkých systémů
ArchiCAD nástroj Sloup
Datové sklady (Data Warehouse)
Datové sklady (Data Warehouse)
Analytický geometrie kvadratických útvarů
Transkript prezentace:

SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM

Formulace problému Definice dat Shlukovací analýza Vyhodnocení Obsah.Presentace

Úkol: Formulace.Problému Předpokládejme, že máme zpracovat data pro manažera baseballové ligy. Má zájem na rozčlenění hráčů do skupin s ohledem na nasbíraná a dostupná data. Nemá však bližší představu. Zajímá ho jaké skupiny hráčů se objeví a co je charakterizuje. Převzato z Data Mining Using Enterprise Miner TM A Case Study Approach First Edition

Definice dat: Definice.Dat Poskytnutá data jsou nasbírané údaje o hráčích v průběhu jedné sezóny: Jméno, Tým, Pozice, Divize, Počet nástupů na pálku, Počet odpalů, Počet homerunů, Výplata, …

Vložení uzlu pro data: Input.Node

Vložení uzlu pro data: Input.Node

Načtení dat: Input.Node Odmítnutí zbytečných proměnných >> rejected

Vložení uzlu Replacement: Replacement.Node K nahrazení chybějících hodnot Nutné zejména pokud chybí značné množství hodnot

Vložení uzlu Clustering: Cluster.Node

Vložení uzlu Insight: Insight.Node

Nastavení parametrů uzlu Clustering: Cluster.Node Nastavíme požadovaný počet shluků Můžeme zde nastavit i normalizaci jednotek různých vstupů

Spuštění shlukovací analýzy: Cluster.Node Výška : počet pozorování Barva : vzdálenost nejvzdálenějšího prvku shluku od středu

Nastavení parametrů: Cluster.Node Algoritmus K-means v SAS pracuje standardně v rozsahu 40 shluků. V našem případě těžké interpretovat 10 shluků. Snížíme horní hranici na 10 shluků.

Opravení počtu shluků: Cluster.Node

Znovu shlukovací analýza: Cluster.Node

Normalizované středy: Cluster.Node Porovnání celkových normalizovaných středů od středů jednotlivých shluků

Normalizované středy: Cluster.Node

Využití uzlu Insight: Insight.node Obsahuje všechna pozorování Navíc dva sloupečky: Příslušnost ke shluku, Vzdálenost od středu

Grafické znázornění výsledků pomocí uzlu Insight: Insight.node

Výsledek: Interpretace získaných dat Shluk 1 : Hráči patří k nejmladším, s málo zkušenostmi a pravděpodobně malou “životností” Shluk 2 : Starší hráči s průměrnými výsledky Shluk 3 : Hráči, kteří patří k nejzkušenějším, mají lehce nadprůměrné výsledky, ovšem vynikající výsledky za minulý rok, lze předpokládat, že budou ještě dlouho aktivní

Slabá místa: Shrnutí Nutnost volit počet shluků Interpretace výsledků

Děkuji za pozornost Konec.Presentace