Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Systémy pro podporu managementu 2

Podobné prezentace


Prezentace na téma: "Systémy pro podporu managementu 2"— Transkript prezentace:

1 Systémy pro podporu managementu 2
Data warehousing a data mining

2 Obsah přednášky Data warehousing jako proces Data mining
Co je a co není DM Základní typy úloh data miningu Metodologie data miningu Typické problémy řešené pomocí DM Problémy DM Nástroje DM

3 Data warehousing Návrh systémů pro analýzy dat založených na principu vytvoření jednotného obrazu firmy obsahujícím data integrovaná ze všech informačních zdrojů, historická, detailní a transformovaná do tvaru vhodném pro analýzy (DSS, BI, data mining) Struktura: Zdroje dat Pracovní oblast Datový sklad (Data Warehouse) Datová tržiště (Data Marts)

4 Data warehousing - milníky
1988 – Barry Devlin a Paul Murphy zavedli termín „business data warehouse“ Bill Inmon publikoval knihu „Building the Data Warehouse“ 1996 – Ralph Kimball vydal knihu „The Data Wareouse Toolkit“

5 Data warehousing – schéma 1
Star (hvězda) - nejjednodušší schéma datového skladu – jedna nebo několik tabulek faktů a libovolný počet tabulek dimenzí Designing the Star Schema Database by Craig Utley

6 Data warehousing – schéma 2
Snowflake (sněhová vločka) – centrální tabulka faktů a víceúrovňová struktura tabulek dimenzí Why is the Snowflake Schema a Good Data Warehouse Design? by Mark Levene and George Loizou

7 Data warehousing jako proces
Vytvořením a provozem datového skladu je zároveň vyřešeno několik zásadních oblastí, vzájemně provázaných procesy: Přístup do heterogenních zdrojů dat a jejich integrace Správa a uchovávání integrovaných údajů Využití integrovaných údajů, pokročilá analýza dat, efektivní prezentace získaných informací

8 Co je data mining “Datamining je netrivální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech„ (Fayyad, 1996) Proces – výsledky jedné etapy kladou nové otázky – je iterativní Platných – výsledky lze generalizovat na nová data Neznámých – známé skutečnosti nepotřebujeme odhalovat Užitečných – neužitečné pro nás nemají hodnotu Pochopitelných – vedou k porozumění problému

9 Co není data mining DM není statistika
Využívá statistické metody jako jeden z nástrojů (teorie informace, logika, umělá inteligence, …) Je více orientován na uživatele, motivován praxí DM není KDD (Knowledge discovery in Databases) DM je součástí KDD

10 Evoluce vztahů lidí k datům
složitost Data mining Datové sklady a OLAP Relační databáze Databáze čas

11 Základní typy úloh data miningu
Typ úlohy Základní úkol Nejčastější metody Klasifikace, predikce, regrese Odhadnout či předpovědět hodnotu atributu Rozhodovací stromy, logistická regrese, neuronové sítě, lineární regrese Shlukování / Segmentace Seskupit podobné objekty do shluků/segmentů K-Means, Kohonenovy neuronové sítě, EM clustering Popis / Hledání závislostí Popsat některé vlastnosti dat/najít zajímavé závislosti Popisná statistika, testy hypotéz, rozhodovací stromy, asociační pravidla

12 Proces dolování z dat Datový sklad „Syrová“ data Výběr dat, čištění
Integrace Znalosti Vybraná data Interpretace a ohodnocení Transformace Modely Transformovaná data Vizualizace reporting modelování Data mining Závislosti

13 Metodologie data miningu
Jednotný rámec pro řešení úloh z oblasti DM 5A – firma SPSS – klíčový produkt Clementine Text mining Web mining SEMMA – firma SAS CRISP-DM (Cross Industry Standard Process for Data Mining) – softwarově nezávislá ADASTRA

14 … a některé další nástroje
IBM Intelligent miner Statistica Data Miner Weka - freeware

15 Životní cyklus projektu podle metodologie CRISP-DM
Životní cyklus projektu dobývání znalostí je podle metodologie CRISP-DM tvořen šesti fázemi. Pořadí jednotlivých fází není pevně dáno. Výsledek dosažený v jedné fázi ovlivňuje volbu kroků následujících, často je třeba se k některým krokům a fázím vracet. Vnější kruh na obrázku symbolizuje cyklickou povahu procesu dobývání znalostí z databází jako takovou.

16 Jednotlivé kroky procesu dobývání znalostí jsou různě časově náročné a mají i různou důležitost pro úspěšné vyřešení dané úlohy: nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu) překvapivě málo práce zaberou vlastní analýzy (5 % času, 2 % významu).

17 Typické problémy řešené pomocí DM
DM je soubor metod pro řešení určitých druhů problémů: Problémy Klasifikace a predikce Shluková analýza Analýza nákupního košíku Závislostní analýza Metody Rozhodovací stromy Bayesovské modely Neuronové sítě Genetické algoritmy Fuzzy logika GUHA

18 Klasifikace Na základě několika atributů vstupního záznamu zařadit tento záznam do jedné z předem daných skupin Příklady: Na základě vyplněného dotazníku zařadit žadatele o úvěr do určité rizikové skupiny Rozhodnout, zda daný klient bude ziskový

19 Predikce Na základě několika známých hodnot atributů vstupního záznamu odhadnout hodnotu dalšího atributu Příklady: Odhady růstu HDP, inflace, nezaměstnanosti

20 Shluková analýza Nalezení skupin podobných záznamů
Příklad: segmentace zákazníků – hledání cílových skupin zákazníků pro určitý produkt

21 Oblasti nasazení DM Automatizace činnosti (komunikace se zákazníky, kontrola kvality výrobků Vysoká konkurence v daném odvětví Zákonná regulace (finanční sféra) Bankovnictví (churn, neboli odchod zákazníků, rizikovost, odhalování praní špinavých peněz) Telekomunikace (analytické CRM) Pojišťovnictví (detekce podvodů) Velkoobchod, maloobchod (cross-selling) Síťová odvětví

22 Problémy DM Problémy s daty Problémy s interpretací
Různé zdroje, chybějící a špatné hodnoty Ideálním zdrojem je datový sklad Problémy s interpretací Triviální závislosti (matka -> z 99% žena) Závislosti bez praktického významu – nutnost spolupráce s expertem z oboru Problémy s dobou odezvy Testování DM algoritmů probíhá na malých souborech dat (tisíce) Skutečné datové sklady o několik řádů větší Řešení: Speciální rychlé algoritmy Vzorkování (někdy nelze použít) Počkat si (i několik dnů)


Stáhnout ppt "Systémy pro podporu managementu 2"

Podobné prezentace


Reklamy Google