Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Systémy pro podporu managementu 2 Data warehousing a data mining.

Podobné prezentace


Prezentace na téma: "Systémy pro podporu managementu 2 Data warehousing a data mining."— Transkript prezentace:

1 Systémy pro podporu managementu 2 Data warehousing a data mining

2 Obsah přednášky Data warehousing jako proces Data mining Co je a co není DM Základní typy úloh data miningu Metodologie data miningu Typické problémy řešené pomocí DM Problémy DM Nástroje DM

3 Data warehousing Návrh systémů pro analýzy dat založených na principu vytvoření jednotného obrazu firmy obsahujícím data integrovaná ze všech informačních zdrojů, historická, detailní a transformovaná do tvaru vhodném pro analýzy (DSS, BI, data mining) Struktura: Zdroje dat Pracovní oblast Datový sklad (Data Warehouse) Datová tržiště (Data Marts)

4 Data warehousing - milníky 1988 – Barry Devlin a Paul Murphy zavedli termín „business data warehouse“ Bill Inmon publikoval knihu „Building the Data Warehouse“ 1996 – Ralph Kimball vydal knihu „The Data Wareouse Toolkit“

5 Data warehousing – schéma 1 Star (hvězda) - nejjednodušší schéma datového skladu – jedna nebo několik tabulek faktů a libovolný počet tabulek dimenzí Designing the Star Schema Database Designing the Star Schema Database by Craig Utley

6 Data warehousing – schéma 2 Snowflake (sněhová vločka) – centrální tabulka faktů a víceúrovňová struktura tabulek dimenzí Why is the Snowflake Schema a Good Data Warehouse Design? by Mark Levene and George LoizouWhy is the Snowflake Schema a Good Data Warehouse Design?

7 Data warehousing jako proces Vytvořením a provozem datového skladu je zároveň vyřešeno několik zásadních oblastí, vzájemně provázaných procesy: Přístup do heterogenních zdrojů dat a jejich integrace Správa a uchovávání integrovaných údajů Využití integrovaných údajů, pokročilá analýza dat, efektivní prezentace získaných informací

8 Co je data mining “Datamining je netrivální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech„ (Fayyad, 1996) Proces – výsledky jedné etapy kladou nové otázky – je iterativní Platných – výsledky lze generalizovat na nová data Neznámých – známé skutečnosti nepotřebujeme odhalovat Užitečných – neužitečné pro nás nemají hodnotu Pochopitelných – vedou k porozumění problému

9 Co není data mining DM není statistika Využívá statistické metody jako jeden z nástrojů (teorie informace, logika, umělá inteligence, …) Je více orientován na uživatele, motivován praxí DM není KDD (Knowledge discovery in Databases) DM je součástí KDD

10 Evoluce vztahů lidí k datům Databáze Relační databáze Datové sklady a OLAP Data mining čas složitost

11 Základní typy úloh data miningu Typ úlohyZákladní úkolNejčastější metody Klasifikace, predikce, regrese Odhadnout či předpovědět hodnotu atributu Rozhodovací stromy, logistická regrese, neuronové sítě, lineární regrese Shlukování / Segmentace Seskupit podobné objekty do shluků/segmentů K-Means, Kohonenovy neuronové sítě, EM clustering Popis / Hledání závislostí Popsat některé vlastnosti dat/najít zajímavé závislosti Popisná statistika, testy hypotéz, rozhodovací stromy, asociační pravidla

12 Proces dolování z dat Výběr dat, čištění Transformace Data mining Vizualizace reporting modelování Interpretace a ohodnocení Integrace Znalosti Datový sklad Vybraná data Transformovaná data Závislosti Modely „Syrová“ data

13 Metodologie data miningu Jednotný rámec pro řešení úloh z oblasti DM 5A – firma SPSS – klíčový produkt ClementineSPSS Text mining Web mining SEMMA – firma SASSAS CRISP-DM (Cross Industry Standard Process for Data Mining) – softwarově nezávislá CRISP-DM ADASTRA

14 … a některé další nástroje IBM Intelligent miner Statistica Data Miner Weka - freeware

15 Životní cyklus projektu podle metodologie CRISP-DM Životní cyklus projektu dobývání znalostí je podle metodologie CRISP-DM tvořen šesti fázemi. Pořadí jednotlivých fází není pevně dáno. Výsledek dosažený v jedné fázi ovlivňuje volbu kroků následujících, často je třeba se k některým krokům a fázím vracet. Vnější kruh na obrázku symbolizuje cyklickou povahu procesu dobývání znalostí z databází jako takovou.

16 Jednotlivé kroky procesu dobývání znalostí jsou různě časově náročné a mají i různou důležitost pro úspěšné vyřešení dané úlohy: nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu) překvapivě málo práce zaberou vlastní analýzy (5 % času, 2 % významu).

17 Typické problémy řešené pomocí DM DM je soubor metod pro řešení určitých druhů problémů: Problémy Klasifikace a predikce Shluková analýza Analýza nákupního košíku Závislostní analýza … Metody Rozhodovací stromy Bayesovské modely Neuronové sítě Genetické algoritmy Fuzzy logika GUHA …

18 Klasifikace Na základě několika atributů vstupního záznamu zařadit tento záznam do jedné z předem daných skupin Příklady: Na základě vyplněného dotazníku zařadit žadatele o úvěr do určité rizikové skupiny Rozhodnout, zda daný klient bude ziskový

19 Predikce Na základě několika známých hodnot atributů vstupního záznamu odhadnout hodnotu dalšího atributu Příklady: Odhady růstu HDP, inflace, nezaměstnanosti

20 Shluková analýza Nalezení skupin podobných záznamů Příklad: segmentace zákazníků – hledání cílových skupin zákazníků pro určitý produkt

21 Oblasti nasazení DM Automatizace činnosti (komunikace se zákazníky, kontrola kvality výrobků Vysoká konkurence v daném odvětví Zákonná regulace (finanční sféra) Bankovnictví (churn, neboli odchod zákazníků, rizikovost, odhalování praní špinavých peněz) Telekomunikace (analytické CRM) Pojišťovnictví (detekce podvodů) Velkoobchod, maloobchod (cross-selling) Síťová odvětví

22 Problémy DM Problémy s daty Různé zdroje, chybějící a špatné hodnoty Ideálním zdrojem je datový sklad Problémy s interpretací Triviální závislosti (matka -> z 99% žena) Závislosti bez praktického významu – nutnost spolupráce s expertem z oboru Problémy s dobou odezvy Testování DM algoritmů probíhá na malých souborech dat (tisíce) Skutečné datové sklady o několik řádů větší Řešení: Speciální rychlé algoritmy Vzorkování (někdy nelze použít) Počkat si (i několik dnů)


Stáhnout ppt "Systémy pro podporu managementu 2 Data warehousing a data mining."

Podobné prezentace


Reklamy Google