Systémy pro podporu managementu 2 Data warehousing a data mining
Obsah přednášky Data warehousing jako proces Data mining Co je a co není DM Základní typy úloh data miningu Metodologie data miningu Typické problémy řešené pomocí DM Problémy DM Nástroje DM
Data warehousing Návrh systémů pro analýzy dat založených na principu vytvoření jednotného obrazu firmy obsahujícím data integrovaná ze všech informačních zdrojů, historická, detailní a transformovaná do tvaru vhodném pro analýzy (DSS, BI, data mining) Struktura: Zdroje dat Pracovní oblast Datový sklad (Data Warehouse) Datová tržiště (Data Marts)
Data warehousing - milníky 1988 – Barry Devlin a Paul Murphy zavedli termín „business data warehouse“ 1991 - Bill Inmon publikoval knihu „Building the Data Warehouse“ 1996 – Ralph Kimball vydal knihu „The Data Wareouse Toolkit“
Data warehousing – schéma 1 Star (hvězda) - nejjednodušší schéma datového skladu – jedna nebo několik tabulek faktů a libovolný počet tabulek dimenzí Designing the Star Schema Database by Craig Utley
Data warehousing – schéma 2 Snowflake (sněhová vločka) – centrální tabulka faktů a víceúrovňová struktura tabulek dimenzí Why is the Snowflake Schema a Good Data Warehouse Design? by Mark Levene and George Loizou
Data warehousing jako proces Vytvořením a provozem datového skladu je zároveň vyřešeno několik zásadních oblastí, vzájemně provázaných procesy: Přístup do heterogenních zdrojů dat a jejich integrace Správa a uchovávání integrovaných údajů Využití integrovaných údajů, pokročilá analýza dat, efektivní prezentace získaných informací
Co je data mining “Datamining je netrivální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech„ (Fayyad, 1996) Proces – výsledky jedné etapy kladou nové otázky – je iterativní Platných – výsledky lze generalizovat na nová data Neznámých – známé skutečnosti nepotřebujeme odhalovat Užitečných – neužitečné pro nás nemají hodnotu Pochopitelných – vedou k porozumění problému
Co není data mining DM není statistika Využívá statistické metody jako jeden z nástrojů (teorie informace, logika, umělá inteligence, …) Je více orientován na uživatele, motivován praxí DM není KDD (Knowledge discovery in Databases) DM je součástí KDD
Evoluce vztahů lidí k datům složitost Data mining Datové sklady a OLAP Relační databáze Databáze čas
Základní typy úloh data miningu Typ úlohy Základní úkol Nejčastější metody Klasifikace, predikce, regrese Odhadnout či předpovědět hodnotu atributu Rozhodovací stromy, logistická regrese, neuronové sítě, lineární regrese Shlukování / Segmentace Seskupit podobné objekty do shluků/segmentů K-Means, Kohonenovy neuronové sítě, EM clustering Popis / Hledání závislostí Popsat některé vlastnosti dat/najít zajímavé závislosti Popisná statistika, testy hypotéz, rozhodovací stromy, asociační pravidla
Proces dolování z dat Datový sklad „Syrová“ data Výběr dat, čištění Integrace Znalosti Vybraná data Interpretace a ohodnocení Transformace Modely Transformovaná data Vizualizace reporting modelování Data mining Závislosti
Metodologie data miningu Jednotný rámec pro řešení úloh z oblasti DM 5A – firma SPSS – klíčový produkt Clementine Text mining Web mining SEMMA – firma SAS CRISP-DM (Cross Industry Standard Process for Data Mining) – softwarově nezávislá ADASTRA
… a některé další nástroje IBM Intelligent miner Statistica Data Miner Weka - freeware
Životní cyklus projektu podle metodologie CRISP-DM Životní cyklus projektu dobývání znalostí je podle metodologie CRISP-DM tvořen šesti fázemi. Pořadí jednotlivých fází není pevně dáno. Výsledek dosažený v jedné fázi ovlivňuje volbu kroků následujících, často je třeba se k některým krokům a fázím vracet. Vnější kruh na obrázku symbolizuje cyklickou povahu procesu dobývání znalostí z databází jako takovou.
Jednotlivé kroky procesu dobývání znalostí jsou různě časově náročné a mají i různou důležitost pro úspěšné vyřešení dané úlohy: nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu) překvapivě málo práce zaberou vlastní analýzy (5 % času, 2 % významu).
Typické problémy řešené pomocí DM DM je soubor metod pro řešení určitých druhů problémů: Problémy Klasifikace a predikce Shluková analýza Analýza nákupního košíku Závislostní analýza … Metody Rozhodovací stromy Bayesovské modely Neuronové sítě Genetické algoritmy Fuzzy logika GUHA
Klasifikace Na základě několika atributů vstupního záznamu zařadit tento záznam do jedné z předem daných skupin Příklady: Na základě vyplněného dotazníku zařadit žadatele o úvěr do určité rizikové skupiny Rozhodnout, zda daný klient bude ziskový
Predikce Na základě několika známých hodnot atributů vstupního záznamu odhadnout hodnotu dalšího atributu Příklady: Odhady růstu HDP, inflace, nezaměstnanosti
Shluková analýza Nalezení skupin podobných záznamů Příklad: segmentace zákazníků – hledání cílových skupin zákazníků pro určitý produkt
Oblasti nasazení DM Automatizace činnosti (komunikace se zákazníky, kontrola kvality výrobků Vysoká konkurence v daném odvětví Zákonná regulace (finanční sféra) Bankovnictví (churn, neboli odchod zákazníků, rizikovost, odhalování praní špinavých peněz) Telekomunikace (analytické CRM) Pojišťovnictví (detekce podvodů) Velkoobchod, maloobchod (cross-selling) Síťová odvětví
Problémy DM Problémy s daty Problémy s interpretací Různé zdroje, chybějící a špatné hodnoty Ideálním zdrojem je datový sklad Problémy s interpretací Triviální závislosti (matka -> z 99% žena) Závislosti bez praktického významu – nutnost spolupráce s expertem z oboru Problémy s dobou odezvy Testování DM algoritmů probíhá na malých souborech dat (tisíce) Skutečné datové sklady o několik řádů větší Řešení: Speciální rychlé algoritmy Vzorkování (někdy nelze použít) Počkat si (i několik dnů)