Systémy pro podporu managementu 2

Slides:



Advertisements
Podobné prezentace
Systémová integrace Business Intelligence
Advertisements

Nový přístup k aplikacím Vema
Jan Syrovátka Jiří Hradský.  Výrobní program orientovaný na výrobu knih pro české i zahraniční nakladatele  Nabízí kompletní výrobu knihy od grafického.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
KDD II David Pejčoch. KDD vs. data mining KDD = Knowledge discovery in databases, česky Získávání znalostí z databází nebo DZD = celý proces (viz např.
HISTORICKÝ VÝVOJ 1900 Výrobková normalizace, vojenský průmysl
Hodnotový management Teorie rozhodování
MODELY DISKRÉTNÍ VOLBY 3. cvičení
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
Studie proveditelnosti datového skladu KrÚ Vysočina - zhodnocení
Informační systémy podnikové systémy CRM
Adéla Masopustová Alena Seifrtová Lukáš Hůla
Využití technologií pro zpracování dat ve veřejné správě Petr Zeman, Key Account Manager – Public Sector Tomáš Kočka, Consultant Adastra Corporation.
Customer Relationship Management Řízení vztahů se zákazníky.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Geo-informační systémy
Ing. Jiří Šilhán.  představuje komplex aplikačního a základního software, technických prostředků, podnikových procesů a personálních zdrojů určených.
12. OPERATIVNÍ MANAGEMENT
13AMP 9. přednáška Ing. Martin Molhanec, CSc.. Co jsme se naučili naposled ADA ADA Java Java.
Systémy pro podporu managementu 2
Relační databáze.
Význam informací a dat a znalostí
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Systémové pojetí hospodářské organizace
Informační systémy TPS,MIS, SIS.
Jan Syrovátka Jiří Hradský.  Výrobní program orientovaný na výrobu knih pro české i zahraniční nakladatele  Nabízí kompletní výrobu knihy od grafického.
Možnosti modelování požadavků na informační systém
Výukový materiál zpracovaný v rámci projektu Označení:Sada: Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_MAM_KC_1_11.
Aplikace VT v hospodářské praxi Byznys inteligence
Business Inteligence a její nástroje ve veřejné správě Petr Zeman, Key Account Manager – Public Sector Adastra Corporation.
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Ukládání heterogenních dat pomocí rozvolněných objektů Michal Žemlička.
Využití procesního řízení při správě nemocničního informačního systému ve VFN Všeobecná fakultní nemocnice Jiří Haase 20. května 2003.
Přednáška č. 1 Proces návrhu databáze
Databázové modelování
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
Rozhodovací proces, podpory rozhodovacích procesů
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ Ústav technologie, mechanizace a řízení staveb Fakulta stavební VUT v Brně Ing. Václav Rada, CSc. Leden 2009.
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
Postup při empirickém kvantitativním výzkumu
Metodika řízení projektů
Geografické informační systémy pojetí, definice, součásti
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Datové sklady (DWH) VOJTĚCH VYCHODIL, MICHAL VACHLER, PAVEL FIALA BRNO 2015.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Informační systém pro správu a vyřizování objednávek
MARKETING Přednáška P
StatSoft CR Tel: Fax: Podbabská 16
Ing. Athanasios Podaras, Ph.D
Business Intelligence
Dobývání znalostí z databází dolování dat
Dobývání znalostí z databází znalosti
Informační systémy Business Inteligence
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy přednáška 13 – Analýza a reporting
METODOLOGIE PROJEKTOVÁNÍ
Informační systémy podnikové systémy CRM
Základy business intelligence Jaroslav Šmarda
Datové sklady (Data Warehouse)

Analýza informačního systému
Datové sklady (Data Warehouse)
Datové sklady (Data Warehouse)
Transkript prezentace:

Systémy pro podporu managementu 2 Data warehousing a data mining

Obsah přednášky Data warehousing jako proces Data mining Co je a co není DM Základní typy úloh data miningu Metodologie data miningu Typické problémy řešené pomocí DM Problémy DM Nástroje DM

Data warehousing Návrh systémů pro analýzy dat založených na principu vytvoření jednotného obrazu firmy obsahujícím data integrovaná ze všech informačních zdrojů, historická, detailní a transformovaná do tvaru vhodném pro analýzy (DSS, BI, data mining) Struktura: Zdroje dat Pracovní oblast Datový sklad (Data Warehouse) Datová tržiště (Data Marts)

Data warehousing - milníky 1988 – Barry Devlin a Paul Murphy zavedli termín „business data warehouse“ 1991 - Bill Inmon publikoval knihu „Building the Data Warehouse“ 1996 – Ralph Kimball vydal knihu „The Data Wareouse Toolkit“

Data warehousing – schéma 1 Star (hvězda) - nejjednodušší schéma datového skladu – jedna nebo několik tabulek faktů a libovolný počet tabulek dimenzí Designing the Star Schema Database by Craig Utley

Data warehousing – schéma 2 Snowflake (sněhová vločka) – centrální tabulka faktů a víceúrovňová struktura tabulek dimenzí Why is the Snowflake Schema a Good Data Warehouse Design? by Mark Levene and George Loizou

Data warehousing jako proces Vytvořením a provozem datového skladu je zároveň vyřešeno několik zásadních oblastí, vzájemně provázaných procesy: Přístup do heterogenních zdrojů dat a jejich integrace Správa a uchovávání integrovaných údajů Využití integrovaných údajů, pokročilá analýza dat, efektivní prezentace získaných informací

Co je data mining “Datamining je netrivální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech„ (Fayyad, 1996) Proces – výsledky jedné etapy kladou nové otázky – je iterativní Platných – výsledky lze generalizovat na nová data Neznámých – známé skutečnosti nepotřebujeme odhalovat Užitečných – neužitečné pro nás nemají hodnotu Pochopitelných – vedou k porozumění problému

Co není data mining DM není statistika Využívá statistické metody jako jeden z nástrojů (teorie informace, logika, umělá inteligence, …) Je více orientován na uživatele, motivován praxí DM není KDD (Knowledge discovery in Databases) DM je součástí KDD

Evoluce vztahů lidí k datům složitost Data mining Datové sklady a OLAP Relační databáze Databáze čas

Základní typy úloh data miningu Typ úlohy Základní úkol Nejčastější metody Klasifikace, predikce, regrese Odhadnout či předpovědět hodnotu atributu Rozhodovací stromy, logistická regrese, neuronové sítě, lineární regrese Shlukování / Segmentace Seskupit podobné objekty do shluků/segmentů K-Means, Kohonenovy neuronové sítě, EM clustering Popis / Hledání závislostí Popsat některé vlastnosti dat/najít zajímavé závislosti Popisná statistika, testy hypotéz, rozhodovací stromy, asociační pravidla

Proces dolování z dat Datový sklad „Syrová“ data Výběr dat, čištění Integrace Znalosti Vybraná data Interpretace a ohodnocení Transformace Modely Transformovaná data Vizualizace reporting modelování Data mining Závislosti

Metodologie data miningu Jednotný rámec pro řešení úloh z oblasti DM 5A – firma SPSS – klíčový produkt Clementine Text mining Web mining SEMMA – firma SAS CRISP-DM (Cross Industry Standard Process for Data Mining) – softwarově nezávislá ADASTRA

… a některé další nástroje IBM Intelligent miner Statistica Data Miner Weka - freeware

Životní cyklus projektu podle metodologie CRISP-DM Životní cyklus projektu dobývání znalostí je podle metodologie CRISP-DM tvořen šesti fázemi. Pořadí jednotlivých fází není pevně dáno. Výsledek dosažený v jedné fázi ovlivňuje volbu kroků následujících, často je třeba se k některým krokům a fázím vracet. Vnější kruh na obrázku symbolizuje cyklickou povahu procesu dobývání znalostí z databází jako takovou.

Jednotlivé kroky procesu dobývání znalostí jsou různě časově náročné a mají i různou důležitost pro úspěšné vyřešení dané úlohy: nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu) překvapivě málo práce zaberou vlastní analýzy (5 % času, 2 % významu).

Typické problémy řešené pomocí DM DM je soubor metod pro řešení určitých druhů problémů: Problémy Klasifikace a predikce Shluková analýza Analýza nákupního košíku Závislostní analýza … Metody Rozhodovací stromy Bayesovské modely Neuronové sítě Genetické algoritmy Fuzzy logika GUHA

Klasifikace Na základě několika atributů vstupního záznamu zařadit tento záznam do jedné z předem daných skupin Příklady: Na základě vyplněného dotazníku zařadit žadatele o úvěr do určité rizikové skupiny Rozhodnout, zda daný klient bude ziskový

Predikce Na základě několika známých hodnot atributů vstupního záznamu odhadnout hodnotu dalšího atributu Příklady: Odhady růstu HDP, inflace, nezaměstnanosti

Shluková analýza Nalezení skupin podobných záznamů Příklad: segmentace zákazníků – hledání cílových skupin zákazníků pro určitý produkt

Oblasti nasazení DM Automatizace činnosti (komunikace se zákazníky, kontrola kvality výrobků Vysoká konkurence v daném odvětví Zákonná regulace (finanční sféra) Bankovnictví (churn, neboli odchod zákazníků, rizikovost, odhalování praní špinavých peněz) Telekomunikace (analytické CRM) Pojišťovnictví (detekce podvodů) Velkoobchod, maloobchod (cross-selling) Síťová odvětví

Problémy DM Problémy s daty Problémy s interpretací Různé zdroje, chybějící a špatné hodnoty Ideálním zdrojem je datový sklad Problémy s interpretací Triviální závislosti (matka -> z 99% žena) Závislosti bez praktického významu – nutnost spolupráce s expertem z oboru Problémy s dobou odezvy Testování DM algoritmů probíhá na malých souborech dat (tisíce) Skutečné datové sklady o několik řádů větší Řešení: Speciální rychlé algoritmy Vzorkování (někdy nelze použít) Počkat si (i několik dnů)