Dobývání znalostí z databází dolování dat

Slides:



Advertisements
Podobné prezentace
Systémová integrace Business Intelligence
Advertisements

Dynamické systémy.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Business intelligence
MODELY DISKRÉTNÍ VOLBY 3. cvičení
Možnosti vizualizace dat a informací v medicíně
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Metody zkoumání ekonomických jevů
Informační systémy podnikové systémy CRM
Neuronové sítě Jakub Krátký.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
ROZHODOVACÍ ÚLOHY.
Ing. Jiří Šilhán.  představuje komplex aplikačního a základního software, technických prostředků, podnikových procesů a personálních zdrojů určených.
Systémy pro podporu managementu 2
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Systémové pojetí hospodářské organizace
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Možnosti modelování požadavků na informační systém
Modelování odezvy zákazníků v systému SAS Enterprise Miner™ Ukázková úloha pro předmět Získávání znalostí z databází doc. Ing. Jaroslav Zendulka, CSc.
Systémy pro podporu managementu 2
Lineární regrese.
Aplikace VT v hospodářské praxi Byznys inteligence
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
Regrese Aproximace metodou nejmenších čtverců
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Dokumentace informačního systému
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Lineární regrese.
Lineární regresní analýza
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Technická diagnostika "dia-gnozis" - "skrze poznání" Zkoumá technické objekty za účelem posouzení jejich technického stavu, tj. schopnosti vykonávat určenou.
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
AKD VII.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Teorie psychodiagnostiky a psychometrie
2. Vybrané základní pojmy matematické statistiky
Marketingový průzkum Milan Mrázek Matematika & Business
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
ČVUT – fakulta stavební Geografické informační systémy IDRISI Software pro GIS a analýzu obrazu Pelinková Martina
Projektový management Risk management
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
IV..
Aplikovaná statistika 2.
Personální plán pro podnikatelský plán
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Ing. Athanasios Podaras, Ph.D
Business Intelligence
Dobývání znalostí z databází znalosti
Informační systémy Business Inteligence
Databázové systémy přednáška 13 – Analýza a reporting
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Z8119 Vyhledávání znalostí v prostorových datech
Geografické informační systémy
Informační systémy podnikové systémy CRM
Datové sklady (Data Warehouse)
OnLine Analytical Processing ESF MU 2005 J.Skorkovský
ANALÝZA A KLASIFIKACE DAT
Datové sklady (Data Warehouse)
Datové sklady (Data Warehouse)
Transkript prezentace:

Dobývání znalostí z databází dolování dat Roman Danel Institut ekonomiky a systémů řízení

Data Mining Deskriptivní model – popisuje nalezené vzory a vztahy v datech, které mohou ovlivnit rozhodování (Př. Analýza prodeje zboží v supermarketu na jejímž základě je pak umístěno zboží v regálech). Prediktivní model – umožňuje předvídat budoucí hodnoty atributů na základě nalezených vzorů v datech (Př. Analýza zákazníků, u kterých je vysoká pravděpodobnost, že budou reagovat na písemnou reklamní nabídku…)

Predikce Klasifikace Regresní analýza Analýza časových řad

Deskriptivní DM Zjišťování odchylek Segmentace Shlukování Asociační pravidla Sumarizace Vizualizace Dolování v textu

Kategorie úloh Data Mining Klasifikace – bude produkt úspěšný? Regrese – závislost mezi dvěma proměnnýma Shlukování – rozdělení do množin dle společných znaků Sumarizace Predikce podle časových řad (autoregresní modely, např. ARIMA) Modelování závislostí Asociace – např. analýza nákupního koše Analýza sekvencí – např. procházení webu návštěvníkem Analýza odchylek – bankovní podvody

Metody DM regresní metody (lineární regresní analýza, nelineární regresní analýza, neuronové sítě) klasifikace (diskriminační analýza, logistická regresní analýza, rozhodovací stromy, neuronové sítě), segmentace – shlukování - shluková analýza, genetické algoritmy, neuronové shlukování (Kohonenovy mapy) analýza vztahů (asociační algoritmus pro odvozování pravidel typu „ if X then Y“) predikce v časových řadách (Boxova-Jenkinsonova metoda, neuronové sítě, autoregresní modely, ARIMA) detekce odchylek

Lineární regrese Závislost mezi dvěma proměnnými Nezávislá Závislá (tu se snažíme predikovat) Je hledána přímka procházející mezi hodnotami tak, že součet druhých mocnin odchylek je minimální Tato přímka pak definuje vztah zavilosti s možností určit nejpravděpodobnější hodnotu závislé proměnné

Lineární regrese Někdy je vztah nelineární -> nezávislou proměnnou je pak třeba transformovat Použití: modely pro marketing, odhad rizika

Logistická regrese Závislá proměnná není spojitá, ale diskrétní (kategorická) Užitečné např. v marketingu – předpověď odezvy na nějakou akci

Neuronové sítě Nevychází ze statistiky, ale řešení je modelováno podle funkcí lidského mozku Přijímání informací a poučení se z každé zkušenosti Užití v marketingu – např. predikce reakce na nabídku NS mají schopnost vystihnout i nelineární vztahy

Genetické algoritmy Modely, které se v každém kroku upravují, až se nalezne nejlepší model pro danou úlohu Určení cílu modelu, výběr míry pro vyhodnocení jak model odpovídá našim požadavkům

Klasifikační stromy Účelem je roztřídit data do skupin Oproti regresi i nelineární závislosti Identifikace segmentů s požadovaným chováním

DM - postup Specifikace problému Získání dat Výběr metody Předzpracování dat Vlastní data mining Interpretace

Fáze při dolování dat Data Understanding – porozumění úloze Data Preparation - příprava Modelling - dolování Evaluation - vyhodnocení Deployment - nasazení

Příklady DM Množina pravidel, které určují jak lze seskupit produkty do skupin Rozhodovací strom, který predikuje, zda si zákazník koupí produkt Matematický model předpovídající prodej

Microsoft Analysis Service - DM Classifiaction – Decision Tree Algorithm Regression – Microsoft Time Series Alg. Segmentation – Clustering Algorithm Association – hledá korelace Sequence analysis algorithm

Klasifikační algoritmy Předvídají jednu nebo více diskrétních veličin na základě vstupních algoritmů

Regresní algoritmy na základě atributů předvídají jednu nebo více spojitých veličin, jako je například zisk či ztráta.

Segmentační algoritmy Rozdělují data do skupin s podobnými charakteristikami „trs” dat Např. Analýza nákupního koše

Sekvenční algoritmy Hledají sekvence v datech Např. analýza informací o uživatelích webu – snaha vytvořit skupiny uživatelů s podobnými nakupovacími návyky

Metodiky 5 A (SPASS, 1996) SEMMA (Enterprise Miner, SAS) CRISP-DM (2000, Chapman) DIME RAMSYS (2001) Two Crows Annad & Buchner

Metodika 5A Assess – posouzení potřeb Access – shromáždění dat Analyze Akt – přeměna na znalosti Automate – převedení výsledků analýzy do praxe

SEMMA Sample Explore Modify – datová transformace, seskupení Model – analýza dat Assess – porovnání modelů, interpretace

CRISP-DM Standard podporovaný většinou systémů Metodologie pro plánování data miningových projektů

Predictive modeling Markup Language Na bázi XML Data Mining Group www.dgm.org Popis dat, datových transformací a vytvořených modelů

API pro Data Mining OLE DB for Data Mining – Microsoft Java Data Mining

Systémy pro DM Zdroj: http://sorry.vse.cz/~berka/docs/4iz450/sl01-kdd.pdf