Datové sklady (Data Warehouse)

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů managementu jakosti
Advertisements

Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Databázové systémy Přednáška č. 3 Proces návrhu databáze.
Možnosti vizualizace dat a informací v medicíně
IS V EKONOMICKÝCH SUBJEKTECH Ing. Jiří Šilhán. IS IS – data+lidi+HW, prvky + relace mezi uživateli, které splňují nějaké cílové chování – tak aby byly.
Databáze Jiří Kalousek.
Informační systém Centrum pro virtuální a moderní metody a formy vzdělávání na Obchodní akademii T. G. Masaryka, Kostelec nad Orlicí.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_03/A7 AutorIng. Liběna Krchňáková Období vytvořeníŘíjen.
Ing. Jaroslav Halva 1 ChronData Databázová podpora normování manuálních pracovních činností.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
Tabulkový procesor.
Statistická přejímka Ing. Zdeněk Aleš, Ph.D.
Systémy pro podporu managementu 2
Relační databáze.
Význam informací a dat a znalostí
Základní pojmy Systém je abstrakce, kterou si lidé vytvářejí v procesu poznávání jako nástroj zkoumání reálných objektů.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
ŘÍZENÍ JAKOSTI A SPOLEHLIVOSTI Věra Pelantová Pavel Fuchs verze 2009
Informační systémy TPS,MIS, SIS.
Systémy pro podporu managementu 2
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
Obchodní akademie, Náchod, Denisovo nábřeží 673 Projekt CZ.1.07/1.5.00/ EU peníze pro Obchodní akademii Náchod Číslo – název šablony klíčové aktivityIII/2.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Ivo Novotný Jak vybrat dodavatele vzdělávání JAK SI SPRÁVNĚ VYBRAT... Dodavatele vzdělávání.
2008/2009 REPORTING Tereza Mulačová Česká zemědělská univerzita v Praze Tereza Řezníčková Provozně ekonomická fakulta Marek Tláskal obor Veřejná správa.
SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází Modelování shlukové analýzy v systému SAS Enterprise Miner TM.
Důležité adresy: Přístup z Internetu k přednáškám ve formátu .pdf:
Databázové modelování
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Tato prezentace byla vytvořena
Referát č.8 Daniela Venusová.
Základy zpracování geologických dat
Databázové systémy Informatika pro ekonomy, př. 18.
Datové sklady (Data Warehouse)
ISOP/2 registr entit přírodního prostředí Roman Bukáček CENIA, laboratoř GIS Žďár nad Sázavou.
Marketingový průzkum Milan Mrázek Matematika & Business
Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorIng. Ivana Brhelová Název šablonyIII/2.
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
13.přednáška – Elektronické zásobování Ing. Jiří Zmatlík, Ph.D. ČVUT, Fakulta elektrotechnická Katedra ekonomiky, manažerství a humanitních věd.
DATABÁZE.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Digitální učební materiál Název projektu: Inovace vzdělávání na SPŠ a VOŠ PísekČíslo projektu: CZ.1.07/1.5.00/ Škola: Střední průmyslová škola a.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Databáze MS ACCESS 2010.
Financováno z ESF a státního rozpočtu ČR.
Vlastnosti souborů Jaroslava Černá.
Dobývání znalostí z databází dolování dat
Informační systémy Business Inteligence
Hromadná korespondence 2 OpenOffice
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy přednáška 13 – Analýza a reporting
Debrief ke komunikační kampani Praha, 13. května 2016
Digitální učební materiál
Informatika pro ekonomy přednáška 8
Geografické informační systémy
Induktivní postupy ve výuce matematiky
Datové sklady (Data Warehouse)
Datové sklady (Data Warehouse)
Transkript prezentace:

Datové sklady (Data Warehouse) Dolování dat (Data Mining) 1

Data Informace Znalosti (Moudrost) Informační systémy Znalostní systémy 2

Informační systémy Kdo je potřebuje? Co obsahují? K čemu slouží? Exekutiva a nižší management Co obsahují? Informace o jednotlivých objektech a transakcích K čemu slouží? K operativnímu řízení Jak je realizovat? Pomocí databázových systémů 3

Znalostní systémy Kdo je potřebuje? Co obsahují? K čemu slouží? Vyšší management Co obsahují? Informace o dlouhodobých trendech K čemu slouží? K strategickému řízení Jak je realizovat? Všelijak, ale také pomocí datových skladů 4

K čemu je data mining? Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Biologická, astronomická data atd… Ukládáme stále více dat Databázové technologie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími daty 5

Proč data mining? Data jsou stále rozsáhlejší, ale vyvodit z nich užitečné závěry je stále složitější Velké množství nákupů v supermarketech Miliony hovorů denně u telekomunikačních operátorů … Smysl: Dát uloženým datům význam 6

Co je to data mining? Zavedení pojmu: 1991 – Frawley Definice Netriviální proces identifikace nových, platných, potenciálně použitelných a snadno pochopitelných vzorů v datech Zahrnuje poznatky z několika oborů matematiky a informatiky 7

Související obory Umělá inteligence Vizualizace Databázové systémy Data Mining, získávání znalostí z dat Databázové systémy Statistika 8

Proces získávání znalostí z dat Výsledné vzory (pravidla) Prezentace znalostí Stanovení cílů Interpretace a vyhodnocení Pochopení Výběr dat DB (Datový sklad) Dolování dat (Data Mining) Předzpracování dat ZNALOST Vstupní data 9

Proces získávání znalostí z dat Stanovení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? Jsou naše data vhodná pro danou dolovací metodu vhodná? 10

Proces získávání znalostí z dat Výběr zdrojů dat Typy databází z hlediska obsahu Zákaznické databáze – údaje o zákazníka, případně o jeho aktivitách Transakční databáze – údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek – databáze o oslovování zákazníků kampaněmi Externí data 11

Proces získávání znalostí z dat Výběr zdrojů dat Typy dat z hlediska formátu Relační a transakční databáze Objektově-orientované databáze Multimediální databáze WWW Textové dokumenty Prostorová, časová data… 12

Předzpracování dat Proč předzpracování? Objemné databáze – je potřeba vybrat relevantní data Nesprávná, nekonzistentní data, chybějící hodnoty Zvýší efektivitu a usnadní proces získávání znalostí 13

Předzpracování dat – čištění dat Položky obsahující neúplné hodnoty Zanedbání záznamu, doplnění průměrnou hodnotou, doplnění mediánu, doplnění konstanty „unknown“, ruční zadání, predikce Položky obsahující chybné hodnoty Binding – vyhlazení na základě sousedních hodnot Shlukování – podobné hodnoty jsou organizovány do skupin, ostatní jsou chybné Regresní metody Kombinace lidské a počítačové kontroly 14

Předzpracování dat – čištění dat Nekonzistentní data Vznikají při vkládání dat do databáze Při integraci dat (např. různé názvy atributů) Řešení Ruční opravení Opravné rutiny 15

Předzpracování dat – integrace dat Integrace více zdrojů do jedné databáze Redundance Jak určit ekvivalentní entity z více zdrojů? Detekce a řešení konfliktů hodnot atributů např. různé kódování, měrné jednotky nebo různé vyjádření hodnoty, různé časové intervaly měření,… 16

Předzpracování dat – transformace dat Transformace dat do formátu vhodného pro dolování dat Slučující techniky Sumační operace atd… (z více hodnot jedna hodnota) Generalizace Data nižší úrovně nahrazena úrovní vyšší (např. ulice – město) Normalizace Přepočítání hodnot do daného bezrozměrného intervalu 17

Dolování dat Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a dat Typy znalostí Asociační pravidla Shlukování Klasifikace Predikce 18

Asociační pravidla – analýza nákupního košíku 19

Asociační pravidla Původně pro transakční data Pravidlo ve tvaru A  B A, B … množiny položek s … podpora c … spolehlivost Interpretace asociačního pravidla: „Jestliže transakce obsahuje položky z množiny A, pak také pravděpodobně obsahuje položky z B“ 20

Asociační pravidla – základní pojmy Zajímavost pravidla AB určují tyto ukazatele: podpora (support) - pravděpodobnost, že se vyskytují v databázi položky z obou stran asociačního pravidla spolehlivost (confidence) - podmíněná pravděpodobnost, že se vyskytuje v transakci množina položek B, za předpokladu, že se tam vyskytují položky z A 21

Shlukování Nejstarší nástroje data miningu Roztřídění skupiny objektů do skupin (shluků), které nejsou předem stanoveny Rozdíly objektů uvnitř shluků minimalizujeme, rozdíly jednotlivých shluků maximalizujeme 22

Shlukování - ilustrace Např. je možné nyní oslovit kampaní skupinu zákazníků tvořících shluk 23

Shlukování - vlastnosti Shluky nejsou předem dány a nemají tedy předem daný význam – ten je potřeba zjistit – ne vždy se to podaří Při 2-3 atributech je možné použít grafickou metodu, pro více atributů je potřeba použít pokročilé metody 24

Klasifikace Rozdělování objektů do předem známých skupin Nejčastěji se využívají rozhodovací stromy 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu 25

Klasifikace – příklady Určení, zda je možné zákazníkovi možné poskytnout úvěr na základě několika atributů (věk, příjem…) Určení pohlaví zákazníka na základě toho, jaký notebook si koupí – to např. umožňuje směrovat kampaň… 26

Klasifikace – příklad (buys_computer) age? <=30 overcast 30..40 >40 student? yes credit rating? no yes excellent fair no yes no yes 27

Proces získávání znalostí z dat Výsledné vzory (pravidla) Prezentace znalostí Stanovení cílů Interpretace a vyhodnocení Pochopení Výběr dat DB (Datový sklad) Dolování dat (Data Mining) Předzpracování dat ZNALOST Vstupní data 28