Datové sklady (Data Warehouse)

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů managementu jakosti
Advertisements

Dynamické systémy.
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Ing. Monika Šimková. Máme-li data reprezentovat v databázi, jak vybereme jejich strukturu na konceptuální úrovni? Konceptuální modelování analyzuje požadavky.
Business intelligence
Business Intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Databázové systémy Přednáška č. 3 Proces návrhu databáze.
Možnosti vizualizace dat a informací v medicíně
IS V EKONOMICKÝCH SUBJEKTECH Ing. Jiří Šilhán. IS IS – data+lidi+HW, prvky + relace mezi uživateli, které splňují nějaké cílové chování – tak aby byly.
Analýzy administrativních procesů. Analýzy ve 2 krocích Analýza dokumentů Analýza administrativních procesů.
Databáze Jiří Kalousek.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_03/A7 AutorIng. Liběna Krchňáková Období vytvořeníŘíjen.
Ing. Jaroslav Halva 1 ChronData Databázová podpora normování manuálních pracovních činností.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
Tabulkový procesor.
Systémy pro podporu managementu 2
Relační databáze.
Význam informací a dat a znalostí
Tvorba dokumentů – kritéria Obsah a forma –aktuálnost a správnost informací, variabilní data, –forma adekvátní příjemci, estetika, –účelná struktura, členění.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
ŘÍZENÍ JAKOSTI A SPOLEHLIVOSTI Věra Pelantová Pavel Fuchs verze 2009
Systémy pro podporu managementu 2
 BA_EM Electronic Marketing Pavel Agenda  Efektivní data mining jako zdroj relevantních dat o potřebách zákazníků.
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Vývoj výrobku Firmy musí pružně reagovat na změny ( v lidských potřebách, technologii, technice, v počtu a síle konkurence,…) a vyvíjet nové výrobky. Novými.
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Ivo Novotný Jak vybrat dodavatele vzdělávání JAK SI SPRÁVNĚ VYBRAT... Dodavatele vzdělávání.
2008/2009 REPORTING Tereza Mulačová Česká zemědělská univerzita v Praze Tereza Řezníčková Provozně ekonomická fakulta Marek Tláskal obor Veřejná správa.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Aplikace GIS 2 Tematické vizualizace - základy. Tematická vizualizace Zobrazíme geografické objekty, jevy tak, aby vynikla vlastnost, kterou chceme zkoumat.
Důležité adresy: Přístup z Internetu k přednáškám ve formátu .pdf:
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Databázové modelování
Základy zpracování geologických dat
Databázové systémy Informatika pro ekonomy, př. 18.
Datové sklady (Data Warehouse)
ISOP/2 registr entit přírodního prostředí Roman Bukáček CENIA, laboratoř GIS Žďár nad Sázavou.
Stipendijní informační portál - Detailní analýza a návrh.
Marketingový průzkum Milan Mrázek Matematika & Business
Databázové systémy Datové modely.
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
13.přednáška – Elektronické zásobování Ing. Jiří Zmatlík, Ph.D. ČVUT, Fakulta elektrotechnická Katedra ekonomiky, manažerství a humanitních věd.
DATABÁZE.
Personální plán pro podnikatelský plán
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Digitální učební materiál Název projektu: Inovace vzdělávání na SPŠ a VOŠ PísekČíslo projektu: CZ.1.07/1.5.00/ Škola: Střední průmyslová škola a.
Digitální učební materiál Název projektu: Inovace vzdělávání na SPŠ a VOŠ PísekČíslo projektu: CZ.1.07/1.5.00/ Škola: Střední průmyslová škola a.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Ing. Athanasios Podaras, Ph.D
Dobývání znalostí z databází dolování dat
Informační systémy Business Inteligence
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy přednáška 13 – Analýza a reporting
Digitální učební materiál
Informatika pro ekonomy přednáška 8
Geografické informační systémy
Informační kříž Metoda firmy IBM Poprvé publikována v roce 1981
Induktivní postupy ve výuce matematiky
Datové sklady (Data Warehouse)

Datové sklady (Data Warehouse)
Transkript prezentace:

Datové sklady (Data Warehouse) Dolování dat (Data Mining) 1

Data Informace Znalosti (Moudrost) Informační systémy Znalostní systémy 2

Informační systémy Kdo je potřebuje? Co obsahují? K čemu slouží? Exekutiva a nižší management Co obsahují? Informace o jednotlivých objektech a transakcích K čemu slouží? K operativnímu řízení Jak je realizovat? Pomocí databázových systémů 3

Znalostní systémy Kdo je potřebuje? Co obsahují? K čemu slouží? Vyšší management Co obsahují? Informace o dlouhodobých trendech K čemu slouží? K strategickému řízení Jak je realizovat? Všelijak, ale také pomocí datových skladů 4

K čemu je data mining? Stále větší množství dat uložených v databázích Neustále generujeme data Obchodní a bankovní transakce Biologická, astronomická data atd… Ukládáme stále více dat Databázové technologie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími daty 5

Proč data mining? Data jsou stále rozsáhlejší, ale vyvodit z nich užitečné závěry je stále složitější Velké množství nákupů v supermarketech Miliony hovorů denně u telekomunikačních operátorů … Smysl: Dát uloženým datům význam 6

Co je to data mining? Zavedení pojmu: 1991 – Frawley Definice Netriviální proces identifikace nových, platných, potenciálně použitelných a snadno pochopitelných vzorů v datech Zahrnuje poznatky z několika oborů matematiky a informatiky 7

Související obory Umělá inteligence Vizualizace Databázové systémy Data Mining, získávání znalostí z dat Databázové systémy Statistika 8

Proces získávání znalostí z dat Výsledné vzory (pravidla) Prezentace znalostí Stanovení cílů Interpretace a vyhodnocení Pochopení Výběr dat DB (Datový sklad) Dolování dat (Data Mining) Předzpracování dat ZNALOST Vstupní data 9

Data Mining a Business Intelligence Increasing potential to support business decisions End User Decision Making Data Presentation Business Analyst Visualization Techniques Data Mining Data Analyst Information Discovery Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses DBA Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems 10

Proces získávání znalostí z dat Stanovení cílů Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? Jsou naše data vhodná pro danou dolovací metodu vhodná? 11

Proces získávání znalostí z dat Výběr zdrojů dat Typy databází z hlediska obsahu Zákaznické databáze – údaje o zákazníka, případně o jeho aktivitách Transakční databáze – údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek – databáze o oslovování zákazníků kampaněmi Externí data 12

Proces získávání znalostí z dat Výběr zdrojů dat Typy dat z hlediska formátu Relační a transakční databáze Objektově-orientované databáze Multimediální databáze WWW Textové dokumenty Prostorová, časová data… 13

Předzpracování dat Proč předzpracování? Objemné databáze – je potřeba vybrat relevantní data Nesprávná, nekonzistentní data, chybějící hodnoty Zvýší efektivitu a usnadní proces získávání znalostí 14

Předzpracování dat – čištění dat Položky obsahující neúplné hodnoty Zanedbání záznamu, doplnění průměrnou hodnotou, doplnění mediánu, doplnění konstanty „unknown“, ruční zadání, predikce Položky obsahující chybné hodnoty Binding – vyhlazení na základě sousedních hodnot Shlukování – podobné hodnoty jsou organizovány do skupin, ostatní jsou chybné Regresní metody Kombinace lidské a počítačové kontroly 15

Předzpracování dat – čištění dat Nekonzistentní data Vznikají při vkládání dat do databáze Při integraci dat (např. různé názvy atributů) Řešení Ruční opravení Opravné rutiny 16

Předzpracování dat – integrace dat Integrace více zdrojů do jedné databáze Redundance Jak určit ekvivalentní entity z více zdrojů? Detekce a řešení konfliktů hodnot atributů např. různé kódování, měrné jednotky nebo různé vyjádření hodnoty, různé časové intervaly měření,… 17

Předzpracování dat – transformace dat Transformace dat do formátu vhodného pro dolování dat Slučující techniky Sumační operace atd… (z více hodnot jedna hodnota) Generalizace Data nižší úrovně nahrazena úrovní vyšší (např. ulice – město) Normalizace Přepočítání hodnot do daného bezrozměrného intervalu 18

Předzpracování dat – transformace dat Diskretizace hodnot numerických atributů Rozdělení numerických hodnot na intervaly Ekvidistantní Se stejným počtem prvků Hierarchické (B stromy) S různou délkou, např.podle norem 19

Dolování dat Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a dat Typy znalostí Asociační pravidla Shlukování Klasifikace Predikce 20

Asociační pravidla – analýza nákupního košíku 21

Asociační pravidla Původně pro transakční data Pravidlo ve tvaru A  B A, B … množiny položek s … podpora c … spolehlivost Interpretace asociačního pravidla: „Jestliže transakce obsahuje položky z množiny A, pak také pravděpodobně obsahuje položky z B“ 22

Asociační pravidla – základní pojmy Zajímavost pravidla AB určují tyto ukazatele: podpora (support) - pravděpodobnost, že se vyskytují v databázi položky z obou stran asociačního pravidla spolehlivost (confidence) - podmíněná pravděpodobnost, že se vyskytuje v transakci množina položek B, za předpokladu, že se tam vyskytují položky z A 23

Shlukování Nejstarší nástroje data miningu Roztřídění skupiny objektů do skupin (shluků), které nejsou předem stanoveny Rozdíly objektů uvnitř shluků minimalizujeme, rozdíly jednotlivých shluků maximalizujeme Problém: Jakou metriku použít pro měření rozdílu? 24

Shlukování - ilustrace Např. je možné nyní oslovit kampaní skupinu zákazníků tvořících shluk 25

Shlukování - vlastnosti Shluky nejsou předem dány a nemají tedy předem daný význam – ten je potřeba zjistit – ne vždy se to podaří Při 2-3 atributech je možné použít grafickou metodu, pro více atributů je potřeba použít pokročilé metody 26

Shlukování – některé metody Rozdělovací metody Rozdělení objektů na předem daný počet shluků Např. algoritmus K-means, který optimalizuje těžiště jednotlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti Vzniká tzv. Voroného diagram 27

Shlukování – některé metody Hierarchické metody Postupné rozdělování velkých shluků nebo postupné slučování malých shluků Vzniká tím hierarchická struktura shluků Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. maximální, či minimální počet objektů ve shluku) Další metody (neuronové sítě, mřížky apod.) 29

Shlukování – příklady aplikací Marketing – možnost identifikace skupin zákazníků, použití cílených reklam Obchodování s realitami – identifikace skupin nemovitostí na základě typu, ceny a polohy Studie zemětřesení – shlukování epicenter zemětřesení dle jejich vlastností Pojištění – hledání potenciálních zákazníků s vysokým povinným ručením Geografie – hledání shluků pozemků na základě jeho typu 30

Klasifikace Rozdělování objektů do předem známých skupin Nejčastěji se využívají rozhodovací stromy 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu Úspěšnost se měří procentem úspěšně klasifikovaných objektů 31

Klasifikace – příklady Určení, zda je možné zákazníkovi možné poskytnout úvěr na základě několika atributů (věk, příjem…) Určení pohlaví zákazníka na základě toho, jaký notebook si koupí – to např. umožňuje směrovat kampaň… 32

Klasifikace – příklad (buys_computer) age? <=30 overcast 30..40 >40 student? yes credit rating? no yes excellent fair no yes no yes 33

Data Mining a datové sklady OLAP systém Oblast přípravy dat Soubory s extrahova- nými a transformo- vanými daty Soubory s daty pro nahrání do datového skladu Zdrojové DB Datový sklad Data připravená pro data mining Možnost extrakce dat DATA MINING 34