Datové sklady Analýza dat

Slides:



Advertisements
Podobné prezentace
Systémová integrace Business Intelligence
Advertisements

Sedm základních nástrojů managementu jakosti
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Ing. Monika Šimková. Máme-li data reprezentovat v databázi, jak vybereme jejich strukturu na konceptuální úrovni? Konceptuální modelování analyzuje požadavky.
Nástroje pro řízení lidských zdrojů Ing. Milan Horváth.
Business intelligence
Business Intelligence
Business Intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Databázové systémy Přednáška č. 3 Proces návrhu databáze.
IS V EKONOMICKÝCH SUBJEKTECH Ing. Jiří Šilhán. IS IS – data+lidi+HW, prvky + relace mezi uživateli, které splňují nějaké cílové chování – tak aby byly.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Metody zpracování vybraných témat (projektů)
Studie proveditelnosti datového skladu KrÚ Vysočina - zhodnocení
Databáze Jiří Kalousek.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Transakční systémy Transakční systémy
Geo-informační systémy
Analýza informačního systému
KONCEPTUÁLNÍ MODELOVÁNÍ
Analýza dat.
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Shluková analýza.
DATOVÉ MODELY (c) Tralvex Yeap. All Rights Reserved.
Databázové systémy přednáška+cvičení
Systémy pro podporu managementu 2
Relační databáze.
Vypracoval: Ondřej Dvorský Třída: VIII.A
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
Informační systémy TPS,MIS, SIS.
Aplikace VT v hospodářské praxi Byznys inteligence
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
- Pojmy - SPSS Statistické zpracování kvantitativních šetření.
Důležité adresy: Přístup z Internetu k přednáškám ve formátu .pdf:
Databázové modelování
Databázové modelování
Pilotní projekt DeepSee. O Prezentaci O nás a o IS-MLINE Datový sklad Co dál? DeepSee Pilot Ukázky Shrnutí projektu.
Databázové systémy Informatika pro ekonomy, př. 18.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Data Warehousing Růst obratu: $10 miliard v 1999
Databázové systémy Datové modely.
Business Inteligence 2. přednáška pro DS
METODY STŘEDNĚDOBÉHO PROGNÓZOVÁNÍ SURO jaro 2010.
STATISTICKÝ ROZCESTNÍK aneb CO S DATY Martin Sebera.
Databázové systémy Normalizace dat.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Postup při empirickém kvantitativním výzkumu
Systémové pojetí hospodářské organizace 1 Architektura podnikové informatiky (Zdroj: Gála, Pour, Toman, Podniková informatika. Praha: Grada 2006)
DATABÁZE.
Využití sestavy Zobrazení a typy Části sestavy Vytvoření sestavy Ovládací prvky.
Úvod do databází zkrácená verze.
Datové sklady (DWH) VOJTĚCH VYCHODIL, MICHAL VACHLER, PAVEL FIALA BRNO 2015.
Dobývání znalostí z databází OLAP a datové kostky
Geografické informační systémy
BI-Datove sklady (DATAWAREHOUSE) – ETL -OLAP
Business Intelligence
Informační systémy Business Inteligence
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy přednáška 13 – Analýza a reporting
Informatika pro ekonomy přednáška 8
Sytémová integrace Ing. Jiří Šilhán.
Základy business intelligence Jaroslav Šmarda
Datové sklady (Data Warehouse)
OnLine Analytical Processing ESF MU 2005 J.Skorkovský
Datové sklady (Data Warehouse)
Transkript prezentace:

Datové sklady Analýza dat

Datové sklady DW je integrovaná, subjektově orientovaná, stálá a časově rozlišitelná sbírka dat, spořádaná pro potřeby managementu (popř. dalšího využití - věda, výzkum, lékařství, marketing…) Zdroj může být z archivů, ale i z operativní databáze Nutností je oddělení uložených dat tak, aby zpracování nenarušovalo provoz operativní databáze Obsahují většinou velké objemy dat (až TB)

Datové sklady Pracují na odlišných technologiích než klasické databázové systémy (IS) Nepoužívají klasické DB operace (insert, select, update, delete…) Analyzujía velkéh množství údajů, výsledkem jsou souhrny a reporty, podpora rozhodování Mají flexibilní uživatelské rozhraní Před „požitím“ je nutná předpříprava a zpracování dat

Zpracování dat OLTP (On-Line Transactional Processing) je primárně uzpůsobeno pro relační databázovou základnu, nad kterou běží klíčové aplikace a systémy OLAP (On-Line Analytical Processing) určena pro analýzu dat, která jsou za tímto účelem uložena v multidimenzionální podobě

OLAP databáze MOLAP (Multidimensional OLAP) ROLAP (Relational OLAP) nejrozšířenější způsob uložení dat Data jsou uložena v optimalizované multidimenzionální databázi, kde se nachází všechny potřebné agregace ROLAP (Relational OLAP) poskytuje uživatelům multidimenzionální zobrazení dat, která však zůstávají uložena v původní relační databázi, což poskytuje vyšší úroveň škálovatelnosti a rychlejší dobu odezvy

OLAP databáze HOLAP (Hybrid OLAP) DOLAP (Desktop OLAP) hybridní uložení dat, které je kombinací předchozích dvou variant a snaží se maximalizovat jejich výhody. Data jsou ponechána v původních relačních tabulkách a agregace jsou uloženy v multidimenzionální podobě propojení mezi velkými objemy dat v relačních tabulkách a výhoda rychlejšího zpracování multidimenzionálních agregací. DOLAP (Desktop OLAP) nejmladší technologie, která umožňuje uživateli stáhnout si požadovanou podmnožinu z OLAP databáze na lokální disk a provádět nad ní analytické operace

OLAP databáze - Struktura Tabulky faktů jedná se o nejobjemnější tabulky v databázi (např. číselná vyjádření měrných jednotek, počet prodaných kusů daného zboží, zisk z prodeje… Kromě měrných jednotek obsahují tyto tabulky ještě cizí klíče tabulek dimenzí, pomocí kterých jsou k nim dimenze napojené. Tabulky dimenzí obsahují logicky nebo organizačně uspořádané údaje – dimenze nejčastěji se používají časové, produktové a geografické dimenze

Tabulky faktů a dimenzí mohou tvořit různá topologická uspořádání (hvězda, sněhová vločka - viz obr.)

OLAP - datová kostka jedná se o vícerozměrnou tabulku, jejíž struktura je tvořena daty, která pocházejí z jedné nebo více tabulek faktů a informacemi prezentovanými formou dimenzí jedna databáze může být základem pro více datových kostek

Multidimezionální datová kostka

Fáze přípravy DS DS SŘBD Zdrojová data Extrakce Transformace Loading

Metody tvorby DS – ETL (Extraction, Transformation, Loading) Určit data, která mají být uložena v datovém skladu Vybrat zdroje dat, interní i externí Příprava mapování mezi zdrojovými a cílovými daty Stanovení pravidel pro extrakci dat Určit pravidla pro transformaci a „čištění dat“ Plán pro agregaci tabulek Návrh oblasti přípravy dat Vytvoření procedury pro nahrávání dat ETL pro tabulky dimenzí a faktů

Příklad návrhu DS Rozhodneme, které atributy z původní DB vybereme do DS a jak provedeme rozdělení atributů původního konceptuálního modelu na dimenze, fakty a ostatní atributy

Příklad návrhu DS Určíme hierarchie dimenzí D_Zákazník (id_zak, zak_jm_prijmeni, zak_ulice, zak_obec, úroveň (3) D_Prodejka (id_pro, prod_cislo, úroveň (2) D_Pobočka (id_pob, pob_ulice, pob_mesto, úroveň (3) D_Obsluha (id_obs, obs_jm_prijmeni, úroveň (2) D_Sklad (id_zbo, zbo_nazev, úroveň (2) D_Doba (id_doba, datum, den, týden, měsíc, rok, den_v_tydnu, úroveň (6)

Příklad návrhu DS Vytvoříme ER Diagram tvořený tab. Faktů a tabulkami Dimenzí

Analýza dat Úkolem analýzy dat je redukce, organizace, syntéza a sumarizace informací s cílem dát výsledkům význam a zjistit z dat nové skutečnosti (=>znalosti) Pro názorné zobrazení dat se používají tabulky, grafy a obrázky.

Analýza dat Analýza spočívá v rozboru dat a jejich syntéze Výsledkem jsou závěry s ohledem na položené výzkumné otázky a hypotézy

statistická analýza  Identifikace proměnných (rozlišujeme nezávislé a závislé proměnné) Nezávislé proměnné mohou být kontrolované (jsme schopni jimi manipulovat) Závislé proměnné jsou ovlivňovány nezávisle proměnnými. Závislé proměnné jsou často cílové (výstupní) proměnné nějaké intervence. Analýza závisí na tom, na jaké škále (v jakém rozsahu) proměnné měříme

Statistická analýza atribut dat. typ min max avg std. odch. rozptyl medián jmeno string 1 216 - A - pohl boolean 0 (137) 1 (79) B- vek integer 15 19 16,227 1,227 2,49529 16 C- rocn 4 2,375 1,109 1,22512 2 D - doj 0 (121) 1 (95) E - sk_abs 302 62,843 44,284 1951,97522 57 F - rel_abs real 0,208 0,147 0,02140 0,1887417 G - mat 1,809 0,796 0,0917 H - int 5 2,644 1,176 1,37755 3 I - zpv 2,486 1,165 1,35166 J - prx 1,180 1,38681 K - cj 2,778 1,055 1,10802 L - anj 2,324 0,996 0,98757 M - dcj 2,259 1,064 1,12723

Korelační matice míra lineární závislosti mezi jednotlivými (zvolenými) atributy Hodnoty => 1 (vysoká lineární závislost) Hodnoty => 0 (nízká lineární závislost)

Analýza hlavních komponent (PCA) výpočet vlastních vektorů pro hlavní komponenty a jejich zobrazení

Asociační pravidla Určují, jak spolu jednotlivé atributy (vlastnosti) navzájem souvisí „IF Podmínka THEN Výsledek“ reálné atributy je třeba upravit (kategorizovat, normalizovat a binarizovat)

Shlukování Slouží k třídění objektů do skupin (shluků) tak, aby si objekty náležící do stejné skupiny byly podobnější než objekty z ostatních skupin

Rozhodovací stromy identifikují objekty, popsané různými atributy, do jednotlivých tříd každý uzel stromu představuje rozhodování podle jedné (vybrané) vlastnosti objektu