BI-Datove sklady (DATAWAREHOUSE) – ETL -OLAP Ing. Athanasios Podaras, Ph.D October 2016
OBSAH Datové sklady Architektura DW ETL DATA MART OLAP
Datovy sklad (Data warehouse) DEFINICE Datový sklad je integrovaný, subjektově orientovaný, stálý a časově rozlišitelný souhrn dat, uspořádaný pro podporu potřeb managementu (William Inmone, 2002)
Architektura DW
Architektura DW DB
ARCHITEKTURA DW (2-Layer Arch.) (Dvouvrstvá architektura)
3/layer Architecture
Incremental approach
SCHEMATA DW – 1. STAR
SCHEMATA DW – 2. SNOWFLAKE
Charakteristiky datového skladu Subjektová orientace - data jsou rozdělována podle jejich typu, ne podle aplikací, ve kterých vznikla. Integrovanost - data jsou ukládána v rámci celého podniku, a ne pouze v rámci jednotlivých oddělení. Stálost - datové sklady jsou koncipovány jako "Read Only", což znamená, že zde žádná data nevznikají ručním pořízením, a nelze je ani žádnými uživatelskými nástroji měnit. Časová rozlišenost - aby bylo možné provádět analýzy za určitá období, je nutné, aby byla do datového skladu uložena i historie dat.Načítaná data s sebou tedy musí nést i informaci o dimenzi času
BENEFITY DW Vysoká ROI (Return on Investment) konkurenční výhoda (Competitive Advantage) Zvýšení produktivity v rámci rozhodovaní (Increased productivity from Decision Makers)
ETL (EXTRACTION-TRANSFORM-LOADING) Extraction (E): získání data ze zdrojových systémů a jejich výběr Transformation (T): upravení dat do požadované formy a vyčištění Loading (L) : import dat zpracovaných v předchozích procesech do datových skladů (Novotný, Pour, Slánský, 2005) .
ETL Transformation Functions ([Lacko, 2009)) Aggregate function applies aggregation function ( i.e. minimum, maximum, average, sum etc.) on the incoming set of data. Conditional Split function divides the set of data into more subsets(i.e. Year to Months, Quarters e.t.c.). Copy Column function adds new columns, which are the copies of columns from input data set. Data Conversion function offers possibility to change data type of a column during the transformation (i.e. Boolean YES/NO-> 0/1) Derived Column function makes it possible to create new column derived on the basis of values in input column (i.e. calculated field)
OLAP CUBE
Data mart (Kimball and Ross, 2013)
OLAP Technologie/DB (Základní Operace) Drill-down–umožňuje uživateli ve zvolené(-ých) instanci(-ích) jisté agregační úrovně nastavit nižší(jemnější) agregační úroveň. . Jedná se o navigaci v hierarchii dimenzí směrem k většímu detailu. Roll-up–jde o opak předešlé operace. Ve zvolených instancích jisté agregační úrovně nastavuje vyšší (hrubší) agregační úroveň (menší detail v hierarchii dimenzí). Pivoting–umožňuje „otáčet“ datovou krychlí, tj. měnit úhel pohledu na data na úrovni prezentace obsahu datového skladu. Slicing–dovoluje provádět řezy datovou kostkou, tj. nalézt pohled, v němž je jedna dimenze fixována v jisté(-ých) instanci(-ích) jisté agregační úrovně. Jinými slovy tato dimenze aplikuje filtr na instance příslušné agregační úrovně dané dimenze. Dicing–je obdobou „slicingu“, jenž umožňuje nastavit takový filtr pro více dimenzí
OLAP – Roll Up (Priklad)
OLAP – Drill Down
OLAP - Pivoting
OLAP – Slice a Dice
LITERATURA INMONE, William H. Building the data warehouse : podnik v informační společnosti. 3rd ed. New York: J. Wiley, c2002, 412 s. ISBN 04-710-8130-2 Kimball et al (2012). The Datawarehouse Lifecycle Toolkit. 2nd ed. ISBN-13: 978-0470149775 Turban, E., Sharda, R., Aroson, J. E., & King, D. (2008). Business Intelligence: A Managerial Approach. Upper Sadle River, New Jersey: Pearson Prentice Hall.