Business intelligence Helena Palovská
business intelligence Manažerské informace složitost Kteří zákazníci nakupovali produkt „A-Mutt“? Kolik bylo objednáno zboží v květnu? Na jaké výrobky jsou jednotliví zákazníci zaměřeni? Jaké výrobky se v Brazílii vůbec neprodávají? Závisí to na kategorii? Na čem to závisí? Kteří zákazníci jsou perspektivní? business intelligence
Architektura BI IT zpracování transakcí reporty OLAP ? datový sklad ? datamining
ETL – datové pumpy Extraction Transformation Loading Jsou stanovena pravidla pro extrakci Transformation intergrace, čištění Loading podle rozvrhu
Další pomocná úložiště Data Stagging Area když nelze produkční systémy zatěžovat nárazovým pumpováním pouze extrakce transformace a loading se dělá dávkově podle rozvrhu Operational Data Store Integrované centrální úložiště dostupné pro produkční systémy Konsolidované dimenzionální tabulky Aktuální data dostupná pro BI aplikace
Data Marty Subjektově orientované replikované části centrálního DWH nebo primární úložiště a DWH se z nich integruje
Reporty Vznikají na základě analýzy nebo uživatelských požadavků Mohou vznikat problémy s disseminací reporty jsou, ale uživatelé o nich nevědí
OLAP Manažerská aplikace
OLAP
Nutno zakoupit nástroj i školení. Datamining Clusterová analýza automatické hledání shluků Rozhodovací stromy může používat vyškolený uživatel Neuronové sítě … Nutno zakoupit nástroj i školení.
Decision Supporting Systems Modelovací nástroje pro podporu rozhodování data mohu „tahat“ z datového skladu
Expertní systémy Napodobují rozhodování experta – podávají rady mohou se učit na datech z datového skladu
Charakteristika produkčních databází Zpracovávají business transakce krátké transakce odezvy v reálném čase Normalizovaná schémata databází většinou v 3. NF (co je normalizovaná databáze) Nezávislé systémy mohou být navzájem neintegrované Optimalizovány pro podporu business operací pokračuj na charakteristiku dat. skladu
Co je normalizovaná databáze 1 změna ve světě ~ 1 změna v databázi 1.,2.,3. … normální formy Takto vznikne normalizovaná databáze: pečlivá analýza → ER(A) model (co ER(A)) CASE nástroj či „mapovací algoritmus“ relační databázové schéma Kontrola kvality – utilita db serveru (náročné) hledání závislostí mezi poli tabulky na reprezentativním vzorku dat zpět
Co je E-R(A) Jaké jsou entity (objekty), vztahy mezi nimi Jaké mají atributy Jaká jsou integritní omezení: kardinality vztahů (1:N, M:N, 1:1) členství ve vztazích (povinné, nepovinné) co jsou klíčové atributy nalezení event. identifikačních vztahů Nalezení generalizace/specializace zpět
Charakteristika datového skladu - DWH Dlouhé a složité dotazy Konsolidovaná data Denormalizovaný Předpočítané výpočty, agregace Změny pouze přírůstkové obsahuje archívní, historická data nové záznamy vkládány v dávkách podle rozvrhu Optimalizován pro business intelligence
Možnosti organizace DWH Relační db – tabulka faktů a tabulky pro dimenze: Hvězda Každá dimenze v jediné tabulce (denormalizované) Snowflake Hierarchie každé dimenze rozložena do více tabulek (normalizovaná dimenze) Multidimenzionální db – kostky popisné atributy dimenzí mohou být v Operational Data Store