Design databáze DW Ing. Jan Přichystal, Ph.D..

Slides:

Advertisements

Podobné prezentace

Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy

Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza

Aplikační a programové vybavení

DATABÁZOVÉ SYSTÉMY Ing. Roman Danel, Ph.D.

Business intelligence

 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.

Přednáška č. 5 Proces návrhu databáze

Souborové systémy.

Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky

A4B33DS & X33MIS Zdeněk Kouba

PODPURNÉ PROCESY V ORGANIZACI

Úvod do databází Databáze.

1IT Relační datový model

Databáze Jiří Kalousek.

1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.

Transakční systémy Transakční systémy

Databázové systémy II Přednáška č. 8 – Pohledy (Views)

D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.

Školení správců II. Petr Pinkas RNDr. Vít Ochozka.

Dimensional Modeling Ing. Jan Přichystal, Ph.D.. Úvod Co je DM? – technika pro strukturování dat tak, aby jim včas porozuměli koncoví uživatelé. Dimensionální.

KEG Použití vzorů při vyhledávání na webu Václav Snášel.

Fakulta elektrotechniky a informatiky

Relační databáze.

Konceptuální návrh databáze

Vypracoval: Ondřej Dvorský Třída: VIII.A

Databázové systémy Architektury DBS.

Základní pojmy Systém je abstrakce, kterou si lidé vytvářejí v procesu poznávání jako nástroj zkoumání reálných objektů.

Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.

Databázové systémy Přednáška č. 7 Uživatelské rozhraní.

Informatika pro ekonomy II přednáška 10

Databázové systémy Přednáška č. 4 Proces návrhu databáze.

Databázové systémy Přednáška č. 6 Proces návrhu databáze.

4. Lekce Dílčí procesy funkčního testování

Reporting Ing. Jan Přichystal, Ph.D.. Úvod Uživatelé obvykle přistupují k DW pomocí BI aplikace Většina využívá předdefinované reporty Poskytují standardizovaný.

Dokumentace informačního systému

Databázové systémy II Cvičení č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky

Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.

DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.

Konceptuální návrh databáze

Databázové modelování

Access Vysvětlení pojmu databáze - 01

Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.

Databáze Lokální systémy a SQL servery VY_32_INOVACE_7B10.

Databázové systémy Informatika pro ekonomy, př. 18.

Databáze velké množství dat pevně dané struktury

Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.

Softwarové inženýrství semestrální projekt

Databázové systémy Datové modely.

Univerzita třetího věku kurz Znalci Databáze 1.

Kontakty slajdy: ftp://ulita.ms.mff.cuni.cz/predn/POS.

Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,

Perzistence XML dat Kamil Toman

Úvod do databází zkrácená verze.

● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.

Nastavení serverů OB21-OP-EL-KON-DOL-M Orbis pictus 21. století.

Software,hardware,data,biti a bajty.  Software je v informatice sada všech počítačových programů používaných v počítači, které provádějí nějakou činnost.

SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.

Stránkování MATĚJ JURIČIČ 2015/2016 EP1 SPŠ A VOŠ JANA PALACHA KLADNO.

Databáze MS ACCESS 2010.

OPERAČNÍ SYSTÉMY Část 4 – správa souborů

Unix a Internet 9. SQL server

Vlastnosti souborů Jaroslava Černá.

Soubor Soubor v informatice označuje pojmenovanou sadu dat uloženou na nějakém datovém médiu, se kterou lze pracovat nástroji operačního systému jako.

Databázové systémy přednáška 13 – Analýza a reporting

Databázové systémy 1 – KIT/IDAS1 Ing. Monika Borkovcová, Ph.D.

Název školy: ZŠ Bor, okres Tachov, příspěvková organizace

Informatika pro ekonomy přednáška 8

Analýza velkých dat strukturovaně či nestrukturovaně?

Transkript prezentace:

Design databáze DW Ing. Jan Přichystal, Ph.D.

Úvod Design databáze popisuje přepis logického modelu na fyzický Implementace se v různých DB systémech liší Design vychází a je dán možnostmi DB a dalších nástrojů Design potvrzuje správný návrh ETL procesů a obráceně

Definice standardů Při návrhu DW je nutné definovat množinu standardů pro jednotlivé části To umožní jednotlivým koncovým uživatelům orientovat se ve struktuře DW Lze vycházet z již definovaných, ty ovšem mohou respektovat odlišnou filozofii (OLTP)

Konvence názvů Tabulky a atributy by měly mít shodné pojmenování jako v logickém modelu Názvy by měly být konzistentní, popisné a orientované na koncového uživatele Vhodné např.: [Customer Name] Pozor na problémy s mezerami, velikostí písmen a zvyky vývojářů

Použití NULL V dimenzionálních tabulkách je vhodné se vyhnout NULL hodnotám Zbytečně matou koncové uživatele Vhodnější je např.: „N/A“ nebo „Unknown“ Problém může nastat v dim. Datum Lze využít speciální hodnotu přes klíč Namapovat NULL na nepoužívané datum

STAGE tabulky ETL proces obvykle vyžaduje použití STAGE tabulek. Jejich množství závisí i na typu DB systémů, ze kterých získáváme data STAGE tab. je vhodné umístit do zvláštní instance databáze Usnadní to správu i zvýší flexibilitu při případném přesunu na jiný server

Umístění souborů Je třeba definovat umístění souborů zdrojových kódů, skriptů a DB souborů Vhodné je využívat systém správy verzí a týmové spolupráce DB soubory by měly být umístěny na zvláštní diskové oddíly Logové soubory je vhodné umístit také zvlášť

Použití synonym a pohledů Zjednodušují přístup k datům i správu Synonyma jsou dalším pojmenováním tabulek i atributů View se z pohledu koncového uživatele chová jako běžná tabulka Lze ho využít i pro odfiltrování nepotřebných, provozních atributů Umožňuje i předpočítávání hodnot Lze jím denormalizovat schéma vločky pro koncové uživatele Není vhodné pro přímý přístup k zdroj. datům

Primární klíče Je vhodné definovat politiku tvorby PK Poměrně snadné je to u dim. tabulek: Oracle – SEQUENCE, MSSQL – IDENTITY Datový typ použít vhodný pro joinování, záleží na DB, někdy se hodí i malý CHAR U faktových tabulek je složený z FK, může být i sekvence, záleží to na situaci:

Primární klíče Interní pravidla organizace umožňují více záznamů v FT se stejným ID Některé techniky updatování záznamů ve FT to vyžadují Sekvenční hodnota umožní odhalit, kde nastal problém v ETL Snadnější debugování – „podívej se na záznam 11535“ M:N vazby mezi faktovými tabulkami

Cizí klíče Otázkou je jestli řešit provázanost pomocí FK Výhodou je referenční integrita Nevýhodou nižší výkon Největší nebezpečí vyplývá z vymazání záznamu v dim tabulce, což není obvyklé Pokud DB systém podporuje optimalizace založené na CONSTRAINTS, použijte je

Fyzický datový model Vychází z logického datového modelu Doplňuje např. STAGE, provozní tabulky, atd. Liší se podle typu DB systému Je potřeba ověřit: jména tabulek a atributů korespondují s firemní politikou datové typy korespondují se zdrojovými daty Doplňuje provozní sloupce Použijte modelovací nástroj (konzistence, dokumentace, …)

Hvězda nebo vločka Logický datový model je obvykle hvězda – intuitivnější, vyšší výkon Některé BI nástroje preferují strukturu vločka, pak je vhodné dodržet logické přirozené členění Koncoví uživatelé mohou používat VIEW

Odhad velikosti DW Roli hrají především faktové tabulky a indexy Odhad velikosti zahrnuje: velikosti jednoho záznamu na základě datových typů, cca. 100B započítaní i historických dat indexy odhadneme až následně započítání prostoru pro dočasné tabulky a logy Započítání velikosti analytické krychle, cca. 40 až 300% vstupních dat Celkově DW zahrnuje asi 3x větší objem než vstupní data

Provozní tabulky Určeny pro běh systému: STAGE – určeny pro uchovávání denního loadu i pro jednotlivé postupné fáze ETL AUDIT – audit provedených operací ERROR – zaznamenání chyb Monitorovací tabulky – sledují přístup uživatelů Security – omezení dotazů na určité záznamy

Audit tabulky Vytvořeny pro každou fact tabulku jako speciální dimenze Obsahuje metadata o okamžiku, kdy vzniká každý nový záznam Data prezentována formou reportu informujícího o průběhu plnění DW

Error tabulky Cílem je zachytit všechny chyby, především v ETL Středem je fact tabulka s granularitou na chyby Dimenze tvoří čas (id pro sumarizaci všech chyb), dávka (proces spuštění) a chyba (popis chyby) Může být propojena na Error detail tabulku

Indexy Závisí na konkrétním DB systému Typy a použití: b-tree – stromová struktura, sloupce s vysokou kardinalitou (order_number, customer_key, …) clustered – sloučený, jeden na tabulku, vysoká kardinalita, data jsou fyzicky seřazena bitmap indexy – nízká kardinalita, denormalizované tabulky, typicky pro flagy a yes/no hodnoty Pokud indexace zdrží ETL o více než 20% vyplatí se indexy zrušit a znovu vytvořit

Indexace dimenzí Primární klíč sestává z jednoho sloupce Na něj se vytváří index Pokud jsou podporovány bitmap indexy, používají se na sloupce, podle kterých se často filtruje B-tree indexy se používají na dimenzionální atributy Indexujte sloupce pro joiny, filtry i seskupování

Indexace fakt tabulek Především b-tree nebo clustered index na primární klíč Klíč časové dimenze by měl být první, protože se podle něj často dotazuje Indexují se i jednotlivé FK do dimenzí Fakta se nevyplatí indexovat, jen v případě, že jsou častou součástí dotazu: „plat > 20 000“

Testování kvality dat Nevyplácí se podceňovat Spočívá ve spuštění dotazu pracujícím se zdrojovými daty, který kopíruje logiku DW Získané výsledky se srovnávají s těmi v DW Srovnávají se SUM a COUNT hodnoty Neexistuje testovací nástroj

Další testy ETL – testování, zda ETL se spouští kdy má, probíhá předem odhadnutý čas, jednotlivé fáze jsou včas, množství souhlasí Výkonostní – hardware, OS, DB systém, ladění výkonu (indexy) Použitelnost – spolupráce s uživateli

Děkuji za pozornost Dotazy?