Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král

Slides:



Advertisements
Podobné prezentace
Multidimenzionální analýza zdravotnických dat v prostředí webu RNDr. Karel Drdla RNDr. Zlata Kubů DCB Actuaries and Consultants
Advertisements

Organisation for Economic Cooperation and Development OECD iLibrary.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Ing. Monika Šimková. Máme-li data reprezentovat v databázi, jak vybereme jejich strukturu na konceptuální úrovni? Konceptuální modelování analyzuje požadavky.
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
A4B33DS & X33MIS Zdeněk Kouba
PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.
DOK.
Úvod do databází Databáze.
1IT Relační datový model
Databáze Jiří Kalousek.
Podnikový systém SEWSS Jakub Charvát STATISTICA Enterprise-wide SPC System.
Prostorové databáze, prostorové indexy
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Databázové systémy Štěpán Šípal.
(c) Zdeněk Bergman1 Geografické informační systémy úvod GIS.
Analýza dat.
Použití datových skladů v pojistné matematice
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Databázové systémy přednáška+cvičení
Relační databáze.
Vypracoval: Ondřej Dvorský Třída: VIII.A
Základní pojmy Systém je abstrakce, kterou si lidé vytvářejí v procesu poznávání jako nástroj zkoumání reálných objektů.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 3.
Datové typy a struktury
Dokumentace informačního systému
Aplikační a programové vybavení
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
Ukládání heterogenních dat pomocí rozvolněných objektů Michal Žemlička.
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
Databázové modelování
Databázové modelování
Databázové systémy Informatika pro ekonomy, př. 18.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B17 Autor Ing. Jiří Kalousek Období vytvoření Duben 2013.
Obecná kvantifikace v relačních databázích Přehled typů dat a algoritmů Alan Eckhardt.
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Klomfar Petr.  Adresářová služba  specializovaná databáze optimalizovaná pro čtení a vyhledávání.  popisující objekt pomocí atributů. Na rozdíl od.
DOK. FUZZY MNOŽINY ETC. Klasické množiny Klasická množina – Výběr prvků z nějakého univerza Podle nějakého pravidla – Každý prvek obsahuje nejvýše jednou.
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
Počítačové sítě Terezie Gřundělová Historie Vznik a vývoj je spjat s rozvojem počítačů a výpočetní techniky První rozmach v padesátých letech.
Data Warehousing Růst obratu: $10 miliard v 1999
CUBE - Operátor relační agregace
Vícerozměrný přístup pro indexování XML dat
Databázové systémy Datové modely.
Perzistence XML dat Kamil Toman
Systémové pojetí hospodářské organizace 1 Architektura podnikové informatiky (Zdroj: Gála, Pour, Toman, Podniková informatika. Praha: Grada 2006)
DATABÁZE.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
YOUR LOGO C# Entity Framework. YOUR LOGO  Entity framework nám poskytuje: -Vytváří objektový model na základě databázového schématu -Mapuje tabulky,
Databáze MS ACCESS 2010.
Ukládání dat biodiverzity a jejich vizualizace
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Dobývání znalostí z databází OLAP a datové kostky
Veřejná databáze Českého statistického úřadu
Datové sklady Analýza dat
Z0047 Geografie průmyslu a zemědělství
Databázové systémy přednáška 13 – Analýza a reporting
KIV/ZD cvičení 6 Tomáš Potužák.
Informatika pro ekonomy přednáška 8
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J
Geografické informační systémy
Základy business intelligence Jaroslav Šmarda
Transkript prezentace:

Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král

Obsah Příklady SDB a OLAP Typické použití Struktury konceptuálních modelů Konceptuální operátory Fyzická organizace Ochrana informací

Příklady SDB a OLAP a)Tradiční reprezentace SDB b)Datový krychlový model (OLAP)

Tradiční reprezentace SDB

3 rozměry vepsané do 2 rozměrů Ve sloupcích 1 rozměru, ale hierarchická struktura (vypadá stejně jako 2 rozměry) Přidaný rozměr ( stát = „Kalifornie“) Ukrytá funkce SUMA

Tradiční reprezentace SDB – konceptuální model Souhrnný ukazatel : zaměstnanost Souhrnná funkce : SUMA Rozměr : pohlaví, rok, zaměstnání, stát Klasifikační hierarchie : profesní třída  profese

Datový krychlový model

Sklad má přirozenou hierarchii město  sklad Datum – 3-úrovňová hierarchie Ukazatelé mají jednotku (v Kč) - běžné i u SDB

Datový krychlový model Souhrnný ukazatel : prodané množství Souhrnná funkce : SUMA Rozměr : produkt, sklad, datum Klasifikační hierarchie : město  sklad rok  měsíc  den

Porovnání SDB a OLAP SDBOLAP Souhrnný uk.ANO Souhrnná fce.ANO RozměrANO Klasifikační hierarchie ANO

Použití SDB a OLAP SDB: socio-ekonomické databáze OLAP: obchodní databáze

Použití SDB a)Sčítání lidí b)Ekonomická data c)Přírodní zdroje

Sčítání lidí Mnohoúrovňová územní klasifikační hierarchie –Ulice  město  stát Měnící se názvy, přesuny v hierarchii Různost rozměrů (každé město jinak) Bezpečnost

Ekonomická data Regionální klasifikační hierarchie (jen země, město) Hlubší hierarchie průmyslu Změny produktů v čase Bezpečnost

Přírodní zdroje Hladiny vod v nádržích, průtoky řek, … Podpora fyzické geografie (řeky na hranicích)

Použití OLAP Analýza prodeje Databáze akciových trhů Zdravotnické organizace

Analýza prodeje Velká rozměrovost, běžně >10 (denní čas, profil kupujícího, …) Jednoduché jednotlivé rozměry Výjimka: klasifikace produktu –Klasifikace dle různých měřítek (typ, cena,..) = „vícenásobná klasifikace nad stejným rozměrem“

Databáze akciových trhů Složitá klasifikace přes čas Vícenásobná klasifikace akcií –Výnos, kvalita, …

Zdravotnické organizace Standardizovaná klasifikace Hierarchie není jednoznačná –Rakovina plic: Rakoviny Nemoci dýchacího ústrojí Bezpečnost

Rozdíly SDBOLAP StrukturySložitéJednoduché RozměryProstorovéČasové BezpečnostZkoumánaIgnorována EfektivitaZanedbává seZkoumána

Souhrny V OLAP značně ignorovány Problém 1) suma přes města < stát Problém 2) sčítání obyvatel přes čas Problém 3) rakovina plic počítána 2x

Micro-data, Macro-data, Metadata SDB: pracuje se souhrnnými daty OLAP: pracuje s vlastními daty

Micro-data, Macro-data, Metadata Micro-data: vlastní data Macro-data: souhrnná data Metadata: data spojená s klasifikací struktur –Často spravována vlastním DB systémem

Konceptuální modelování - reprezentace Grafový model Tabulkový model Datový krychlový model

Grafový model

S-uzel: souhrnný atribut X-uzel: kartézský součin C-uzel: klasifikační atribut

Grafový model - výhody Nerozděluje rozměry na sloupce a řádky Neplete se hierarchie s rozměrem Hodně rozměrů na jedné stránce

Grafový model - problémy Mnoho kategorií se nevejde na stránku Jeden uzel obsahuje jak hodnotu kategorie („učitel“), tak zároveň název kategorie pro uzly pod ním („profese“)

STORM Statistický model reprezentace objektů

STORM II.

STORM III.

Tabulkové modely I.

Tabulkové modely II. StátKrajRokSexVěk Popu- lace Prům. příjem ČRVys1990Muž ČRVys1990Muž ČRVys1990Muž ………… …………… ………MužAll ………Žena

Tabulkové modely II. - problémy Není rozdíl mezi kategorií a souhrnnými atributy Není rozdíl mezi atributy spojenými s klas. hierarchií a rozměrem Opakování atributů

Model „hvězda“

Datový krychlový model Dobrá reprezentace rozměrů Špatná reprezentace strukturovaných rozměrů Špatné na ukázku vlastních dat, jen pro strukturu

Porovnání terminologie SDBOLAP Atribut kategorieRozměr Hierarchie kategorieHierarchie rozměru Hodnota kategorieHodnota rozměru Souhrnný atributUkazatel Statistický objektDatová krychle Kartézský součinMnoho-rozměrnost Souhrnná tabulkaTabulka / Datová krychle

Konceptuální modelování - operátory Automatická agregace Operátory SDB Operátory OLAP

Automatická agregace

Statistické operátory S-selekce S-projekce S-agregace S-sjednocení

OLAP operátory Slice Dice Roll up Drill down

Porovnání operátorů SDBOLAP S-projekceSlice S-selekceDice S-agregaceRoll up S-deagregaceDrill down S-sjednocení-----

Rozšíření SQL pro OLAP Operátor CUBE –Klíčové slovo ALL

Operátor spojení klasifikací Věková skupina Průmysl 1990Průmysl 1991 Zemědělství ---Internet

Fyzická organizace Rozdělené soubory Techniky komprese mnohorozměrného prostoru Datová krychle ROLAP a MOLAP

Rozdělené soubory Každý sloupeček se ukládá zvlášť Zjednodušení sumarizace Nezmenšuje úložný prostor  binární kódování Extrémní rozdělení = každý bit má vlastní soubor (ještě vylepšuje výsledky)

Kompresní uložení Linearizace polí Komprese délkou běhu a hlavičková komprese

Komprese linearizací polí Místo hodnot všech dimenzí, ukládáme jen pozici v mnohorozměrném poli, tu lze spočítat z velikostí jednotlivých dimenzí Rok: 89, 90, 91 Pohlaví: Ž, M

Komprese délkou běhu a hlavičková komprese

Které souhrny pamatovat? Produkt, místo, den Produkt, místoMísto, denProdukt, den Produkt MístoDen

Uložení datové krychle Před-uložím si krychli na podkrychle Při dotazu čtu jen potřebné podkrychle Jak řešit přidávání? –Místo současného výzkumu

ROLAP a MOLAP Relační OLAP a Mnohorozměrný OLAP

Proč MOLAP: Relační tabulky jsou nepřirozené pro mnohorozměrná data Mnohorozměrná pole jsou efektivní pro ukládání i operací

Proč ROLAP: Je přirozeně slučitelný s existující technologií MOLAP nepodporuje ad hoc dotazy V MOLAPu je těžký update Efektivity ROLAPu lze dosáhnout kódováním a kompresí

Bezpečnost Uveřejňovat jen souhrnná data, ne jednotlivá (i v doplňku) –ukládat historii dotazů Při velkém množství dat vzorkovat Připravit si data do políček a pak uveřejňovat jen ty Změnit buď uložená nebo výstupní data

Závěr - SDB a OLAP: Různé použití Obdobné operátory SDB se zaměřuje na konceptuální modelování OLAP více na fyzickou organizaci dat

Reference: Arie Shoshani, OLAP and Statistical Databases: Similarities and Differences