Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král (index@email.cz)
2
Obsah Příklady SDB a OLAP Typické použití Struktury konceptuálních modelů Konceptuální operátory Fyzická organizace Ochrana informací
3
Příklady SDB a OLAP a)Tradiční reprezentace SDB b)Datový krychlový model (OLAP)
4
Tradiční reprezentace SDB
5
3 rozměry vepsané do 2 rozměrů Ve sloupcích 1 rozměru, ale hierarchická struktura (vypadá stejně jako 2 rozměry) Přidaný rozměr ( stát = „Kalifornie“) Ukrytá funkce SUMA
6
Tradiční reprezentace SDB – konceptuální model Souhrnný ukazatel : zaměstnanost Souhrnná funkce : SUMA Rozměr : pohlaví, rok, zaměstnání, stát Klasifikační hierarchie : profesní třída profese
7
Datový krychlový model
8
Sklad má přirozenou hierarchii město sklad Datum – 3-úrovňová hierarchie Ukazatelé mají jednotku (v Kč) - běžné i u SDB
9
Datový krychlový model Souhrnný ukazatel : prodané množství Souhrnná funkce : SUMA Rozměr : produkt, sklad, datum Klasifikační hierarchie : město sklad rok měsíc den
10
Porovnání SDB a OLAP SDBOLAP Souhrnný uk.ANO Souhrnná fce.ANO RozměrANO Klasifikační hierarchie ANO
11
Použití SDB a OLAP SDB: socio-ekonomické databáze OLAP: obchodní databáze
12
Použití SDB a)Sčítání lidí b)Ekonomická data c)Přírodní zdroje
13
Sčítání lidí Mnohoúrovňová územní klasifikační hierarchie –Ulice město stát Měnící se názvy, přesuny v hierarchii Různost rozměrů (každé město jinak) Bezpečnost
14
Ekonomická data Regionální klasifikační hierarchie (jen země, město) Hlubší hierarchie průmyslu Změny produktů v čase Bezpečnost
15
Přírodní zdroje Hladiny vod v nádržích, průtoky řek, … Podpora fyzické geografie (řeky na hranicích)
16
Použití OLAP Analýza prodeje Databáze akciových trhů Zdravotnické organizace
17
Analýza prodeje Velká rozměrovost, běžně >10 (denní čas, profil kupujícího, …) Jednoduché jednotlivé rozměry Výjimka: klasifikace produktu –Klasifikace dle různých měřítek (typ, cena,..) = „vícenásobná klasifikace nad stejným rozměrem“
18
Databáze akciových trhů Složitá klasifikace přes čas Vícenásobná klasifikace akcií –Výnos, kvalita, …
19
Zdravotnické organizace Standardizovaná klasifikace Hierarchie není jednoznačná –Rakovina plic: Rakoviny Nemoci dýchacího ústrojí Bezpečnost
20
Rozdíly SDBOLAP StrukturySložitéJednoduché RozměryProstorovéČasové BezpečnostZkoumánaIgnorována EfektivitaZanedbává seZkoumána
21
Souhrny V OLAP značně ignorovány Problém 1) suma přes města < stát Problém 2) sčítání obyvatel přes čas Problém 3) rakovina plic počítána 2x
22
Micro-data, Macro-data, Metadata SDB: pracuje se souhrnnými daty OLAP: pracuje s vlastními daty
23
Micro-data, Macro-data, Metadata Micro-data: vlastní data Macro-data: souhrnná data Metadata: data spojená s klasifikací struktur –Často spravována vlastním DB systémem
24
Konceptuální modelování - reprezentace Grafový model Tabulkový model Datový krychlový model
25
Grafový model
26
S-uzel: souhrnný atribut X-uzel: kartézský součin C-uzel: klasifikační atribut
27
Grafový model - výhody Nerozděluje rozměry na sloupce a řádky Neplete se hierarchie s rozměrem Hodně rozměrů na jedné stránce
28
Grafový model - problémy Mnoho kategorií se nevejde na stránku Jeden uzel obsahuje jak hodnotu kategorie („učitel“), tak zároveň název kategorie pro uzly pod ním („profese“)
29
STORM Statistický model reprezentace objektů
30
STORM II.
31
STORM III.
35
Tabulkové modely I.
36
Tabulkové modely II. StátKrajRokSexVěk Popu- lace Prům. příjem ČRVys1990Muž1-10117630 ČRVys1990Muž11-2097633342 ČRVys1990Muž21-301576334342 …………31-401456637444 ……………1137238776 ………MužAll8948336755 ………Žena1-1084570
37
Tabulkové modely II. - problémy Není rozdíl mezi kategorií a souhrnnými atributy Není rozdíl mezi atributy spojenými s klas. hierarchií a rozměrem Opakování atributů
38
Model „hvězda“
39
Datový krychlový model Dobrá reprezentace rozměrů Špatná reprezentace strukturovaných rozměrů Špatné na ukázku vlastních dat, jen pro strukturu
40
Porovnání terminologie SDBOLAP Atribut kategorieRozměr Hierarchie kategorieHierarchie rozměru Hodnota kategorieHodnota rozměru Souhrnný atributUkazatel Statistický objektDatová krychle Kartézský součinMnoho-rozměrnost Souhrnná tabulkaTabulka / Datová krychle
41
Konceptuální modelování - operátory Automatická agregace Operátory SDB Operátory OLAP
42
Automatická agregace
43
Statistické operátory S-selekce S-projekce S-agregace S-sjednocení
44
OLAP operátory Slice Dice Roll up Drill down
45
Porovnání operátorů SDBOLAP S-projekceSlice S-selekceDice S-agregaceRoll up S-deagregaceDrill down S-sjednocení-----
46
Rozšíření SQL pro OLAP Operátor CUBE –Klíčové slovo ALL
47
Operátor spojení klasifikací Věková skupina 0-50-1 6-102-10 11-1511-20 16-2021-30 Průmysl 1990Průmysl 1991 Zemědělství ---Internet
48
Fyzická organizace Rozdělené soubory Techniky komprese mnohorozměrného prostoru Datová krychle ROLAP a MOLAP
49
Rozdělené soubory Každý sloupeček se ukládá zvlášť Zjednodušení sumarizace Nezmenšuje úložný prostor binární kódování Extrémní rozdělení = každý bit má vlastní soubor (ještě vylepšuje výsledky)
50
Kompresní uložení Linearizace polí Komprese délkou běhu a hlavičková komprese
51
Komprese linearizací polí Místo hodnot všech dimenzí, ukládáme jen pozici v mnohorozměrném poli, tu lze spočítat z velikostí jednotlivých dimenzí Rok: 89, 90, 91 Pohlaví: Ž, M 123 1123 2456
52
Komprese délkou běhu a hlavičková komprese
53
Které souhrny pamatovat? Produkt, místo, den Produkt, místoMísto, denProdukt, den Produkt MístoDen
54
Uložení datové krychle Před-uložím si krychli na podkrychle Při dotazu čtu jen potřebné podkrychle Jak řešit přidávání? –Místo současného výzkumu
55
ROLAP a MOLAP Relační OLAP a Mnohorozměrný OLAP
56
Proč MOLAP: Relační tabulky jsou nepřirozené pro mnohorozměrná data Mnohorozměrná pole jsou efektivní pro ukládání i operací
57
Proč ROLAP: Je přirozeně slučitelný s existující technologií MOLAP nepodporuje ad hoc dotazy V MOLAPu je těžký update Efektivity ROLAPu lze dosáhnout kódováním a kompresí
58
Bezpečnost Uveřejňovat jen souhrnná data, ne jednotlivá (i v doplňku) –ukládat historii dotazů Při velkém množství dat vzorkovat Připravit si data do políček a pak uveřejňovat jen ty Změnit buď uložená nebo výstupní data
59
Závěr - SDB a OLAP: Různé použití Obdobné operátory SDB se zaměřuje na konceptuální modelování OLAP více na fyzickou organizaci dat
60
Reference: Arie Shoshani, OLAP and Statistical Databases: Similarities and Differences
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.