Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král
Obsah Příklady SDB a OLAP Typické použití Struktury konceptuálních modelů Konceptuální operátory Fyzická organizace Ochrana informací
Příklady SDB a OLAP a)Tradiční reprezentace SDB b)Datový krychlový model (OLAP)
Tradiční reprezentace SDB
3 rozměry vepsané do 2 rozměrů Ve sloupcích 1 rozměru, ale hierarchická struktura (vypadá stejně jako 2 rozměry) Přidaný rozměr ( stát = „Kalifornie“) Ukrytá funkce SUMA
Tradiční reprezentace SDB – konceptuální model Souhrnný ukazatel : zaměstnanost Souhrnná funkce : SUMA Rozměr : pohlaví, rok, zaměstnání, stát Klasifikační hierarchie : profesní třída profese
Datový krychlový model
Sklad má přirozenou hierarchii město sklad Datum – 3-úrovňová hierarchie Ukazatelé mají jednotku (v Kč) - běžné i u SDB
Datový krychlový model Souhrnný ukazatel : prodané množství Souhrnná funkce : SUMA Rozměr : produkt, sklad, datum Klasifikační hierarchie : město sklad rok měsíc den
Porovnání SDB a OLAP SDBOLAP Souhrnný uk.ANO Souhrnná fce.ANO RozměrANO Klasifikační hierarchie ANO
Použití SDB a OLAP SDB: socio-ekonomické databáze OLAP: obchodní databáze
Použití SDB a)Sčítání lidí b)Ekonomická data c)Přírodní zdroje
Sčítání lidí Mnohoúrovňová územní klasifikační hierarchie –Ulice město stát Měnící se názvy, přesuny v hierarchii Různost rozměrů (každé město jinak) Bezpečnost
Ekonomická data Regionální klasifikační hierarchie (jen země, město) Hlubší hierarchie průmyslu Změny produktů v čase Bezpečnost
Přírodní zdroje Hladiny vod v nádržích, průtoky řek, … Podpora fyzické geografie (řeky na hranicích)
Použití OLAP Analýza prodeje Databáze akciových trhů Zdravotnické organizace
Analýza prodeje Velká rozměrovost, běžně >10 (denní čas, profil kupujícího, …) Jednoduché jednotlivé rozměry Výjimka: klasifikace produktu –Klasifikace dle různých měřítek (typ, cena,..) = „vícenásobná klasifikace nad stejným rozměrem“
Databáze akciových trhů Složitá klasifikace přes čas Vícenásobná klasifikace akcií –Výnos, kvalita, …
Zdravotnické organizace Standardizovaná klasifikace Hierarchie není jednoznačná –Rakovina plic: Rakoviny Nemoci dýchacího ústrojí Bezpečnost
Rozdíly SDBOLAP StrukturySložitéJednoduché RozměryProstorovéČasové BezpečnostZkoumánaIgnorována EfektivitaZanedbává seZkoumána
Souhrny V OLAP značně ignorovány Problém 1) suma přes města < stát Problém 2) sčítání obyvatel přes čas Problém 3) rakovina plic počítána 2x
Micro-data, Macro-data, Metadata SDB: pracuje se souhrnnými daty OLAP: pracuje s vlastními daty
Micro-data, Macro-data, Metadata Micro-data: vlastní data Macro-data: souhrnná data Metadata: data spojená s klasifikací struktur –Často spravována vlastním DB systémem
Konceptuální modelování - reprezentace Grafový model Tabulkový model Datový krychlový model
Grafový model
S-uzel: souhrnný atribut X-uzel: kartézský součin C-uzel: klasifikační atribut
Grafový model - výhody Nerozděluje rozměry na sloupce a řádky Neplete se hierarchie s rozměrem Hodně rozměrů na jedné stránce
Grafový model - problémy Mnoho kategorií se nevejde na stránku Jeden uzel obsahuje jak hodnotu kategorie („učitel“), tak zároveň název kategorie pro uzly pod ním („profese“)
STORM Statistický model reprezentace objektů
STORM II.
STORM III.
Tabulkové modely I.
Tabulkové modely II. StátKrajRokSexVěk Popu- lace Prům. příjem ČRVys1990Muž ČRVys1990Muž ČRVys1990Muž ………… …………… ………MužAll ………Žena
Tabulkové modely II. - problémy Není rozdíl mezi kategorií a souhrnnými atributy Není rozdíl mezi atributy spojenými s klas. hierarchií a rozměrem Opakování atributů
Model „hvězda“
Datový krychlový model Dobrá reprezentace rozměrů Špatná reprezentace strukturovaných rozměrů Špatné na ukázku vlastních dat, jen pro strukturu
Porovnání terminologie SDBOLAP Atribut kategorieRozměr Hierarchie kategorieHierarchie rozměru Hodnota kategorieHodnota rozměru Souhrnný atributUkazatel Statistický objektDatová krychle Kartézský součinMnoho-rozměrnost Souhrnná tabulkaTabulka / Datová krychle
Konceptuální modelování - operátory Automatická agregace Operátory SDB Operátory OLAP
Automatická agregace
Statistické operátory S-selekce S-projekce S-agregace S-sjednocení
OLAP operátory Slice Dice Roll up Drill down
Porovnání operátorů SDBOLAP S-projekceSlice S-selekceDice S-agregaceRoll up S-deagregaceDrill down S-sjednocení-----
Rozšíření SQL pro OLAP Operátor CUBE –Klíčové slovo ALL
Operátor spojení klasifikací Věková skupina Průmysl 1990Průmysl 1991 Zemědělství ---Internet
Fyzická organizace Rozdělené soubory Techniky komprese mnohorozměrného prostoru Datová krychle ROLAP a MOLAP
Rozdělené soubory Každý sloupeček se ukládá zvlášť Zjednodušení sumarizace Nezmenšuje úložný prostor binární kódování Extrémní rozdělení = každý bit má vlastní soubor (ještě vylepšuje výsledky)
Kompresní uložení Linearizace polí Komprese délkou běhu a hlavičková komprese
Komprese linearizací polí Místo hodnot všech dimenzí, ukládáme jen pozici v mnohorozměrném poli, tu lze spočítat z velikostí jednotlivých dimenzí Rok: 89, 90, 91 Pohlaví: Ž, M
Komprese délkou běhu a hlavičková komprese
Které souhrny pamatovat? Produkt, místo, den Produkt, místoMísto, denProdukt, den Produkt MístoDen
Uložení datové krychle Před-uložím si krychli na podkrychle Při dotazu čtu jen potřebné podkrychle Jak řešit přidávání? –Místo současného výzkumu
ROLAP a MOLAP Relační OLAP a Mnohorozměrný OLAP
Proč MOLAP: Relační tabulky jsou nepřirozené pro mnohorozměrná data Mnohorozměrná pole jsou efektivní pro ukládání i operací
Proč ROLAP: Je přirozeně slučitelný s existující technologií MOLAP nepodporuje ad hoc dotazy V MOLAPu je těžký update Efektivity ROLAPu lze dosáhnout kódováním a kompresí
Bezpečnost Uveřejňovat jen souhrnná data, ne jednotlivá (i v doplňku) –ukládat historii dotazů Při velkém množství dat vzorkovat Připravit si data do políček a pak uveřejňovat jen ty Změnit buď uložená nebo výstupní data
Závěr - SDB a OLAP: Různé použití Obdobné operátory SDB se zaměřuje na konceptuální modelování OLAP více na fyzickou organizaci dat
Reference: Arie Shoshani, OLAP and Statistical Databases: Similarities and Differences