Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král

Podobné prezentace


Prezentace na téma: "Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král"— Transkript prezentace:

1 Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král (index@email.cz)

2 Obsah Příklady SDB a OLAP Typické použití Struktury konceptuálních modelů Konceptuální operátory Fyzická organizace Ochrana informací

3 Příklady SDB a OLAP a)Tradiční reprezentace SDB b)Datový krychlový model (OLAP)

4 Tradiční reprezentace SDB

5 3 rozměry vepsané do 2 rozměrů Ve sloupcích 1 rozměru, ale hierarchická struktura (vypadá stejně jako 2 rozměry) Přidaný rozměr ( stát = „Kalifornie“) Ukrytá funkce SUMA

6 Tradiční reprezentace SDB – konceptuální model Souhrnný ukazatel : zaměstnanost Souhrnná funkce : SUMA Rozměr : pohlaví, rok, zaměstnání, stát Klasifikační hierarchie : profesní třída  profese

7 Datový krychlový model

8 Sklad má přirozenou hierarchii město  sklad Datum – 3-úrovňová hierarchie Ukazatelé mají jednotku (v Kč) - běžné i u SDB

9 Datový krychlový model Souhrnný ukazatel : prodané množství Souhrnná funkce : SUMA Rozměr : produkt, sklad, datum Klasifikační hierarchie : město  sklad rok  měsíc  den

10 Porovnání SDB a OLAP SDBOLAP Souhrnný uk.ANO Souhrnná fce.ANO RozměrANO Klasifikační hierarchie ANO

11 Použití SDB a OLAP SDB: socio-ekonomické databáze OLAP: obchodní databáze

12 Použití SDB a)Sčítání lidí b)Ekonomická data c)Přírodní zdroje

13 Sčítání lidí Mnohoúrovňová územní klasifikační hierarchie –Ulice  město  stát Měnící se názvy, přesuny v hierarchii Různost rozměrů (každé město jinak) Bezpečnost

14 Ekonomická data Regionální klasifikační hierarchie (jen země, město) Hlubší hierarchie průmyslu Změny produktů v čase Bezpečnost

15 Přírodní zdroje Hladiny vod v nádržích, průtoky řek, … Podpora fyzické geografie (řeky na hranicích)

16 Použití OLAP Analýza prodeje Databáze akciových trhů Zdravotnické organizace

17 Analýza prodeje Velká rozměrovost, běžně >10 (denní čas, profil kupujícího, …) Jednoduché jednotlivé rozměry Výjimka: klasifikace produktu –Klasifikace dle různých měřítek (typ, cena,..) = „vícenásobná klasifikace nad stejným rozměrem“

18 Databáze akciových trhů Složitá klasifikace přes čas Vícenásobná klasifikace akcií –Výnos, kvalita, …

19 Zdravotnické organizace Standardizovaná klasifikace Hierarchie není jednoznačná –Rakovina plic: Rakoviny Nemoci dýchacího ústrojí Bezpečnost

20 Rozdíly SDBOLAP StrukturySložitéJednoduché RozměryProstorovéČasové BezpečnostZkoumánaIgnorována EfektivitaZanedbává seZkoumána

21 Souhrny V OLAP značně ignorovány Problém 1) suma přes města < stát Problém 2) sčítání obyvatel přes čas Problém 3) rakovina plic počítána 2x

22 Micro-data, Macro-data, Metadata SDB: pracuje se souhrnnými daty OLAP: pracuje s vlastními daty

23 Micro-data, Macro-data, Metadata Micro-data: vlastní data Macro-data: souhrnná data Metadata: data spojená s klasifikací struktur –Často spravována vlastním DB systémem

24 Konceptuální modelování - reprezentace Grafový model Tabulkový model Datový krychlový model

25 Grafový model

26 S-uzel: souhrnný atribut X-uzel: kartézský součin C-uzel: klasifikační atribut

27 Grafový model - výhody Nerozděluje rozměry na sloupce a řádky Neplete se hierarchie s rozměrem Hodně rozměrů na jedné stránce

28 Grafový model - problémy Mnoho kategorií se nevejde na stránku Jeden uzel obsahuje jak hodnotu kategorie („učitel“), tak zároveň název kategorie pro uzly pod ním („profese“)

29 STORM Statistický model reprezentace objektů

30 STORM II.

31 STORM III.

32

33

34

35 Tabulkové modely I.

36 Tabulkové modely II. StátKrajRokSexVěk Popu- lace Prům. příjem ČRVys1990Muž1-10117630 ČRVys1990Muž11-2097633342 ČRVys1990Muž21-301576334342 …………31-401456637444 ……………1137238776 ………MužAll8948336755 ………Žena1-1084570

37 Tabulkové modely II. - problémy Není rozdíl mezi kategorií a souhrnnými atributy Není rozdíl mezi atributy spojenými s klas. hierarchií a rozměrem Opakování atributů

38 Model „hvězda“

39 Datový krychlový model Dobrá reprezentace rozměrů Špatná reprezentace strukturovaných rozměrů Špatné na ukázku vlastních dat, jen pro strukturu

40 Porovnání terminologie SDBOLAP Atribut kategorieRozměr Hierarchie kategorieHierarchie rozměru Hodnota kategorieHodnota rozměru Souhrnný atributUkazatel Statistický objektDatová krychle Kartézský součinMnoho-rozměrnost Souhrnná tabulkaTabulka / Datová krychle

41 Konceptuální modelování - operátory Automatická agregace Operátory SDB Operátory OLAP

42 Automatická agregace

43 Statistické operátory S-selekce S-projekce S-agregace S-sjednocení

44 OLAP operátory Slice Dice Roll up Drill down

45 Porovnání operátorů SDBOLAP S-projekceSlice S-selekceDice S-agregaceRoll up S-deagregaceDrill down S-sjednocení-----

46 Rozšíření SQL pro OLAP Operátor CUBE –Klíčové slovo ALL

47 Operátor spojení klasifikací Věková skupina 0-50-1 6-102-10 11-1511-20 16-2021-30 Průmysl 1990Průmysl 1991 Zemědělství ---Internet

48 Fyzická organizace Rozdělené soubory Techniky komprese mnohorozměrného prostoru Datová krychle ROLAP a MOLAP

49 Rozdělené soubory Každý sloupeček se ukládá zvlášť Zjednodušení sumarizace Nezmenšuje úložný prostor  binární kódování Extrémní rozdělení = každý bit má vlastní soubor (ještě vylepšuje výsledky)

50 Kompresní uložení Linearizace polí Komprese délkou běhu a hlavičková komprese

51 Komprese linearizací polí Místo hodnot všech dimenzí, ukládáme jen pozici v mnohorozměrném poli, tu lze spočítat z velikostí jednotlivých dimenzí Rok: 89, 90, 91 Pohlaví: Ž, M 123 1123 2456

52 Komprese délkou běhu a hlavičková komprese

53 Které souhrny pamatovat? Produkt, místo, den Produkt, místoMísto, denProdukt, den Produkt MístoDen

54 Uložení datové krychle Před-uložím si krychli na podkrychle Při dotazu čtu jen potřebné podkrychle Jak řešit přidávání? –Místo současného výzkumu

55 ROLAP a MOLAP Relační OLAP a Mnohorozměrný OLAP

56 Proč MOLAP: Relační tabulky jsou nepřirozené pro mnohorozměrná data Mnohorozměrná pole jsou efektivní pro ukládání i operací

57 Proč ROLAP: Je přirozeně slučitelný s existující technologií MOLAP nepodporuje ad hoc dotazy V MOLAPu je těžký update Efektivity ROLAPu lze dosáhnout kódováním a kompresí

58 Bezpečnost Uveřejňovat jen souhrnná data, ne jednotlivá (i v doplňku) –ukládat historii dotazů Při velkém množství dat vzorkovat Připravit si data do políček a pak uveřejňovat jen ty Změnit buď uložená nebo výstupní data

59 Závěr - SDB a OLAP: Různé použití Obdobné operátory SDB se zaměřuje na konceptuální modelování OLAP více na fyzickou organizaci dat

60 Reference: Arie Shoshani, OLAP and Statistical Databases: Similarities and Differences


Stáhnout ppt "Statistické databáze a OLAP: Podobnosti a rozdíly Michal Král"

Podobné prezentace


Reklamy Google