Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Data Warehousing Růst obratu: $10 miliard v 1999 Rozsah od desktop do super: Walmart: 900-CPU, 2,700 disk, 23TB Teradata system Nové termíny slice & dice,

Podobné prezentace


Prezentace na téma: "Data Warehousing Růst obratu: $10 miliard v 1999 Rozsah od desktop do super: Walmart: 900-CPU, 2,700 disk, 23TB Teradata system Nové termíny slice & dice,"— Transkript prezentace:

1 Data Warehousing Růst obratu: $10 miliard v 1999 Rozsah od desktop do super: Walmart: 900-CPU, 2,700 disk, 23TB Teradata system Nové termíny slice & dice, rollup, MOLAP, pivot,...

2 DB2warehousing 2 l Co je datový warehouse? l Proč používat warehouse? l Modely & operace l Implementace warehousu l Další vývoj Obsah

3 DB2warehousing 3 Co je Warehouse? l Kolekce dat separovaná od operační databáze u subjektově orientovaná u určená pro manažery a exekutivu u kopíruje operační data u obsahuje další údaje (součty, historii) u integrovaná u časově proměnná u stálá (stabilní) více

4 DB2warehousing 4 Co je Warehouse? l Kolekce prostředků u sdružování dat u čištění, integrování,... u dotazování, výpisy, analýzy,... u data mining u monitorování, administraci warehousu

5 DB2warehousing 5 Architektura Warehousu Klient Warehouse Zdroj Dotaz & Analýza Integrace Metadata Zdroj

6 DB2warehousing 6 Motivační příklady l Předpověď počasí l Srovnávání výkonnosti skupin l Monitoring, detekce podvodů l Vizualizace

7 DB2warehousing 7 Proč Warehouse? l Dva přístupy: u Query-Driven (Eager=dychtivé) u Warehouse (Lazy=zpožděné) Zdroj ?

8 DB2warehousing 8 Query-Driven přístup Klient Wrapper Mediator Zdroj

9 DB2warehousing 9 Výhody Warehousingu l Vysoký výkon dotazování l Nepřístupnost z vně warehousu l Lokální zpracování bez ovlivnění zdrojů l Může operovat při nepřístupných zdrojích l Dotazování na data neukládaná v DBMS l Další informace v warehousu u Modifikovaná, sumarizovaná (aggregovaná) u Historické informace

10 DB2warehousing 10 Výhody Query-Driven l Netřeba kopírovat data u méně paměti u netřeba vybírat data l Čerstvější data l Netřeba znát potřeby dotazů l Postačuje dotazovací interface ke zdroji

11 DB2warehousing 11 OLTP vs. OLAP l OLTP: On Line Transaction Processing u Popisuje zpracování v operační databázi l OLAP: On Line Analytical Processing u Popisuje zpracování ve warehousu

12 DB2warehousing 12 OLTP vs. OLAP l Většinou updatuje l Více malých transakcí l Mb-Tb dat l Prvotní data l Administrativní uživatel l Čerstvá data l Konsistence, obnova je kritická l Většinou čte l Dlouhé, komplexní dotazy l Gb-Tb dat l Summarizovaná, konsolidovaná data l Vedoucí pracovník, analytik jako uživatel OLTP OLAP

13 DB2warehousing 13 Datová tržiště l Menší warehousy l Rozsah části organizace u např., marketing (zákazníci, producenti, prodeje) l Nevyžaduje celopodnikové informace u ale problem budoucí integrace?

14 DB2warehousing 14 Modely & Operátory warehousu l Datové Modely u relační u hvězdice & vločky u krychle l Operátory u slice & dice (řez & výřez) u roll-up, drill-down (srolování, zavrtání) u pivoting u další

15 DB2warehousing 15 Hvězdice

16 DB2warehousing 16 Schéma hvězdicové prodej prodId datum zákId výrId obchId množ částka zákazník zákId jméno addresa město výrobek výrId jméno cena obchod obchId město

17 DB2warehousing 17 Tabulky l Tabulka faktů l Tabulky dimenzí l Měřítka(Kč, cm) prodId datum zákId výrId obchId množ částka zákazník zákId jméno adresa město výrobek výrId jméno cena obchod obchId město prodej

18 DB2warehousing 18 Hierarchie dimenzí obchod Typ městooblast  vločkové schéma  konstelace

19 DB2warehousing 19 Krychle Pohled tabulky faktů: Multi-dimenzionální krychle: dimenze = 2

20 DB2warehousing 20 3-D krychle den 2 den 1 dimenze = 3 Multi-dimenzionální krychle:Pohled tabulky faktů:

21 DB2warehousing 21 ROLAP versus MOLAP l ROLAP: Relational On-Line Analytical Processing l MOLAP: Multi-Dimensional On-Line Analytical Processing

22 DB2warehousing 22 Agregáty Sečti částky za den 1 V SQL: SELECT sum(částka) FROM prodej WHERE datum = 1 81

23 DB2warehousing 23 Aggregáty Sečti částky po dnech V SQL: SELECT datum, sum(částka) FROM prodej GROUP BY datum

24 DB2warehousing 24 Další příklad Sečti částky po dnech a výrobkách V SQL: SELECT datum, sum(částka) FROM prodej GROUP BY datum, výrId drill-down rollup

25 DB2warehousing 25 Aggregáty l Operátory: sum, count, max, min, median, ave l “Having” klauzule l Použití hierarchie dimenzí u průměr za region (v rámci obchodu) u maximum za měsíc (vzhledem k datumu)

26 DB2warehousing 26 Agregace krychle den 2 den drill-down rollup Př.: Výpočty součtů

27 DB2warehousing 27 Operátory krychle den 2 den prodej(c1,*,*) prodej(*,*,*) prodej(c2,p2,*)

28 DB2warehousing 28 Rozšířená krychle den 2 den 1 * prodej(*,p2,*)

29 DB2warehousing 29 Agregagace s použitím hierarchií den 2 den 1 zákazník region země (zákazník c1 v regionu A; zákazníci c2, c3 v regionu B)

30 DB2warehousing 30 Pivoting den 2 den 1 Multi-dimenzionální krychle: Pohled tabulky faktů ?!

31 DB2warehousing 31 Prostředky pro dotazy l Query Building l Report Writers (porovnávání, grafy,…) l Spreadsheet systémy l Webovská rozhraní l Data Mining

32 DB2warehousing 32 Další operace l Časové funkce u např., časový průměr l Vyhodnocované atributy u např., provize = prodeje * rabat l Textové dotazy u např., najdi dokumenty se slovy X AND B u např., seřaď documenty podle frekvence slov X, Y, Z

33 DB2warehousing 33 Data Mining l Rozhodovací stromy l Shlukování (Clustering) l Asociační pravidla

34 DB2warehousing 34 Rozhodovací stromy Příklad: Zjištění údajů, jací zákazníci se zajímají o nové modely aut Výběr zákazníků pro reklamní kampaň Trénovací množina

35 DB2warehousing 35 Jedna možnost věk<30 město=PLauto=audi pravděp nepravděp Y Y Y N N N

36 DB2warehousing 36 Jiná možnost auto=audi město=PLvěk<45 pravděp YY Y N N N nepravděp

37 DB2warehousing 37 Co vyplývá l Rozhodovací strom nemůže být příliš hluboký è jinak by neměl statisticky významné hodnoty pro rozhodování v nižších úrovních è Je třeba vybrat strom, který nejspolehlivěji predikuje výsledky

38 DB2warehousing 38 Shlukování (Clustering) věk příjem vzdělání

39 DB2warehousing 39 Jiný příklad: Text l Každý dokument je vektor u např., obsahuje slova 1,4,5,... l Shluky obsahují “podobné” dokumeny l Užitečné pro klasifikaci, vyhledávání dokumenů zahraniční zprávy sport obchod

40 DB2warehousing 40 Problémy l Je zadán postačující počet shluků? l Nalezení “nejlepších” shluků l Jsou shluky sémanticky smysluplné? u např., shluk “sázkařů’’? l Ukládání shluků na disk

41 DB2warehousing 41 Dolování asociačních pravidel id transakce id zákazníka Koupené produkty Záznamy prodejů: Trend: Produkty p5, p8 často koupeny společně Trend: Zákazník 12 má v oblibě produkt p9 Data z nákupního koše

42 DB2warehousing 42 Asociační pravidla l Pravidlo: {p 1, p 3, p 8 } l Support: počet košů obsahujících tento produkt l Častá množina položek: support  práh s l Problém: nalezení všech častých množin

43 DB2warehousing 43 Nalezení častých dvojic l Koše(koš, položka) l SELECT I.položka, J.položka, COUNT(I.koš) FROM Koše I, Koše J WHERE I.koš = J.koš AND I.položka = s;

44 DB2warehousing 44 Příklad ověř je-li count  s

45 DB2warehousing 45 Důsledky l Mohutnost množiny dvojic velká ještě větší! l Mohutnost množiny n-tic

46 DB2warehousing 46 Implementace warehousu l Monitoring: Výběr dat ze zdrojů l Integrace: Zavlečení, pročištění,... l Zpracování: Zpracování dotazu, indexace,... l Správa dat: Metadata, Design,...

47 DB2warehousing 47 Monitoring l Typy zdrojů: Relační, plochý soubor, IMS, IDMS, WWW, news-wire, … l Inkrementální vs. Obnovovaný zákazník id jméno adresa město josef franta Horní 10 Dolní 20 BR 111 sára V díře 55PL nový

48 DB2warehousing 48 Monitorovací techniky l Periodické snímky l Databázové triggery l Uložení logů l Replikace dat l Ukládání Transakcí l Dotazování (dotazy ke zdroji) výhody & nevýhody!!

49 DB2warehousing 49 Následky monitoringu l Frekvence u periodická: denní, týdenní, … u triggerovaná: na “velké” změny, množství změn,... l Transformace dat u konverze dat na jednotný formát u rušit & přidávat položky (např., přidat datu pro získání historie) l Standardy (např., ODBC) l Gateways

50 DB2warehousing 50 Integrace l Čistění dat l Zavvlékání dat l Odvozená data Klient Warehouse Zdroj Dotaz & Analýza Integrace Metadata

51 DB2warehousing 51 Čistění dat Migrace (např., koruna  dolar) l Praní (Scrubbing): užití doménově-specifické znalosti (např., rodných čísel) l Slévání (př.,seznam adres, slučování zákazníků) l Auditing: zjišťování pravidel & vztahů (jako data mining) DB faktur DB služeb zákazník1(Jan) zákazník2(Jan) sloučený_zákazník(Jan)

52 DB2warehousing 52 Zavlékání dat l Incrementálně vs. s obnovou l Off-line vs. on-line l Frekvence plnění u V noci, 1x za týden/měsíc, průběžně l Paralelní/oddělené plnění

53 DB2warehousing 53 Odvozená data l Odvozená data warehousu u indexy u agregáty u materializované pohledy (další slide) l Kdy aktualizovat odvozená data? l Incrementálně vs. s obnovou

54 DB2warehousing 54 Materializované pohledy l Definují nové relace warehousu za použití SQL výrazů neexistuje v žádném zdroji

55 DB2warehousing 55 Zpracování l ROLAP servery vs. MOLAP servery l Indexové struktury l Co materializovat? l Algorithmy Klient Warehouse Zdroj Dotaz & Analýza Integrace Metadata

56 DB2warehousing 56 ROLAP Server l Relační OLAP Server relační DBMS ROLAP server nástroje utilities Speciální indexy. Schéma je “denormalizováno”

57 DB2warehousing 57 MOLAP Server l Multi-Dimensionální OLAP Server multi- dimensionální server M.D. nástroje utilities Může také být nadstavbou relačního DBMS Výrobek Město Datum mléko voda pivo maso A B Prodeje

58 DB2warehousing 58 Indexové struktury l Tradiční přístupové metody u B-stromy, hash tabulky, R-stromy, mřížky, … l Populární ve warehousech u invertované seznamy u bit mapové indexy u join indexy u textové indexy

59 DB2warehousing 59 Invertované seznamy... Index věku invertované seznamy datové záznamy

60 DB2warehousing 60 Užití invertovaných seznamů l Dotaz: u Zjisti lidi s věkem = 20 a jménem = “fred” l Seznam pro věk = 20: r4, r18, r34, r35 l Seznam pro jméno = “fred”: r18, r52 l Odpověď je průnik: r18

61 DB2warehousing 61 Bitové mapy... Index věku bitové mapy datové záznamy

62 DB2warehousing 62 Užití bitových map l Dotaz: u Zjisti lidi s věkem = 20 a jménem = “fred” l Seznam pro věk = 20: l Seznam pro jméno = “fred”: l Odpovědí je průnik: l Dobré, je-li kardinalita domény malá l Bitové vectory mohou být komprimovány

63 DB2warehousing 63 Join “Kombinuje” relace PRODEJ, VÝROBEK V SQL: SELECT * FROM PRODEJ, Výrobek

64 DB2warehousing 64 Join Indexy join index

65 DB2warehousing 65 Co materializovat? l Ulož ve warehousu výsledky užitečné pro běžné dotazy l Příklad: den 2 den Celkové prodeje materializuj

66 DB2warehousing 66 Materializační Faktory l Typ/frekvence dotazů l Doba odezvy na dotaz l Cena paměti l Cena změn dat

67 DB2warehousing 67 Svaz agregátů krychle město, výrobek, datum město, výrobekměsto, datumvýrobek, datum městovýrobekdatum vše den 2 den Použij algoritmus hladového k rozhodnutí co materializovat

68 DB2warehousing 68 Hierarchie dimenzí vše stát město

69 DB2warehousing 69 Hierarchie dimenzí město, výrobek město, výrobek, datum město, datum výrobek, datum město výrobek datum vše stát, výrobek, datum stát, datum stát, výrobek stát Nevykresleny všechny hrany...

70 DB2warehousing 70 Zajímavé hierarchie vše roky kvartály měsíce dny týdny konceptuální tabulka dimenzí

71 DB2warehousing 71 Algorithmy l Optimalizace dotazu l Paralelní zpracování l Data Mining

72 DB2warehousing 72 Příklad: Asociační pravidla l Jak provádět dolování pravidel efektivně? l Poznatek: Má-li množina X support t, pak každá podmnožina X musí mít alespoň support t l Pro dvojice: u má-li mít dvojice {i, j} support s u pak jak i tak j se musí vyskytnout alespoň v s koších

73 DB2warehousing 73 Algorithmus pro dvojice (1) Najdi kandidátní výrobky u vyskytují se v s nebo více koších (2) Najdi dvojice se supportem alespoň s, za použití pouze kandidátních výrobků

74 DB2warehousing 74 Algoritmus pro dvojice l INSERT INTO okBaskets(basket, item) SELECT basket, item FROM Baskets GROUP BY item HAVING COUNT(basket) >= s; l Doluj dvojice z košů okBaskets SELECT I.item, J.item, COUNT(I.basket) FROM okBaskets I, okBaskets J WHERE I.basket = J.basket AND I.item = s;

75 DB2warehousing 75 Efektivní načítání l Jedním průchodem: seřaď načti & odstraň práh = 3

76 DB2warehousing 76 Efektivní načítání l Jiný způsob: projdi a načti odstraň Měj pole čítačů v paměti práh = 3

77 DB2warehousing 77 Ještě jeden způsob (1) projdi & hashuj & čítej hash tabulka v paměti práh = 3 (2) projdi & odstraň (3) projdi & čítej (4) odstraň čítače v paměti positivně špatná

78 DB2warehousing 78 Diskuse l Hashovací schéma: 2 (nebo 3) průchody daty l Řadící schéma: vyžaduje řazení! l Hashování pracuje dobře, je-li málo dvojic s velkým supportem a hodně s nízkým Dvojice položek rozdělené dle frekvence frekvence práh Ledová hora dotazů

79 DB2warehousing 79 Manažování l Metadat l Návrhu warehousu l Nástrojů Klient Warehouse Zdroj Query & Analysis Integration Metadata

80 DB2warehousing 80 Metadata l Administrativa u definice zdrojů, nástrojů,... u schémata, hierarchie dimenzí, … u pravidla pro extrakci dat, … u obnova dat, postupy čistění u profil uživatele, řízení přístupu,...

81 DB2warehousing 81 Metadata l Obchodní u vlastnictví dat, poplatky u termíny & definice l Operační u vznik dat u oběh dat (např., aktivní, archivní,...) u stavy, chybové zprávy, následný audit

82 DB2warehousing 82 Návrh l Jaká data jsou potřebná? l Odkud přicházejí? l Jak data čistit? l Jak je reprezentovat ve warehousu (schéma)? l Co sumarizovat? l Co materializovat? l Co indexovat?

83 DB2warehousing 83 Nástroje l Vývoj u návrh & editace: schémat, pohledů, scriptů, pravidel, dotazů, reportů l Planování & Analýza u co-když scénáře (změny schémat, míra obnovy), plánování kapacity l Management warehousu u monitoring výkonnosti, hlášení výjimečných stavů l Management systému & sítě u rytmus provozu (zdrojů, warehousu, klientů) l Management toku prací u “spolehlivé scripty” pro čistění a analýzu dat

84 DB2warehousing 84 Současný stav průmyslu l Extrakce a integrace se dělá off-line u Obvykle ve velkých, časově náročných dávkách l Vše je kopírováno do warehousu u Ukládá se bez selekce u Pohodlí dotazu vs cena paměti & update l Optimalizace dotazu cílená na OLTP u Velká prostupnost místo rychlé odezvy u Zpracuje celý dotaz před jakýmkoliv výstupem

85 DB2warehousing 85 Další směry l Lepší výkon l Větší warehousy l Snazší používání l Na čem pracují výrobci a výzkum?

86 DB2warehousing 86 Výzkum (1) l Inkrementální údržba l Konsistence dat l Expirace dat l Obnova l Kvalita dat l Zpracování chyb

87 DB2warehousing 87 Výzkum (2) l Temporální warehousy l Materializace & výběr indexů l Slévání dat l Data Mining l Integrace textových & relačních dat

88 DB2warehousing 88 Závěr l Velká množství dat a složitost dotazů budou tlačit na limity dnešních warehouseů l Potřebné lepší systémy: u snáze použitelné u poskytující kvalitní informace


Stáhnout ppt "Data Warehousing Růst obratu: $10 miliard v 1999 Rozsah od desktop do super: Walmart: 900-CPU, 2,700 disk, 23TB Teradata system Nové termíny slice & dice,"

Podobné prezentace


Reklamy Google