© 2008 IBM Corporation Nenechte se ovládat svými daty Martin Pavlík
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 2 Udělejte si pohodlí, a pokuste se neusnout
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 3 Datová / informační integrace
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 4 IBM Information Server – „Kam s ním?“ Racionalizace infrastruktury Datová kvalita a čistění dat Budování datového skladu
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 5 Racionalizace infrastruktury Řešení pro následující situace: Několik informačních systémů, které nespolupracují Chybějící detailní znalost datových zdrojů informačních systémů Nemožnost zjistit přirozené vazby mezi klíčovými daty
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 6 Datová kvalita a čistění dat Řešení pro následující situace na straně zákazníka: Existence duplicitních záznamů odpovídající jedné entitě Zákazníci, produkty,... Nepořádek ve volných textových polích Jméno, Adresa,... Neschopnost správného napárování stejných entit mezi systémy Je pan Vonásek v systému A stejný jako pan Vonásek v systému B? Ověření konzistence dat mezi různými datovými zdroji a rychlá náprava případných nesrovnalostí
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 7 Budování datového skladu Řešení pro následující situace na straně zákazníka: Velké množství nehomogenních datových zdrojů pro datový sklad Požadavek na absolutní věrohodnost dat, která jsou prezentována vedoucím pracovníkům a mají tak zásadní vliv na rozhodování společnosti Do datového skladu proudí obrovské množství dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 8 IBM Information Server Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 9 IBM Information Server – Information Analyzer Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 10 Úplné porozumění Vašim datům Proboha, kdo dal do té cukřenky SŮL !!!? Před tím, než se začnete zabývat tím, co s daty dělat, je potřeba vědět Co za data máte skutečně k dispozici Jestli jsou tím, čím se zdají být nebo co o nich někdo tvrdí
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 11 Úplné porozumění Vašim datům Analýza datových zdrojů Poskytuje klíč k lepšímu porozumění obsahu Vašich datových zdrojů Analýza sloupců Analýza primárních klíčů Analýza cizích klíčů a domén jednotlivých sloupců Analýzy zkoumající další závislosti mezi sloupci a tabulkami Dat. tabulka n Dat. tabulka 2 Dat. tabulka 1 Analýza sloupců Analýza primárních klíčů Analýzy závislostí mezi tabulkami
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 12 IBM Information Server – QualityStage Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 13 A zase ta KVALITA Kvalita je termín, se kterým se setkáváme čím dál tím častěji Běžně se hovoří o: Kvalitě / jakosti výrobku Kvalitě hotelu Kvalitě vztahu Kvalitě života .... Dá se ale hovořit také o kvalitě dat? Když už ano, tak: ... „Dá se kvalita dat taky nějak měřit?“ ... „Co jsou to kvalitní data?”
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 14 Co jsou to tedy kvalitní data? Kvalitní data jsou data, která mají pro uživatele vysokou informační hodnotu Je v nich vše, co uživatel očekává Uživatel perfektně rozumí jejich významu Uživatel o nich nepochybuje
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 15 Typičtí „znečisťovatelé“ dat ●Nedostatek standardů ●Nikdo neříká kam co a jak zadávat ●A když už to říká, tak v každém systému jinak ●Za jakých podmínek má vznikat nový záznam ●Zadávání dat do špatných polí ●Adresy v polích pro jména ●„Zneužívání“ polí k jiným účelům ●Překlepy Filip Dušek Krnov , nám. Bří Synků 1187/12 p. Ing. Dušek náměstí bratří Synků 12, Krnov pan Dušek Krnov, náměstí bří Synků 1187 Jana Novotná Průběžná 2243/48, Praha 10 Petra Švrčková Opavská 32, Ostrava - Poruba M: p.Divný, Nové Strašecí, Hlavní 17 Jana Novotná Zázračná 6, Městec Králové Jana Nocotná Yáyračná 6, Městec Králové
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 16 Databáze s konsolidovanými pohledy 1. Zkoumání volných textových polí 2. Standardizace dat 3. Párování duplicitních dat 4. Definice “přeživších“ záznamů Čistící proces Zákazníci Zaměstnanci Dodavatelé Cílová DB Produkty / Materiál Jak je možné získat věrohodný a konsolidovaný pohled na Vaše klíčová data?
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 17 Co je výstupem fáze zkoumání volných textových polí? Tzv. „pattern report“ Obsahuje frekvenční rozdělení jednotlivých formátů FormátPříkladVýskytůPodíl F?F?Markéta Lazarová ,48 % ?FPolívka Bohuslav ,18 % PF?Ing. Petr Skoumal ,62 % F?GJan Novák ml ,64 % ……….………………….……….. F... First Name (křestní jméno) P... Name prefix (akadem. titul) G... Generation code (generace)
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 18 2.) Fáze standardizace dat Tato fáze má dva základní přínosy Normalizace hodnot v datových polích na standardní hodnoty; např.: Standardizace jmen = ‘Pepa’ ‘Josef’ Standardizace titulů = ‘Inženýr’ ‘Ing.’ Standardizace adres = ‘náměstí bří Synků’ ‘nám. bratří Synků’ „Rozškatulkování“ hodnot z volných textových polí do polí více specifických Např. místo jednoho adresního pole vzniknou nová pole pro: –Ulici –Číslo popisné, číslo orientační –Obec, PSČ,...
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 19 Jak může vypadat fáze standardizace dat? Vstupní “soubor”: 1. Adresní řádek2. Adresní řádek Mahenova 1952/9 Krnov, V Parku 4, Praha Trojmezní 1206, Šestajovice Náměstí bratří Synků 12Praha 4, Lhota (u Přelouče), Slunečná 529 Náměstí Hrdinů 1Lhota u Opavy, Výsledný “soubor”: Č. Popisné č.orien. Ulice TypObecčíslo částiPSČ Mahenovaulice Krnov V ParkuulicePraha TrojmezníuliceŠestajovice nám. bří SynkůnáměstíPraha SlunečnáuliceLhota nám. HrdinůnáměstíLhota761 23
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 20 Taky standardizace...
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 21 3.) Fáze párování duplicitních dat – systém vah Nástroj IBM používá pro párování metodu tzv. Pravděpodobnostního párování Vychází ze systému vah = 37 MICHAL TOMAN ČESKÁ /1116 MICHAEL TOMAN HEZKÁ /1116 Pro každý sloupec, který chcete zohlednit při párování je potřeba nastavit: Souhlasnou váhu – kladný příspěvek v případě, že se hodnoty shodují Nesouhlasnou váhu – záporný příspěvek v případě, že se hodnoty neshodují Je možné zvolit jednu z 21 metod porovnání s různou tolerancí
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 22 Párování duplicitních dat – rozdělení do bloků Často hledáme duplicitní záznamy mezi velkým objemem dat (miliony záznamů) Porovnání systémem „každý s každým“ je výkonostně neefektivní Taky máte tak „rádi“ párování ponožek? Jak hledáte k levé tu pravou?
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 23 4.) Fáze definice „přeživších“ záznamů Volitelná fáze čistícího procesu Co je to „přeživší“ záznam? Název je trochu zavádějící Jedná se vlastně o nový záznam, který bude nově reprezentovat entitu s duplicitními záznamy Bude obsahovat maximální možnou množinu informací o dané entitě Tyto informace budou odvozeny z odpovídajících existujících duplicitních záznamů
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 24 Typický příklad fáze specifikování „přeživších“ záznamů Vstupní data (výstup z párování) Skup.Křestní jméno PříjmeníUlice č.p. č.o. ObecČíslo částiPSČ 1Martin MinaříkMoskevská Kladno 2 1M. MinaříkMoskevská 1 Kladno Jan MalýV Parku 2294 Praha Honza MalýV Parku 4 Praha 13J. MalýV Parku 4 Praha Zkonsolidovaný výstup Skup.Křestní jméno PříjmeníUlice č.p. č.o. ObecČíslo částiPSČ 1Martin MinaříkMoskevská Kladno Jan MalýV Parku Praha
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 25 IBM Information Server – DataStage Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 26 Potřeba datových transformací Racionalizace datové infrastruktury Vypadá Vaše datová infrastruktura nějak takto? Budování datového skladu
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 27 Transformace dat Zdroje Business Intelligence SAS CRM Datový sklad Datové tržiště Cíle ERP SCM CRM Externí seznamy Distribuce HR Kontakty Účetnictví Uživatel má k dispozici komfortní ETL nástroj Co je to ETL? Extract Extrakce dat z nejrůznějších datových zdrojů Transform Transformace a obohacení dat Load Uložení dat do nejrůznějších datových zdrojů
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 28 Intuitivní grafické prostředí pro modelování datových toků
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 29 Analýza dopadů (impact analysis) Pro libovolný objekt použitý při datovém modelování umožňuje lépe vidět funkci daného objektu v celém kontextu datového návrhu Umožňuje přehledně a okamžitě graficky zobrazit dopady možných změn v libovolném objektu, jenž vystupuje v datovém návrhu
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 30 Analýza výkonnosti jobů Vizuální nástroj, který: Umožňuje uživateli lépe vidět chování transformačních jobů z pohledu výkonnosti Poskytuje uživateli možnost sledovat výkonnost jobů z několika pohledů: Propustnost záznamů Využití času procesoru Analýza jobů z časového hlediska Využití paměti Využití všech zdrojů serveru
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 31 Nástroj pro kvalitní odhad zátěže systémových prostředků
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 32 Propojitelnost – co vše může být datovým zdrojem či cílem Obecný přístup Sequential File Complex Flat File File Set Data Set Named Pipe iWay FTP SFTP Compressed / Encoded Data External Command Call Parallel/wrapped 3 rd party apps EMC InfoMover Web logs Real Time WebSphere MQ Java Messaging Services (JMS) Java XML & XSL-T EBXML Web Services (SOAP) Enterprise Java Beans (EJB) EDI FIX SWIFT HIPAA Podnikové aplikace JDE/PeopleSoft OneWorld Oracle Applications PeopleSoft SAS SAP BW SAP R/3 Siebel Ariba Manugistics I2 Atd… Starší systémy Allbase/SQL C-ISAM D-ISAM Datacom/DB DS Mumps Enscribe Essbase FOCUS IDMS/SQL ImageSQL Infoman KSAM M204 MS Analysis Nomad Nucleus RMS S2000 Supra TOTAL TurboImage Unify A mnoho dalších …. Relační datab. systémy DB2 (on Z, I, P or X series) Oracle Informix (IDS and XPS) Ingres Netezza Progress RDB RedBrick SQL/DS SQL Server Sybase (ASE & IQ) Teradata Universe UniData NonStop SQL WebSphere Federation Server WebSphere Classic Federation And další….. CDC DB2 (on Z, I, P, X series) Oracle SQL Server Sybase Informix IMS VSAM ADABAS IDMS Datacom
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 33 IBM Information Server – Fedaration Server Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 34 Federace dat Virtualizace Všechny datové zdroje se mohou navenek tvářit jako jediný datový zdroj Nezávislost na tom, kde a jak jsou data fyzicky uložena Při migraci dat do jiného typu uložiště mohou aplikace dál bez zásahů fungovat Přístup k heterogenním dat. zdrojům Přístup k datům libovolných datových zdrojů Relační, strukturovaná, XML, CSV, MQ-Messages, Webové služby,... Rozšířitelnost Realizovatelný přístup téměř ke všem typům datových zdrojů K dispozici je sada vývojových nástrojů pro vytvoření potřebného rozhraní
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 35 Federace dat – příklad SQL dotazu SELECT DEMO.CUSTOMER_DB2.CUSTOMER_ID, DEMO.CUSTOMER_DB2.CUSTOMER_NAME, DEMO.CUSTOMER_DB2.ADDRESS, DEMO.CUSTOMER_DB2.CITY, DEMO.CUSTOMER_DB2.STATE, DEMO.CLAIMS_DOMINO.ODATE, DEMO.CLAIMS_DOMINO.CDATE, DEMO.CLAIMS_DOMINO.INCIDENT_ID, DEMO.CLAIMS_DOMINO.DOC_ID, DEMO.REPORT_XML.OFFICERNAME, DEMO.REPORT_XML.INCIDENTDESC FROM DEMO.CUSTOMER_DB2, DEMO.CLAIMS_DOMINO, DEMO.REPORT_XML WHERE DEMO.CLAIMS_DOMINO.INCIDENT_ID = DEMO.REPORT_XML.INCIDENTID AND DEMO.CUSTOMER_DB2.CUSTOMER_ID = INTEGER(DEMO.CLAIMS_DOMINO.CUSTOMER_ID) AND DEMO.CLAIMS_DOMINO.INCIDENT_TYPE = 'Fault' AND DEMO.CUSTOMER_DB2.CUSTOMER_ID = :cust_id
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 36 Federace dat – základní schéma a další vlastnosti
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 37 IBM Information Server – integrovaná správa metadat Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 38 IBM Information Server – paralelní zpracování dat Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 39 IBM Information Server – SOA Integrovaná správa metadat Porozumění Čistění Transformace Federace Servisně-orientovaná architektura (SOA) Porozumění skutečným vlastnostem všech datových zdrojů Zkoumání akt. stavu, standardizace, párování a náprava situace Transformace dat a obohacování informací Virtuální přístup k nejrůznějším datovým zdrojům DataObsah Konektivita Zpřístupnění, publikování a replikace informací Paralelní zpracování dat
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 40 IBM Information Server – naprosto dle zásad SOA Všechny transformační joby, čistící joby i federované dotazy mohou být jednak využívány jako webové služby, ale také navíc mohou webové služby využívat Podpora zabezpečeného přístupu Plug-iny do různých produktů Např. do WebSphere Process Serveru
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 41 JménoPříjmeníTitulUliceČ. Domu ObecPSČ MartinaMelicharováOpavská9Ostrava ) Čistící proces zavolaný jako Web Service Portál JménoPříjmeníTitulUliceČ. Domu ObecPSČ MartinaMelicharováMgr.Opavská9Ostrava ) Porovnání Konsolidovaná DB klientů 1.) Zadávání nového klienta Melicharová Martina Opavská 9, OSTRAVA Jméno: Adresa: 4.) Propagace informace o již existujících podobných záznamech zpět na portál
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation IBM Cognos – akvizice dokončena 31. ledna 2008
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 43 IBM Cognos positioning IBM Cognos není jen reporting Je to ucelená platforma pro tzv. CPM Corporate Performance Management Sada procesů a nástrojů sloužící organizacím optimalizovat jejich výkonnost Je považován za následovníka (novou generaci) Business Intelligence
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 44 Flexible Architecture for Leveraging Existing Investments Business Optimization -> CPM IBM Information Server IBM Cognos 8 BI IBM Cognos 8 Planning DB2, IMS, Informix IBM Content Manager, IBM FileNet IBM produkty IBM Cognos positioning Other Information & Application Sources
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 45 Corporate Performance Management Identifikace problémů Jak si stojíme? Scorecardy a dashboardy ukazují vztah reality a plánu Např. Zisk je pod plánem Performance
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 46 Performance Reporty ukazují příčiny problémů / dobrých výsledků např. Ceny vstupů rostou díky růstu cen PHM Corporate Performance Management Identifikace příčin problémů Proč si stojíme tak, jak si stojíme?
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 47 Performance Co bychom měli dělat? Přizpůsobení plánu tak, aby reflektoval nové nečekané faktory tj. např. Další očekávaný růst nákladů související s růstem cen PHM Corporate Performance Management Řešení problémů a nové plány do budoucnosti
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 48 IBM Cognos 8 BI IBM Cognos 8 BI Reporting (Report studio, Query studio) Přístup k širokému spektru nejrůznějších typů reportů Data mohou být čerpána z téměř libovolných datových zdrojů Exporty do řady populárních formátů –Excel, PDF, XML, HTML, CSV Ad-hoc dotazování Analýza (Analysis studio) Uživatelsky příjemný nástroj pro práci s OLAP kostkami Propracovaná multidimenzionální analýza Velice rychlá operace drillování (přecházení na větší detaily) Řízení výkonnosti Schopnost monitorovat to, jak si právě stojíme –Scorecarding, Dashboarding Řizení událostí Monitorování business událostí Odesílání ů při splnění určitých podmínek
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 49 IBM Cognos 8 Planning V okamžiku, kdy se chceme efektivně zabývat plánováním / rozpočtováním, je potřeba řešit problémy jako jsou: Řízené WorkFlow „Která verze rozpočtu je poslední platná?“ „O kolik se zvýšily náklady mezi verzí 4 a 8?“ „Kdo zodpovídá za tu kterou část rozpočtu?“ „Dodali již všichni své podklady?“; „Které části rozpočtu jsou schválené a které ne?“ Řízená flexibilita Vytvoření plánu na míru bez nutnosti programovat Vnitřní dynamika modelu –„Chci ukázat vlastníkům výnosových středisek vždy právě poslední dvě verze plánu.“ Konzistence Opakovatelnost: „Vytvářím odhady stejným způsobem jako před měsícem?“ Přístupová práva: „Individuální mzdy nesmí být běžným smrtelníkům přístupné.“ Excelovské peklo
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation 50 Tak to je vše. Chcete se na něco zeptat ?
Představení platforem IBM Information Server & IBM Cognos © 2007 IBM Corporation Děkujeme za pozornost