Master Data Management Konsolidace databází a kvalita dat ve státní správě a samosprávě Konference ISSS Hradec Králové, 2.-3.4. 2007 michal.klaus@adastracorp.com © 2006, 2007 Adastra Corporation. All rights reserved.
Business–Software Solutions O Adastře Kanadsko-česká společnost založená v roce 1994, působící v Evropě a severní Americe Přes 400 zaměstnanců Výnosy za rok 2006 více než 700 mil. Kč ISO 9001:2000 Moody’s certifikace Business–Software Solutions Master Data Management Integration MDM Consulting Data Quality Adastra Purity Business Intelligence DWH development Reporting ETL Development Data Mining Application Development Custom development Enterprise architecture
Vybraní zákazníci
Partnerství
Ocenění za rok 2006 Adastra je jednou z TOP 10 ICT firem roku 2006 Adastra patří mezi TOP 10 systémových integrátorů v letech 2006 a 2004 Adastra se dvakrát umístila mezi 50 nejlépe řízenými společnostmi v Kanadě v letech 2006 a 2005 Adastra se opět umístila mezi nejrychleji rostoucími firmami ve střední Evropě v žebříčku "Technology Fast 50" Adastra v žebříčku Fast 500 mezi pěti sty nejrychleji rostoucími firmami v regionu EMEA Adastra získala titul Progresivní zaměstnavatel roku 2006, partnerem ocenění je společnost CzechInvest
Adastra – ocenění 2004 Oracle Consulting Award (CEE) 2002 Oracle Partner of the Year (CZ) Microsoft Gold Certified Partner for Business Intelligence (CEE) 2002 Best Practices in CRM 2001 Best Practices in Data Warehousing The Best Data Warehouse 2000 2000 Innovator Award in Data Warehousing 1999 Excellence in Business Information Award
Agenda Místo úvodu Master Data Management je když… Adastra Purity Organizační opatření pro MDM Kde začít s MDM a řízením kvality dat? Dotazy
Namísto úvodu Poznámka: Hypotetický, ale ne příliš přehnaný příklad vzorku záznamů ze 4 systémů dvou organizací, které je třeba zkonsolidovat
Co je v jádru Master Data Managementu Unifikace Rozpoznání všech instancí jednoho subjektu v databázích Jednoduchá – s využitím jednoduchých pravidel, bez čištění a standardizace unifikovaných dat (databáze, jednoduché algoritmy) Pokročilá – s využitím sofistikovaných algoritmů unifikace po předchozím vyčištění a standardizaci unifikovaných dat (specializované nástroje) Merge Následný krok - fyzické vytvoření jednoho nového záznamu ze všech identifikovaných instancí
Unifikace 1 - lidský mozek Algoritmus: ?????? Výsledek Záznamy 1-11 téměř jistě označují jednu osobu 3 záznamy by bylo vhodné prověřit 2 záznamy označují jiné osoby
Unifikace 2 – jednoduchý algoritmus Úplná shoda na atributy Jmeno, Prijmeni a RČ, Čištění: Diakritika, odstranění titulů, odstranění lomítek Výsledek Tyto záznamy pravděpodobně označují 11(!) různých osob
Unifikace 3 – specializovaná technologie Algoritmus: Parsing,čištení a standardizace dat z využitím báze pravidel pro danou lokalitu (ČR, SR) Hierarchická unifikace - pravděpodobnostní shoda na Jmeno, Prijmeni, RC, Titul1 a Titul2 s využitím asociativního párování Výsledek Téměř jistě tyto záznamy 1-11 označují jednu osobu 2 záznamy by bylo vhodné prověřit (možno předrozhodnout na základě pravidel) Záznamy 12, 13 patří dalším osobám
Využití a přínosy kvalitní unifikace Konsolidace údajů o firmách a organizacích ve městech a krajích Konsolidace informací o občanech tamtéž Sběr dat a jejich konsolidace na úrovních krajů a centrálních orgánů Vytvoření a provoz jednotných centrálních registrů – prvotní konsolidace bude velmi náročná na ruční kontrolu a automatizované „předčištění“ může znamenat významné úspory Identifikaci daného subjektu v registru i při neúplném/chybném vstupu Veškeré aplikace portálového typu a elektronických podání, kdy uživatel vkládá svoji identifikaci, adresu, identifikaci firmy apod. Vyčištění a deduplikace historických dat v rámci migrace na nové systémy ministerstev Obecně kdekoliv, kde je potřeba jednorázově nebo pravidelně konsolidovat více zdrojů dat a nalézt v nich záznamy týkající se jedné entity
Agenda Místo úvodu Master Data Management je když… Adastra Purity Organizační opatření pro MDM Kde začít s MDM a řízením kvality dat? Dotazy
MDM je když … Master Data Management se zabývá konsolidací klíčových master (referenčních, vzorových) dat tak, aby byla jednotná, správná, spolehlivá a aktuální vždy, když jsou používána, kdekoliv v celé organizaci. MDM se realizuje pomocí: technických prostředků (klasických i nových, specializovaných technologií) procesů, lidí, jejich organizace znalostí (metodik, know-how) Na rozdíl od předchozích způsobů správy dat přináší „nemechanickou“ integraci dat, tj. konsolidace dat s ohledem na jejich obsah. Cílem zavedení MDM v organizaci je: konsolidace kritických podnikových informací zajištění integrity dat, jejich správnosti, platnosti a úplnosti zjednodušení správy komplexních dat zavedení jednoznačné zodpovědnosti za data zvýšení efektivity business rozhodování spolehlivé měření výkonnosti celé organizace Klíčové organizační koncepty v MDM jsou: Implementací pravidel zacházení s podnikovými daty (Data Governance) Výkonným mechanismem procesu vlastnictví, sdílení a péče o data (Data Stewardship)
+ MDM je nejen o technologiích Správa dat Integrace master dat Sponzor MDM Front end Správa a údržba master dat Databáze Master dat Datová integrace / vstup Kvalita dat Datová a aplikační integrace / výstup Metadata Procesy datové kvality Správa dat (Data Governance) Sponzor Účastníci Organizace Procesy Integrace master dat +
MDI komponenty Datová integrace / vstup Technologie MDM Front end Správa a údržba master dat Databáze Master dat Datová integrace / vstup Technologie pro kvalitu dat Datová a aplikační integrace / výstup Metadata
Adastra, MDM a kvalita dat 10 let zkušeností Konsolidace dat Kvalita dat Vývoj vlastního produktu a metodiky Nejprve jednoúčelová řešení Pak samostatný produkt Dnes samostatná divize Vývoj Implementace Profesionální služby – oblast řízení kvality dat 20 realizovaných projektů v ČR, SR a Kanadě Adastra Purity – produkt pro čištění a unifikaci dat primárně určený pro střední Evropu a východ
Agenda Místo úvodu MDM je když… Adastra Purity Organizační opatření pro MDM Kde začít s MDM a řízením kvality dat? Dotazy
MDI komponenty – Adastra Purity Datová integrace / vstup Adastra Purity Databáze Master dat Metadata MDM Front end Správa a údržba master dat Datová a aplikační integrace / výstup
Adastra Purity Specializovaná technologie pro čištění a unifikaci (nejen) adresních dat a dat o osobách Nástroj pro řízení kvality dat Prostředek pro verifikaci kvality dat na vstupu do systémů Dodáváno s bohatou bází pravidel a číselníky pro příslušný region (ČR, SK) Doplněno metodikou pro procesy řízení kvality dat Kvalitní a výkonné řešení vyzkoušené mnoha implementacemi S plány vývoje do roku 2010, orientace na regiony CEE
Vyčištění názvu města
Vyčištění křestního jména
Konsolidace informací o osobách
Unifikace přes rč - změna příjmení u žen
Postup zpracování Adresy Osoby Čištění Náhrady chybných částí adresy (obce, ulice) Parsing (15 000 vzorů) Dohledávání vazeb Výběr nejlepšího vzoru Určení adresního bodu Spojení stejných adres do skupin (unifikace) Čištění Určení typu osoby (z RČ, IČO, příjmení, název firmy) Čištění a validace RČ, IČO, dokladů, data narození, pohlaví, jmen a příjmení Parsing jmen (tituly, křestní, příjmení) Kde je třeba využijí se náhrady (cca 4 000) Unifikace - spojení záznamů o jedné osobě do skupiny
Adastra Purity
Adastra Purity = technologie+metodiky Pokrývá technologie nebo metodika Purity Pokrývá obecná metodika nezávislá na technologii
Purity web service interface Adastra Purity v IT architektuře DWH DQ historie Reporty Klientská data Analytická část CDI front end CDI ETL Metadata ETL Adastra Purity DQ metadata ETL Operativní část Klientská data Purity web service interface Produkční systémy
Purity Manager
Purity On-line
Adastra Purity – klíčové vlastnosti Škálovatelnost 64 bit architektura Paměť Multi-threading On-line i batch mode Výkon On-line – odezvy v řádu milisekund v prostředí velkých finančních institucí Batch mode – desítky milionů záznamů v řádu hodin-dnů Batch mode – závisí na přírůstku, ne na velikosti dat Řádově rychlejší než jakýkoliv RDBMS Integrace Purity navrženo jako komponenta do architektury Různé možnosti integrace Nezávislé na databázi Jedna verze kódu pro různé platformy (pure Java) Flexibilita a otevřenost Možnost konfigurovat na úrovni modulů nebo low-level algoritmů Otevřený datový model Vhodné pro jakékoliv business entity UNICODE Lokální know-how Metodiky Pravidla Jazyk Kultura Vyzkoušené řešení (15 instalací)
Purity Roadmap
Vybrané reference – MDM, kvalita dat Istrobanka Allianz Bell Canada Bank of Montreal ČSOB Pojišťovna (KBC Group) ČSOB (KBC Group) Česká pojišťovna Česká spořitelna (ERSTE) Consumer Finance Holding GE Money Bank HVB Bank ING Group Ministerstvo dopravy Poštová banka VÚB Dexia banka Union pojišťovna
Agenda Místo úvodu MDM je když… Adastra Purity Organizační opatření pro MDM Kde začít s MDM a řízením kvality dat? Dotazy
+ Procesy čištění dat Automatizované Manuální Dávkové (sekundární) On-line Preventivní („DQ firewall“) Manuální Metodika řízení datové kvality Organizace a procesy Data Governance MDM Front end Správa a údržba master dat Databáze Master dat Datová integrace / vstup Kvalita dat Datová a aplikační integrace / výstup Metadata Procesy datové kvality Správa dat (Data Governance) Sponzor Účastníci Organizace Procesy Integrace master dat +
Data Governance – účel, cíl, očekávání Akční program pro řízení datové kvality na globální - celopodnikové úrovni se zahrnutím zástupců všech dotčených systémů procházející napříč liniemi, útvary, projekty a iniciativami Soubor rolí, jejich zodpovědností a procesů, které jsou potřebné pro řízení informační hodnoty uchovávaných dat Pokrývá oblasti: správa datové architektury z pohledu business potřeb a její provázání na IT architekturu datová integrace správa metadat řízení datové kvality (DQM)
Program Data Governance Aktivity programu DG Přesahují horizont samotné databáze CCD Jejich úspěch závisí na efektivním pokrytí celého životního cyklu dat od okamžiku pořízení v primárních systémech, přes zpracování v CCD, až po prezentaci na front-endu JOK PK a zpětné promítnutí do PS Nároky programu DG Zasazení vysoko v organizační struktuře (náměstci, GŘ) Existence sponzora na exekutivní úrovni Zavedení procesů, pokrývajících veškeré informační systémy pojišťovny
Program Data Governance Klíčové součásti Sponzor Organizační schéma Procesy Klíčové role Sponzor programu DG Vlastník procesů DQM (Data Quality Manager) Správci dat (Data Stewardship) Korporátní datový správce (stevard) Doménoví (linioví) datoví správci (stevardi) Systémoví datoví správci (stevardi) Klíčové skupiny (stakeholders) Vlastníci dat Správci dat (datoví stevardi) Odběratelé (konzumenti, beneficienti) dat
Data Governance – organizační schema
Popis skupin DG Vlastníci dat Datoví správci (stevardi) Oddělení nebo skupiny, které produkují data a poskytují je organizaci Vlastní „obsah“ dat Jsou zodpovědní za definici a kvalitu tohoto obsahu Datoví správci (stevardi) Pověření zástupci, kteří jménem organizace spravují data a řídí související procesy Zajišťují plnění SLA na rozsah a kvalitu datového obsahu Odběratelé dat (beneficienti) Konzumenti dat, kteří jejich používáním získávají určitou měřitelnou hodnotu Koncoví uživatelé Navazující systémy a procesy Partneři pojišťovny
Agenda Místo úvodu MDM je když… Adastra Purity Organizační opatření pro MDM Kde začít s MDM a řízením kvality dat? Dotazy
Kde začít s MDM projektem? Typický první inkrement MDM
První krok k lepší kvalitě dat - příklad Analýza kvality adresních dat a osob Vyčištění a identifikace adres Vyčištění a unifikace informací o osobách Jednorázově Na přání kompletní outsourcing – bez nutnosti investovat do SW a HW infrastruktury Data Integration HW PROJECT START, Data and HW ready Profiling Cleansing Unification Matching Business Rules defined Final presentation PROJECT END Doc. SW working days 3 10 15 23
Kde začít s MDI projektem? Pokročilejší přístup
Děkuji za pozornost Doplňující informace viz sborník konference ISSS 2007
CANADA ADASTRA Corporation Le Parc Office Tower 8500 Leslie Street, Suite 600 Markham, Ontario, L3T 7M8 CANADA Tel: +1-905-881-7946 Fax: +1-905-881-4782 info@adastracorp.com GERMANY ADASTRA GmbH Bockenheimer Landstraße 17/19 60325 Frankfurt GERMANY Tel: +49 (0) 69-710-455-202 Fax: +49 (0) 69-710-455-450 info@adastracorp.de CZECH REPUBLIC ADASTRA, s.r.o. Nile House Karolinská 654/2 180 00 Praha 8 - Karlín CZECH REPUBLIC Tel.: +420-271-733-303 Fax: +420-271-735-296 info@adastra.cz SLOVAKIA ADASTRA, s.r.o. Francisciho 4 811 08 Bratislava SLOVAKIA tel: +421-252-962-388 fax: +421-252-962-387 info@adastracorp.sk © 2006, 2007 Adastra Corporation. All rights reserved.
Vybrané reference HVB Bank – DQ, CDI Projekt pravidelného čištění a unifikace klientských záznamů v rámci projektu vývoje zákaznického DW, Purity.360 Consumer Finance Holding – DQ, CDI Projekt čištění a unifikace osob, součást komplexního projektu budování DW, Purity.360 Všeobecná úverová banka – SK – DQ, CDI Komplexní projekt konsolidace klienta, jeho součástí čištění dat o zákaznících a a deduplikace a obohacení klientských záznamů z 8 primárních systémů včetně zpětné propagace, Purity.360 Allianz – DQ, CDI Budování Customer DW, realisace klientského pohledu Integrální součástí je Purity.360
Vybrané reference ČSOB – DQ ČSOB Pojišťovna – DQ, CDI, PIM Konsolidace dat postupně migrovaných do centrální databáze ČSOB Pojišťovna – DQ, CDI, PIM Systém pro trvalé čištění a obohacování zákaznických dat včetně on-line identifikace, Purity.360 Česká pojišťovna – DQ, CDI, MDM Studie CCD (Purity.360 využito v analýze, dnes realisace plnohodnotné online konsolidace) Česká spořitelna – DQ, CDI Konsolidace dat v rámci velkého projektu GE – DQ, CDI Integrace dat ze 4 dceřiných společností Konsolidace klinetských dat pro reporting (Basel II) On-line identifikace klientů, kontaktů a motorových vozidel Householding (domácnosti a komerční)
Vybrané reference – ostatní Český telecom – DQ Čištění, unifikace a obohacení osobních údajů všech klientů Českého telecomu, Purity.360 Ministerstvo dopravy – DQ Čištění dat o držitelích řidičských průkazů Další reference ING Group Mapa SK Istrobanka Dexia