Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Ing. David Pejčoch Cvičení č. 1
Řízení datové kvality Ing. David Pejčoch Cvičení č. 1
2
Osnova Cíle praktických cvičení Výstupy ze cvičení
Analýza zadání praktické úlohy Proč se zabývat datovou kvalitou Architektura auditované firmy Popis situace Seznámení s dostupnými datovými zdroji pro úlohu Popis nástroje Talend Open Studio Popis nástroje CADaQuES
3
Cíle praktických cvičení
Seznámit s funkcionalitou nástrojů pro řízení datové kvality Na praktických úlohách vyzkoušet audit datové kvality a návrh nápravných opatření Praktická demonstrace metod pro zvyšování datové kvality
4
Zadání praktické úlohy – 1. část
S pomocí nástroje Talend Open Studio for Data Quality vytvořte profilaci dat (základní popisné statistiky, četnosti jednotlivých vzorů, …) Proveďte verifikaci proti dostupným číselníkům, registrům a validaci pomocí regulárních výrazů) Spočtěte úroveň kvantitativních vlastností dat (správnost, úplnost, konzistentnost, …) Na příkladu modelové firmy odhadněte roční výši nákladů na nekvalitní data Porovnejte možné přínosy nápravných opatření s vynaloženými náklady Proveďte prioritizaci scope řízení datové kvality Navrhněte externí datové zdroje pro obohacení Navrhněte strategii pro doplnění chybějících hodnot Výstup: dokument Zpráva auditora (viz šablona)
5
Zadání praktické úlohy – 2. část
Proveďte standardizaci hodnot vybraných atributů Doplňte chybějící hodnoty podle navržené strategie Proveďte unifikaci a deduplikaci klientů Navrhněte byznys pravidla pro předcházení dalšímu vzniku chyb v datech Výstup: příloha k dokumentu Zpráva auditora, výstupní data (viz pokyny níže)
6
Pokyny pro formát odevzdaných dat
Datová kvalita je vždy dodatečná informace, proto imputované / opravené hodnoty, informaci o slučování klientů, určení master záznamu vkládejte vždy do nových atributů označených suffixem _CL. Data odevzdejte formou txt extraktu (textový soubor oddělený svislítkem jako oddělovačem, kódování UTF8)
7
Architektura auditované firmy: jak to má být
8
Popis situace V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů. Vstupní kontroly duplicit jsou realizovány pouze na úrovni dvou oddělených provozních systémů. Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně při jejich importu do systému neživotního pojištění. Provizní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivé získatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílní. K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla / IČa.
9
Architektura auditované firmy
10
Datový model: PART_PARTY
Název atributu Popis Datový typ PARTY_ID Primární klíč BIGINT PARTY_TYPE Typ klienta (C = Commercial, P = Private) CHAR(1) PARTY_FNAME Křestní jméno klienta VARCHAR(45) PARTY_LNAME Příjmení klienta VARCHAR(60) PARTY_NAME Název společnosti VARCHAR(255) PARTY_FORM Právní forma společnosti SMALLINT PARTY_CREGNUM Komerční registrační číslo VARCHAR(8) PARTY_RC Rodné číslo VARCHAR(10) PARTY_COUNTRY Kód země původu CHAR(3) PARTY_POFBIRTH Místo narození PARTY_AGE Věk klienta INT PARTY_GENDER Pohlaví klienta (M = Male, F = Female, O = Other) PARTY_DOFBIRTH Datum narození DATE PARTY_TITBEF Titul před jménem PARTY_TITAFT Titul za jménem PARTY_ESA95 Kód institucionálního sektoru PARTY_OKEC OKEČ kód CHAR(5) PARTY_SINCE Datum počátku statutu klient
11
Datový model: PART_ADDRESS
Název atributu Popis Datový typ ADDR_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY ADDR_TYPE Typ adresy (R = Resident, C = Correspondential, O = Other) CHAR(1) ADDR_COUNTRY Kód země CHAR(3) ADDR_CITY Město VARCHAR(60) ADDR_STREET Ulice VARCHAR(100) ADDR_NUM1 Číslo popisné VARCHAR(10) ADDR_NUM2 Číslo orientační ADDR_ZIP PSČ CHAR(5)
12
Datový model: PART_CONTACT
Název atributu Popis Datový typ CONT_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY CONT_TYPE Typ kontaktu (M = Mobil Phone, T = Telephone, E = , W = web) CHAR(1) CONT_PRIMARY_FLG Příznak primárního kontaktu (Y = Yes) CONT_VALUE Konkrétní kontakt VARCHAR(100)
13
Datový model: PROD_CONTRACT
Název atributu Popis Datový typ CNTR_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY PRODUCT_CODE Identifikátor produktu CHAR(3) CNTR_VALIDFROM Datum počátku kontraktu DATE CNTR_VALIDTO Datum konce kontraktu CNTR_CANCTYPE Typ ukončení kontraktu SMALLINT CNTR_PAY_FREQ Frekvence placení pojistného
14
Relevantní datové zdroje
UIR-ADR Registr ekonomických subjektů (není volně dostupný) Číselníky České pošty Registr vozidel MVČR Číselníky titulů, jmen a příjmení na MVČR Credit Info – možný extrakt? Číselníky ČSÚ Kódy měn – ČNB Kody zemí - ČSÚ
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.