Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Ing. David Pejčoch Cvičení č. 1

Podobné prezentace


Prezentace na téma: "Ing. David Pejčoch Cvičení č. 1"— Transkript prezentace:

1 Ing. David Pejčoch Cvičení č. 1
Řízení datové kvality Ing. David Pejčoch Cvičení č. 1

2 Osnova Cíle praktických cvičení Výstupy ze cvičení
Analýza zadání praktické úlohy Proč se zabývat datovou kvalitou Architektura auditované firmy Popis situace Seznámení s dostupnými datovými zdroji pro úlohu Popis nástroje Talend Open Studio Popis nástroje CADaQuES

3 Cíle praktických cvičení
Seznámit s funkcionalitou nástrojů pro řízení datové kvality Na praktických úlohách vyzkoušet audit datové kvality a návrh nápravných opatření Praktická demonstrace metod pro zvyšování datové kvality

4 Zadání praktické úlohy – 1. část
S pomocí nástroje Talend Open Studio for Data Quality vytvořte profilaci dat (základní popisné statistiky, četnosti jednotlivých vzorů, …) Proveďte verifikaci proti dostupným číselníkům, registrům a validaci pomocí regulárních výrazů) Spočtěte úroveň kvantitativních vlastností dat (správnost, úplnost, konzistentnost, …) Na příkladu modelové firmy odhadněte roční výši nákladů na nekvalitní data Porovnejte možné přínosy nápravných opatření s vynaloženými náklady Proveďte prioritizaci scope řízení datové kvality Navrhněte externí datové zdroje pro obohacení Navrhněte strategii pro doplnění chybějících hodnot Výstup: dokument Zpráva auditora (viz šablona)

5 Zadání praktické úlohy – 2. část
Proveďte standardizaci hodnot vybraných atributů Doplňte chybějící hodnoty podle navržené strategie Proveďte unifikaci a deduplikaci klientů Navrhněte byznys pravidla pro předcházení dalšímu vzniku chyb v datech Výstup: příloha k dokumentu Zpráva auditora, výstupní data (viz pokyny níže)

6 Pokyny pro formát odevzdaných dat
Datová kvalita je vždy dodatečná informace, proto imputované / opravené hodnoty, informaci o slučování klientů, určení master záznamu vkládejte vždy do nových atributů označených suffixem _CL. Data odevzdejte formou txt extraktu (textový soubor oddělený svislítkem jako oddělovačem, kódování UTF8)

7 Architektura auditované firmy: jak to má být

8 Popis situace V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů. Vstupní kontroly duplicit jsou realizovány pouze na úrovni dvou oddělených provozních systémů. Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně při jejich importu do systému neživotního pojištění. Provizní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivé získatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílní. K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla / IČa.

9 Architektura auditované firmy

10 Datový model: PART_PARTY
Název atributu Popis Datový typ PARTY_ID Primární klíč BIGINT PARTY_TYPE Typ klienta (C = Commercial, P = Private) CHAR(1) PARTY_FNAME Křestní jméno klienta VARCHAR(45) PARTY_LNAME Příjmení klienta VARCHAR(60) PARTY_NAME Název společnosti VARCHAR(255) PARTY_FORM Právní forma společnosti SMALLINT PARTY_CREGNUM Komerční registrační číslo VARCHAR(8) PARTY_RC Rodné číslo VARCHAR(10) PARTY_COUNTRY Kód země původu CHAR(3) PARTY_POFBIRTH Místo narození PARTY_AGE Věk klienta INT PARTY_GENDER Pohlaví klienta (M = Male, F = Female, O = Other) PARTY_DOFBIRTH Datum narození DATE PARTY_TITBEF Titul před jménem PARTY_TITAFT Titul za jménem PARTY_ESA95 Kód institucionálního sektoru PARTY_OKEC OKEČ kód CHAR(5) PARTY_SINCE Datum počátku statutu klient

11 Datový model: PART_ADDRESS
Název atributu Popis Datový typ ADDR_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY ADDR_TYPE Typ adresy (R = Resident, C = Correspondential, O = Other) CHAR(1) ADDR_COUNTRY Kód země CHAR(3) ADDR_CITY Město VARCHAR(60) ADDR_STREET Ulice VARCHAR(100) ADDR_NUM1 Číslo popisné VARCHAR(10) ADDR_NUM2 Číslo orientační ADDR_ZIP PSČ CHAR(5)

12 Datový model: PART_CONTACT
Název atributu Popis Datový typ CONT_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY CONT_TYPE Typ kontaktu (M = Mobil Phone, T = Telephone, E = , W = web) CHAR(1) CONT_PRIMARY_FLG Příznak primárního kontaktu (Y = Yes) CONT_VALUE Konkrétní kontakt VARCHAR(100)

13 Datový model: PROD_CONTRACT
Název atributu Popis Datový typ CNTR_ID Primární klíč BIGINT PARTY_ID Odkaz na ID tabulky PART_PARTY PRODUCT_CODE Identifikátor produktu CHAR(3) CNTR_VALIDFROM Datum počátku kontraktu DATE CNTR_VALIDTO Datum konce kontraktu CNTR_CANCTYPE Typ ukončení kontraktu SMALLINT CNTR_PAY_FREQ Frekvence placení pojistného

14 Relevantní datové zdroje
UIR-ADR Registr ekonomických subjektů (není volně dostupný) Číselníky České pošty Registr vozidel MVČR Číselníky titulů, jmen a příjmení na MVČR Credit Info – možný extrakt? Číselníky ČSÚ Kódy měn – ČNB Kody zemí - ČSÚ


Stáhnout ppt "Ing. David Pejčoch Cvičení č. 1"

Podobné prezentace


Reklamy Google