Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Řízení datové kvality Ing. David Pejčoch Cvičení č. 1.

Podobné prezentace


Prezentace na téma: "Řízení datové kvality Ing. David Pejčoch Cvičení č. 1."— Transkript prezentace:

1 Řízení datové kvality Ing. David Pejčoch Cvičení č. 1

2 Osnova Cíle praktických cvičení Výstupy ze cvičení Analýza zadání praktické úlohy Proč se zabývat datovou kvalitou Architektura auditované firmy Popis situace Seznámení s dostupnými datovými zdroji pro úlohu Popis nástroje Talend Open Studio Popis nástroje CADaQuES

3 Cíle praktických cvičení Seznámit s funkcionalitou nástrojů pro řízení datové kvality Na praktických úlohách vyzkoušet audit datové kvality a návrh nápravných opatření Praktická demonstrace metod pro zvyšování datové kvality

4 Zadání praktické úlohy – 1. část 1.S pomocí nástroje Talend Open Studio for Data Quality vytvořte profilaci dat (základní popisné statistiky, četnosti jednotlivých vzorů, …) 2.Proveďte verifikaci proti dostupným číselníkům, registrům a validaci pomocí regulárních výrazů) 3.Spočtěte úroveň kvantitativních vlastností dat (správnost, úplnost, konzistentnost, …) 4.Na příkladu modelové firmy odhadněte roční výši nákladů na nekvalitní data 5.Porovnejte možné přínosy nápravných opatření s vynaloženými náklady 6.Proveďte prioritizaci scope řízení datové kvality 7.Navrhněte externí datové zdroje pro obohacení 8.Navrhněte strategii pro doplnění chybějících hodnot Výstup: dokument Zpráva auditora (viz šablona)

5 Zadání praktické úlohy – 2. část 1.Proveďte standardizaci hodnot vybraných atributů 2.Doplňte chybějící hodnoty podle navržené strategie 3.Proveďte unifikaci a deduplikaci klientů 4.Navrhněte byznys pravidla pro předcházení dalšímu vzniku chyb v datech Výstup: příloha k dokumentu Zpráva auditora, výstupní data (viz pokyny níže)

6 Pokyny pro formát odevzdaných dat Datová kvalita je vždy dodatečná informace, proto imputované / opravené hodnoty, informaci o slučování klientů, určení master záznamu vkládejte vždy do nových atributů označených suffixem _CL. Data odevzdejte formou txt extraktu (textový soubor oddělený svislítkem jako oddělovačem, kódování UTF8)

7 Architektura auditované firmy: jak to má být

8 Popis situace V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů. Vstupní kontroly duplicit jsou realizovány pouze na úrovni dvou oddělených provozních systémů. Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně při jejich importu do systému neživotního pojištění. Provizní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivé získatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílní. K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla / IČa.

9 Architektura auditované firmy

10 Datový model: PART_PARTY Název atributuPopisDatový typ PARTY_IDPrimární klíčBIGINT PARTY_TYPETyp klienta (C = Commercial, P = Private)CHAR(1) PARTY_FNAMEKřestní jméno klientaVARCHAR(45) PARTY_LNAMEPříjmení klientaVARCHAR(60) PARTY_NAMENázev společnostiVARCHAR(255) PARTY_FORMPrávní forma společnostiSMALLINT PARTY_CREGNUMKomerční registrační čísloVARCHAR(8) PARTY_RCRodné čísloVARCHAR(10) PARTY_COUNTRYKód země původuCHAR(3) PARTY_POFBIRTHMísto narozeníVARCHAR(60) PARTY_AGEVěk klientaINT PARTY_GENDERPohlaví klienta (M = Male, F = Female, O = Other) CHAR(1) PARTY_DOFBIRTHDatum narozeníDATE PARTY_TITBEFTitul před jménemVARCHAR(10) PARTY_TITAFTTitul za jménemVARCHAR(10) PARTY_ESA95Kód institucionálního sektoruINT PARTY_OKECOKEČ kódCHAR(5) PARTY_SINCEDatum počátku statutu klientDATE

11 Datový model: PART_ADDRESS Název atributuPopisDatový typ ADDR_IDPrimární klíčBIGINT PARTY_IDOdkaz na ID tabulky PART_PARTYBIGINT ADDR_TYPETyp adresy (R = Resident, C = Correspondential, O = Other) CHAR(1) ADDR_COUNTRYKód zeměCHAR(3) ADDR_CITYMěstoVARCHAR(60) ADDR_STREETUliceVARCHAR(100) ADDR_NUM1Číslo popisnéVARCHAR(10) ADDR_NUM2Číslo orientačníVARCHAR(10) ADDR_ZIPPSČCHAR(5)

12 Datový model: PART_CONTACT Název atributuPopisDatový typ CONT_IDPrimární klíčBIGINT PARTY_IDOdkaz na ID tabulky PART_PARTYBIGINT CONT_TYPETyp kontaktu (M = Mobil Phone, T = Telephone, E = , W = web) CHAR(1) CONT_PRIMARY_FLGPříznak primárního kontaktu (Y = Yes)CHAR(1) CONT_VALUEKonkrétní kontaktVARCHAR(100)

13 Datový model: PROD_CONTRACT Název atributuPopisDatový typ CNTR_IDPrimární klíčBIGINT PARTY_IDOdkaz na ID tabulky PART_PARTYBIGINT PRODUCT_CODEIdentifikátor produktuCHAR(3) CNTR_VALIDFROMDatum počátku kontraktuDATE CNTR_VALIDTODatum konce kontraktuDATE CNTR_CANCTYPETyp ukončení kontraktuSMALLINT CNTR_PAY_FREQFrekvence placení pojistnéhoSMALLINT

14 Relevantní datové zdroje UIR-ADR Registr ekonomických subjektů (není volně dostupný) Číselníky České pošty Registr vozidel MVČR Číselníky titulů, jmen a příjmení na MVČR Credit Info – možný extrakt? Číselníky ČSÚ Kódy měn – ČNB Kody zemí - ČSÚ


Stáhnout ppt "Řízení datové kvality Ing. David Pejčoch Cvičení č. 1."

Podobné prezentace


Reklamy Google