Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Copyright 2008 TietoEnator Corporation Zpracování nestrukturovaných informací a content management Přednáška pro ZČU 20.4. 2009 Marek Novotny TietoEnator.

Podobné prezentace


Prezentace na téma: "Copyright 2008 TietoEnator Corporation Zpracování nestrukturovaných informací a content management Přednáška pro ZČU 20.4. 2009 Marek Novotny TietoEnator."— Transkript prezentace:

1 Copyright 2008 TietoEnator Corporation Zpracování nestrukturovaných informací a content management Přednáška pro ZČU 20.4. 2009 Marek Novotny TietoEnator Corporation marek.novotny@tietoenator.com

2 Copyright 2008 TietoEnator Corporation 2 Agenda Představení TietoEnator - budujeme informační společnost Systémová integrace - vymezení a motivace Příklady z praxe Telekomunikace Bankovnictví Zdravotnictví Aspekty systémové integrace

3 Copyright 2008 TietoEnator Corporation 3 Představení - Marek Novotný TietoEnator Consulting, a.s. ředitel, člen představenstva 1994: absolvent FAV ZČU, obor Informatika a výpočetní technika 1995 - 2001: CCA Group 2002 - 2008: TietoEnator 1994: programátor 1996: konzultant 1997: project manager 2000: ředitel pro řízení projektů 2002: project manager 2005: manager consultingu 2008: ředitel, člen představenstva marek.novotny@tietoenator.com státní správa telekomunikace banking zdravotnictví utility

4 Copyright 2008 TietoEnator Corporation 4 Kdykoliv se ptejte!

5 Copyright 2008 TietoEnator Corporation 5 TietoEnator Původ: Skandinávie Globální poskytovatel IT služeb s vysokou přidanou hodnotou ve vybraných odvětvích průmyslu Jedna z největších společností poskytujících IT služby v Evropě Naše mise: Budujeme informační společnost

6 Copyright 2008 TietoEnator Corporation 6 TietoEnator Roční obrat 1,7 mld EUR Přes 16 000 zaměstnanců téměř ve 30 zemích Akcie obchodovány na burze v Helsinkách a ve Stockholmu V ČR od roku 2001, více než 1500 zaměstnanců TietoEnator operuje v následujících zemích: Belgie, Česká republika, Čína, Dánsko, Finsko, Francie, Estonsko, Indie, Indonésie, Itálie, Kanada, Litva, Lotyšsko, Malajsie, Německo, Nizozemí, Norsko, Polsko, Portugalsko, Rakousko, Rusko, Singapur, Slovensko, Švédsko, Ukrajina, USA, Velká Británie.

7 Copyright 2008 TietoEnator Corporation 7 Obchodní oblasti TietoEnator

8 Copyright 2008 TietoEnator Corporation 8 TietoEnator v České Republice Data warehousing Business intelligence Výzkum a vývoj Business processes management Data quality Metadata repository Document & content management e-Invoicing CRM Siebel GIS Smallworld Network inventory & planning Speciální řešení pro telekomunikace Nemocniční informační systémy

9 Copyright 2008 TietoEnator Corporation 9 TietoEnator Czech Software Centrum Ostrava Založeno v roce 2003 na zelené louce Nyní ~ 1 500 zaměstnanců Preferovaný zaměstnavatel roku 2008 Odborné zaměření: IT Development Java Oracle C++ Microsoft.NET SAP Documentum Processing & network hosting systémů a aplikací vzdálená správa

10 Copyright 2008 TietoEnator Corporation 10 Vybraní zákazníci TietoEnator

11 Copyright 2008 TietoEnator Corporation 11 Úvod

12 Copyright 2008 TietoEnator Corporation 12 Produkce informací Nestrukturované informace přibývají rychleji než strukturovaná data Strukturovaná data obvykle tvoří pouze ~20% z celkového objemu informací ve společnosti Průměrná společnost má ~200-300 typů nestrukturovaného obsahu Roční produkce dat v Terabytech Zdroj: UC Berkley Study – „How much information ?“

13 Copyright 2008 TietoEnator Corporation 13 Strukturované a nestrukturované informace Obsah zpravidla v databázích a IS Struktura v digitální podobě Sémantika přesně definovaná Datový model Interpretace v IT aplikaci Obsah zpravidla v souborech Struktura má někdy jen vizuální podobu Zpravidla chybí sémantika Chybí datový model Interpretuje čtenář

14 Copyright 2008 TietoEnator Corporation 14 Příklady nestrukturovaných informací podle odvětví Bankovnictví, pojišťovnictví smlouvy s klienty podpisové vzory hlášení škodní události Obchod a marketing prospekty fotografie filmové reklamní šoty prezentace Stavebnictví, výroba plány, výkresy fotodokumentace Zdravotnictví pacientská dokumentace snímky z RTG, CT apod. Státní správa došlá podání spisy v některých případech se používá nestrukturovaný formát i v případě, že původní zdroj informace je strukturovaný (PDF namísto CAD)

15 Copyright 2008 TietoEnator Corporation 15 Problém s papíry Stále větší objem – nové spisy, objednávky, faktury, smlouvy, dopisy, apod. Těžkopádnost a náklady – papíry se obtížně hledají, prohledávají, skladují, sdílejí a předávají Nedostatečná dostupnost – požaduje se globální přístup k informacím odkudkoliv, což je u papírové dokumentace problém Bezpečnost a auditovatelnost – požaduje se řízení přístupu k informacím a ochrana před zneužitím, u papírové dokumentace problém Příklad: ztráta části spisu Self Service – zákazníci stále častěji požadují externí přístup ke svým informacím Příklad: lékařská dokumentace.

16 Copyright 2008 TietoEnator Corporation 16 Metadata Metadata, content a další pojmy Objekt (Essence) Obsah (Content) Práva (Rights) Využitelný obsah (Asset)  + Objekt (Essence) je video, audio, obrázek, image dokumentu, text atd. Je to výsledek něčí tvůrčí činnosti, soubor Metadata jsou data, která objekt popisují: kdo ho vytvořil, co obsahuje, jaký je to formát, datumové a časové údaje,… Metadata jsou nezbytná při hledání a přístupu ke zdrojovému objektu. Obsah (Content) je cesta jak se dostat k objektu prostřednictvím vyhledávácího algoritmu Práva (Rights) jsou práva k nakládání s obsahem. Bez řízení přístupových práv je obsah bezcenný. Využitelný obsah (Asset) je prakticky využitelná informace pro konkrétního uživatele, personalizovaný obsah 

17 Copyright 2008 TietoEnator Corporation 17 Enterprise Content Management Řešení pro správu podnikového obsahu Dříve: DMS = Document Management System Dnes: ECM = Enterprise Content Management Proč? Protože to není jen o dokumentech. DMS je podmnožinou ECM.

18 Copyright 2008 TietoEnator Corporation 18 Komponenty ECM řešení Digital Image Processing (Skenování a vytěžování) Digital Assets Management (audio, video, obrázky) Workflow, Business process management Records management (spisová služba, archivace) Document Management System Collaboration, Workgroups Web Content Management ERP Content ECM

19 Copyright 2008 TietoEnator Corporation 19 Zkratky a pojmy z oblasti ECM DMS, EDM (Document Management System)n á stroje pro spr á vu a ukl á d á n í dokumentů DAM (Digital Asset Management)Spr á va digit á ln í ch medi á ln í ch dat – obraz, audio, video WCM (Web Content Management)Spr á va webov é ho obsahu FFM (Fixed nebo Final Form Management) Records Management Vět š inou se pod t í mto pojmem ch á pe archivačn í syst é m, tj. ú loži š tě již hotových fin á ln í ch dokumentů (na rozd í l do DMS, kde se poč í t á s „ živými “ dokumenty) Workflow, BPM (Business Proces Management)Ř í zen í a n á vrh předdefinovaných procesů CCM, Collaboration nebo WorkgroupsN á stroje týmov é spolupr á ce DIP (Digital Image Processing)Skenov á n í, vytěžov á n í a ukl á d á n í pap í rových dokumentů COLD (Computer Output to Laser Disc)Podpora ukl á d á n í dat na optických data storage Portal connectivityNapojen í na standardn í port á lov á ře š en í OMS (Output management syst é me)Optimalizace výstupů a tisků, podpora ob á lkovac í ch strojů atd. E-FormsFormul á ře, propojen í datab á z í a dokumentů EDM/PDM/PLM (product data management/product life-cycle management ) Spr á va produkčn í ch dat a životn í ho cyklu produktů, zpravidla se t í m m á na mysli napojen í na CAD/CAM syst é my Report ManagementSpr á va reportů Information life-cycle managementSpr á va životn í ho cyklu informac í

20 Copyright 2008 TietoEnator Corporation 20 ECM: Obecná architektura Hardware Obsahové úložiště Aplikační vrstva Frontend Enterprise Content Management Uživatelské rozhraní – nejčastěji Webové, uživatelský i administrační přístup, správa dokumentů, vyhledávání Funkční moduly – workflow, collaboration services, automatická klasifikace, zabezpečení a práva, atd… Content Repository – uložiště objektů, zajišťuje uložení a indexaci obsahu i řízení přístupovách práv Data storage – hardwarová platforma, dle kategorie může být Enterprise, Midrange nebo Low cost storage popř. Tape archive

21 Copyright 2008 TietoEnator Corporation 21 Typické činnosti 1.Vstup dokumentů a objektů (včetně digitalizace) 2.Vyhledávání a využití dokumentů 3.Zpracování / řízení oběhu (workflow)

22 Copyright 2008 TietoEnator Corporation 22 OCR/ICR/Barcode recognition Content Management System 1.Typické činnosti – vstup Přidělení ID Indexace Digitalizace Elektronické dokumenty, e-maily, obrázky, … Papírové dokumenty, korespondence Objekty Indexy Objekt Metadata Automatické napojení na aplikace

23 Copyright 2008 TietoEnator Corporation 23 Content Management System 2.Typické činnosti – vyhledávání a využití Autorizace dle přidělených práv, vyhledání Uživatelé Objekty Indexy Vrácení relevantního seznamu objektů Přihlášení, zadání dotazu Search :

24 Copyright 2008 TietoEnator Corporation 24 ECM - BPM a Collaboration 3.Typické činnosti – zpracování / řízení oběhu Analýza a návrh Optimalizace Import Editace Kompletace Revize Potvrzení EditaceKompletaceOdsouhlasení Konec Start Monitoring, vyhodnocení Provoz Simulace, implementace Integrac e

25 Copyright 2008 TietoEnator Corporation 25 Proces digitalizace dokumentů PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Rozdělení procesu digitalizace na funkční postupné kroky umožňuje optimální využití techniky, lidských kapacit i času Činnosti v jednotlivých krocích mohou být prováděny souběžně na více pracovištích V případě rostoucích nároků je možno navyšovat výkonnost jen v těch částech procesu, kde je to nutné

26 Copyright 2008 TietoEnator Corporation 26 Digitalizace dokumentů I PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Příprava Odstranění sponek, drátků ze sešívačky, separace dokumentů s kopii nebo sestav na tabelačním papíře, … Fyzická příprava došlé korespondence, rozdělení do dávek pro skenování Vkládání separačních listů, nalepení štítků s čárovým kódem

27 Copyright 2008 TietoEnator Corporation 27 Digitalizace dokumentů II PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Skenování Pro digitalizaci se používají dokumentové skenery přizpůsobené pro vysokorychlostní skenování Objemné podavače, kontrola sponek, kontrola dvojího podání, přímá i „U“ cesta Jednostranné nebo duplexní skenování, obvykle černobíle, 240 nebo 300 dpi, formát PDF nebo multipage TIFF Nástroje vylepšení obrazu – srovnání, kontolra orientace, odstranění šumu, zvýšení kontrastu, color drop – out, … Rychlosti skenu 20 ÷ 200 str./min.

28 Copyright 2008 TietoEnator Corporation 28 Digitalizace dokumentů III PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Identifikace, vytěžení Vytěžení dokumentů slouží k získání údajů z obrazové předlohy, použitelných jako metadata – tj. indexy Pro vytěžování se používají technologie OCR, ICR nebo Bar Code Recognition Pro identifikaci se používá zónové čtení, kontextové vyhledávání apod. V rámci vytěžování mohou být uplatněny i kontrolní nástroje Čárový kód může sloužit např. pro automatickou identifikaci pomocí referenčních dat – typické u tištěných dokumentů, které se vracejí potvrzené (dodací listy apod.)

29 Copyright 2008 TietoEnator Corporation 29 Digitalizace dokumentů IV PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Verifikace, validace Slouží k ověření vytěžených údajů Může probíhat nezávisle na prvotním naskenování a vytěžení – typicky např. podatelna provede kroky I ÷ III, odborné oddělení provede verifikaci a validaci údajů Pro verifikaci možno využívat i refernční zdroje dat Proces verifikace je možno kombinovat s metodikami a nástroji pro řízení datové kvality, výsledkem je další zrychlení a zkvalitnění celého procesu zpracování

30 Copyright 2008 TietoEnator Corporation 30 Digitalizace dokumentů V PřípravaSkenování Identifikace vytěžení VerifikaceDoručení Zpracovaný dokument může být dále předán ke zpracování v zásadě trojím způsobem: 1. Uložení – v tomto případě je dokument uložen v příslušném folderu a je zpřístupněn v rámci standardní DMS/Archiv funkcionality 2. Collaborative – dokument je zpracován v rámci týmu bez předpřipraveného scénáře v rámci nástroje týmové spolupráce (např. eRoom) 3. Workflow – dokument je zpracován v rámci typizovaného procesního schématu V tomto kroku může být rovněž dokument opatřen elektronickým podpisem nebo časovým razítkem.

31 Copyright 2008 TietoEnator Corporation Trh ECM řešení

32 Copyright 2008 TietoEnator Corporation 32 Magic Quadrant for Enterprise Content Management

33 Copyright 2008 TietoEnator Corporation 33 Vybraná řešení Enterprise Content Management Documentum FileNet Oracle Content Management (Stellent) ECM Suite (HummingBird) SharePoint

34 Copyright 2008 TietoEnator Corporation 34 Příklad ECM řešení: EMC Documentum

35 Copyright 2008 TietoEnator Corporation 35 Příklad ECM řešení: EMC Documentum Documentum platforma Create / CaptureManage Deliver / Retain/ Archive Bezpečnost a auditování Vyhledávání, katalogizace Verzování Procesy a workflow Transformace, změny formátů Virtuální dokumenty Kancelářské aplikace (MS Office apod.) XML aplikace CAD aplikace Skenované obrázky Generované reporty Podnikové aplikace (ERP, CRM, atd.) FaxCD-Rom Paper Email WirelessPortals Archivace / Ukládání

36 Copyright 2008 TietoEnator Corporation 36 Documentum – komplexní i modulární systém Zpracování všech druhů obsahu (content) Kompletní sada funkčních stavebních kamenů Content Capture Základní Služby DMS Information Rights Management Unifikovaný desktop Automatická klasifikace Zpracování Fyzických dokumentů Business Process Management Web Publishing E-mail Ingestion Compound Document Management SAP Archivace Zabezpečení a práva Řízení životního cyklu Web site Management Archivace reportů Business Process Optimization Obrázky Flash Zvuk Video Media Discussions IM Notes Projects Spolupráce Papíry Faxy Reporty Skeny Fyzický E-mail IM Chats Zprávy Documenty Tabulky Presentace Poznámky Dokumenty HTML SGML WML XML Web Konektivita, podpora různých klientských prostředí

37 Copyright 2008 TietoEnator Corporation 37 Documentum - základní funkce CM VerzováníCheck in/out Přístupy Editace: personální Čtení: každý Základní funkce CM Verzování, historie Blokování obsahu proti přepisu, řízení obsahu Propracovaný model přístupových práv

38 Copyright 2008 TietoEnator Corporation 38 Životní cyklus informace Životní cyklus informace je řízen na základě nastavených pravidel Řízení pomocí manualních i automatizovaných procesů, workflows Dynamické řízení bezpečnosti, shody i platnosti Služby řízení životního cyklu Životní cyklus informace Vytvoření Modifikace Revize Potvrzení Publikování Uložení

39 Copyright 2008 TietoEnator Corporation 39 Zabezpečení a práva Elektronický podpis Digitalní skartace Single sign-on Autentifikace Auditování Kryptování Práva k informaci Zabezpečení obsahu Repository (úložiště) je kryptováno Electronický podpis Historie, audit práce s informací Povinná kontrola přístupu Digitalní skartace

40 Copyright 2008 TietoEnator Corporation 40 Klientské rozhraní Content Management Různé varianty uživatelského prostředí Uživatelské rozhraní Volba záleží na roli, náplni uživatele Funkce content management integrované v rámci běžně používaných aplikací (MS Outlook, SAP apod.) Standardní technologické postupy a nástroje, možnost využit aplikačních vrstev např. BEA nebo Oracle Competition Nokia Motorola LG O2 Asia Web Services WebDAV FTP SMB DFC

41 Copyright 2008 TietoEnator Corporation 41 Základní stavební prvky SpolupráceTransakceInteraktivita Archivace Všechny typy obsahu Základní sada služeb - RICH CONTENT SERVICES Různé napojení uživatele Funkční celky Týmové činnosti (produktivita) Internet a komunikace Uchování a ochrana informace Zpracování, ř ízení a kontrola Funkční prvky pro tvorbu aplikací

42 Copyright 2008 TietoEnator Corporation 42 Spolupráce Interaktivita Archivace Zaměření Produktivita osobní i týmová Příklady Project management, operativní vyjádření,vyřízení klientských požadavků, záznamy porad a jednání, řízení úkolů, reporting, statistiky a přehledy. Typy obsahu Všechny typy, office dokumenty, e-maily, diskuse, projektové plány a podklady, úkoly Technologie Týmová virtuální pracoviště, nástroje projekt managementu, vyhledávání a klasifikace, dokument management. Využití spolupráce Transakce Collaborative Spolupráce

43 Copyright 2008 TietoEnator Corporation 43 Transakční řízení ZaměřeníNáklady na řízení a kontrolu procesů PříkladyŘízené dokumenty – schvalování faktur, nabídky, vyřízení průvodních a celních dokumentů, dodacích listů, reklamace Typy obsahuPapírové dokumenty a faxy, formuláře TechnologieSkenování a imaging, workflow a BPM, zpracování formulářů Využití transakčního řízení Interaktivita Archivace Spolupráce Transakce

44 Copyright 2008 TietoEnator Corporation 44 Interaktivita Archivace Transakce Spolupráce Zaměření Ochrana a zabezpečení uložení obsahu Příklady Obsah určený k archivaci je generován ze všech typů aplikací a v různých formátech. Typy obsahuDokumenty (vlastní i skenované), E-mail, SAP data, reporty, mediální data TechnologieKlasifikace, zabezpečení, řízení skaratace a archivace, napojení na storage management a optimalizaci Využití nástrojů archivace

45 Copyright 2008 TietoEnator Corporation 45 Hardwarový pohled na nestrukturovaný obsah

46 Copyright 2008 TietoEnator Corporation 46 Objem dat Velikost objektů s obsahem Dokumenty: desítky kB až jednotky MB Prezentace:stovky KB až jednotky MB Fotografie: jednotky až desítky MB Video: desítky MB až jednotky GB Počet objektů desítky milionů až miliardy roční přírůstek až v řádu jednotek TB ročně

47 Copyright 2008 TietoEnator Corporation 47 Výkonnostní požadavky na ECM. Business Continuity Backup & Restore Redundancy & Failover High Availability (Clustering) Distributed Architecture Distributed repositories Replication Federated management New York Tokio

48 Copyright 2008 TietoEnator Corporation 48 Požadavky na storage Scalability - rozšiřitelnost, škálovatelnost z hlediska kapacity až stovky PentaByte u High End Bandwith - propustnost síťového rozhraní až >100 GB/s Virtualization - jednotná prezentace navenek bez ohledu na vnitřní fyzické uspořádání Časový faktor desítky let

49 Copyright 2008 TietoEnator Corporation 49 Optimalizace storage infrastruktury $40/GB $20/GB$5/GB$0.5/GB Mission Critical FC disky až stovky PB online (ms) Mission Critical FC nebo SATA disky až stovky TB Task Critical SATA nebo SAS disky až desítky TB near line (sec) Archive páskový robot dostupnost - minuty vysoká spolehlivost životnost desítky let

50 Copyright 2008 TietoEnator Corporation 50 Hlavní hráči na trhu hardware pro storage a archivaci

51 Copyright 2008 TietoEnator Corporation 51 Otázky?

52 Copyright 2008 TietoEnator Corporation 52


Stáhnout ppt "Copyright 2008 TietoEnator Corporation Zpracování nestrukturovaných informací a content management Přednáška pro ZČU 20.4. 2009 Marek Novotny TietoEnator."

Podobné prezentace


Reklamy Google