Nové nástroje pro digitalizaci knihovních dokumentů

Slides:



Advertisements
Podobné prezentace
Spisová služba pro organizace zřízené Olomouckým krajem
Advertisements

Souborný katalog ČR pod systémem ALEPH 500 Knihovny současnosti 2003 Národní knihovna ČR PhDr. Eva Svobodová – Mgr.Danuše Vyorálková Souborný katalog ČR.
CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Podpora dostupnosti a kvality sociálních služeb v Pardubickém kraji Úvodní seminář k projektu Pardubice
Knihovny současnosti 2011, České Budějovice 13. – 15. září 2011
Tvorba webových stránek
Metoda QFD metoda plánování jakosti založená na principu maticového diagramu umožňuje transformaci požadavků zákazníků do navrhovaného produktu a procesu.
Internetový průvodce po fondech
ÚZEMNÍ PLÁN OBCE A ÚZEMNĚ ANALYTICKÉ PODKLADY OBCÍ
Digitální zemědělská knihovna on-line. ÚVOD ČZU SIC a KBFR – dlouhodobá koncepce rozvoje „snadného“ přístupu k informacím podpora FRVŠ –616/ Digitalizace,
PLÁNOVÁNÍ ROZVOJE SLUŽEB ICT VE ŠKOLE NÁLEŽITOSTI ICT PLÁNU ŠKOLY listopad 2006 (c) Radek Maca.
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Výstupy z GIS Pojmy a typy výstupů, aneb pro koho, co a jak Ing. Jiří Fejfar, Ph.D.
Jiří Herman Elsyst Engineering Digitalizace a nástroje pro podporu digitalizace v knihovnách Jiří Herman Brněnská 10, 682.
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
Výhody užití architektury ITS ve veřejné osobní dopravě
Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea.
Záměry Knihovny Antonína Švehly v oblasti poskytovaných služeb pro knihovníky Knihovna Antonína Švehly 2014.
HODNOCENÍ ZPŮSOBILOSTI LETECKÉHO METEOROLOGICKÉHO PERSONÁLU Odbor letecké meteorologie,ČHMÚ, Praha 2013 HODNOCENÍ AMP V ROCE 2013.
Jak se dělá digitální matematická knihovna Miroslav Bartošek Vlastimil Krejčíř ÚVT MU Brno.
Digitalizace knihovních dokumentů Jiří Polišenský.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Zdroje dat, měření, konverze
Podpora a rozvoj komunikační infrastruktury ISVS Ing. Lubomír Moravčík
Mgr. Rostislav Krušinský VĚDECKÁ KNIHOVNA V OLOMOUCI Služba EOD - Elektronické knihy na objednávku.
Power Point– popis prostředí
Archivy, knihovny, muzea v digitálním světě 2010, Praha,
Barbora Kušová Obor: Geoinformatika HGF, VŠB-TU Ostrava 2002/2003
Dokumentace informačního systému
Projekt FRVŠ 1547/2007/E/b Budování digitální knihovny starých a vzácných dokumentů Řešitel: Ing. Věra Svobodová Ústav vědecko-pedagogických informací.
Porovnání tvorby DKM a KM-D pro katastrální území Antošovice
Rody Unifikované názvy Personální jména Konference Edice Akce Rodiny Korporace Geografická jména National Authority Files/ Names Soubory národních (jmenných)
Digitalizace a archivace dokumentů státní sociální podpory
Databázové modelování
Informační kulturní portál
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Projekt Digitální knihovna AV ČR a vývoj systému Kramerius Martin Lhoták, Knihovna AV ČR AMK v digitálním světě 2005, Praha.
Souborný katalog ČR Dana Vyorálková. Souborný katalog ČR Co je souborný katalog Kde najdete Souborný katalog ČR Co hledat v Souborném katalogu ČR Jak.
Webové služby pro komunikaci s informačním systémem eQuip Martin Širajch.
Možnosti spolupráce při vytváření digitálních sbírek Ing. Martin Lhoták Knihovna AV ČR.
Národní digitální knihovna
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Databáze Bibliografie dějin českých zemí jako cesta k plným textům v domácích i zahraničních knihovnách Václava Horčáková Elektronické služby knihoven.
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
Digitální knihovna, systém pro tvorbu, archivaci a zpřístupňování digitálních dokumentů Jiří Polišenský.
Základní problémy realizace eLearningového systému Roman Malo Ústav informatiky PEF MZLU v Brně.
Verze 22 systému Aleph školení klienta 1. Struktura systému Typy bází: Bibliografická – obsahuje bibliografické záznamy – KNA01 ostrá báze Administrativní.
Systémová podpora procesů transformace systému péče o ohrožené děti a rodiny Klíčové aktivity realizované v Pardubickém kraji Pardubice, dne
Grafické systémy II. Ing. Tomáš Neumann Interní doktorand kat. 340 Vizualizace, tvorba animací.
Implementace moderní "technické" počítačové grafiky do ŠVP s důrazem na tvorbu zpracovaných výstupů, zpracování návrhů dodatků do ŠVP v TV.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Skenování obálek a obsahů v praxi NK ČR Seminář účastníků SK ČR,
Co nového na "obálkách ...“ Seminář SK ČR Jiří Nechvátal
Digitalizace v krajské knihovně (SVK HK)
Informační den ÚVIS MZLU, Brno
Registr digitalizace Registr digitalizace Helena Dvořáková
Martin LEDÍNSKÝ Univerzita Karlova v Praze Ústav výpočetní techniky
Vstup a zpracování speciálních znaků v UIS
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
PRŮBĚH DOKUMENTACE UNIVERZITNÍHO INFORMAČNÍHO SYSTÉMU MZLU V BRNĚ
Spolupráce se Souborným katalogem ČR
Geografické informační systémy
Digitalizace knihovních dokumentů
METODOLOGIE PROJEKTOVÁNÍ
Katedra řízení podniku
Nové webové mapové aplikace ČGS RNDr. Vít Štrupl, PhD. Nesuchyně 4. 4
Transkript prezentace:

Nové nástroje pro digitalizaci knihovních dokumentů Jiří Polišenský

Obsah Výzkumný záměr: Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Nástroj pro automatizovanou kontrolu kvality obrazových souborů Programový projekt: Optimalizace nástrojů pro digitalizaci knihovních dokumentů ohrožených degradací kyselého papíru Nástroj pro optimalizaci OCR s využitím znalostních bází starších vrstev českého jazyka CODEG 4 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Proč se zabývat optimalizací procesu digitalizace? 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Proč se zabývat optimalizací procesu digitalizace Kvalita obrazových souborů přímo ovlivňuje výsledek OCR a tím i možnosti zpřístupnění dokumentů pomocí vyhledávání Výsledek OCR ovlivňují negativně tři faktory: Stupeň degradace dokumentu Chyby v nastavení parametrů skenování Konstrukční vlastnosti skenovacího zařízení Nástroj pro automatizovanou kontrolu kvality obrazových souborů by měl pomoci eliminovat chyby v nastavení a zjistit některé limity skenovacích zařízení 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Aktivity v l. 2008 - 2009 V r. 2008 byla stanovena základní východiska pro hodnocení kvality mikrofilmů a digitálních obrazových souborů Současně byly definovány tři úrovně testů hodnocení kvality: A. informační testy B. základní analytické testy C. poloautomatizované testy Byla zpracována základní metodika vyhodnocování kvality pro mikrofilmy a přímou digitalizaci 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Aktivity v l. 2008 - 2009 V r. 2009 byl zpracován návrh kalibrační tabulky Byl vytvořen prototyp SW nástroje pro automatizovanou analýzu kvality obrazových souborů 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Kalibrační tabulka Součástí řešení projektu v r. 2010 byla výroba kalibrační tabulky, umožňující vyhodnocení základních parametrů Výroba kalibračních tabulek je velmi složitá a tím nákladná, proto bylo třeba omezit počet diagnostických prvků na minimum Kalibrační tabulka umožňuje praktickými využitelnými metodami dosáhnout stability skenovacího procesu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Kalibrační tabulka Tabulka umožňuje analyzovat následující parametry: Stanovení úrovně bílé a černé plochy Nehomogenitu osvětlení plochy Maximální bílá a minimální černá Linearitu přenosu šedé stupnice Úroveň šedé v absolutních hodnotách jasu D Stanovení skutečně použitého (reálného) DPI Komplexní obrazovou ostrost Rozlišovací schopnost ve 4 bodech (rozích) plochy Středovou rozlišovací schopnost horizontální a vertikální Barevný mix pro stanovení gamutu skeneru Gradační stupnice RGBK pro barevné tisky Barevný mix pro degradovaný papír Stanovení přenosové charakteristiky kontrastu MTF 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Aplikace pro kontrolu kvality Aplikace umožňuje automatizovaným způsobem vyhodnocovat parametry kvality Podkladem pro hodnocení je snímek kalibrační tabulky na daném skeneru Po vyhodnocení snímku aplikace zobrazí výsledky na hlavní obrazovce Výsledky měření kvality je možné archivovat ve formátu xls 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Aplikace pro kontrolu kvality Hlavní obrazovka obsahuje identifikační pole kam se zadávají údaje buď manuálně nebo prostřednictvím čárového kódu a přihlášení operátora na PC (název testu, číslo testu, testovací obrazec, datum a čas, jméno operátora a název a typ zařízení, na kterém byl pořízen obrázek kalibrační tabulky) Na levé části obrazovky je souhrnné vyhodnocení parametrů kvality, zmenšený obrázek kalibrační tabulky a celkové hodnocení (vyhověl/nevyhověl) V pravé části obrazovky jsou uvedeny hodnoty pro jednotlivé parametry v podobě tabulky a grafu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Aplikace pro kontrolu kvality Výsledky testů je možné archivovat v podobě tabulky Aplikaci bude možné použít samostatně, nebo integrovanou do příslušného SW pro digitalizaci dokumentů Aplikaci bude možné využívat lokálně, nebo jako webovou službu Pro vytvoření aplikace byly použity algoritmy f. EE, proto bude třeba zakoupit licenci. V rámci projektu byla provedena integrace, vyvinuto aplikační rozhraní a navržena a vyrobena kalibrační tabulka 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Nástroj byl vyvinut v rámci řešení programového projektu Optimalizace nástrojů pro digitalizaci dokumentů ohrožených degradací kyselého papíru Vývoj nástroje probíhal ve třech hlavních etapách v letech 2007 až 2010 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Cíle projektu: vyvinout SW nástroje pro tvorbu znalostních bází českého jazyka specializovaných podle časového období a tematické skupiny využít znalostní báze pro zlepšení výsledků OCR Vytvořit nástroj pro automatizovanou tvorbu rozšířených metadat (popis dílčích částí dokumentů - názvy článků, kapitol, atd.) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR etapa řešení Definování 5 časových vrstev českého jazyka podle společných charakteristik Určení 12 tematických slupin Vývoj nástrojů pro tvorbu lokálních bází (BookSave, BookStore a WordBase) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR 2. etapa řešení Plnění znalostních bází Optimalizace nástrojů BookSave, BookStore a WordBase Vývoj aplikace CODEG (nástroj pro vytváření rozšířených metadat) Vyhodnocení efektivity zvoleného řešení 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR 3. etapa řešení Plnění znalostních bází Integrace nástrojů pro tvorbu lokálních bází a nástroje CODEG Implementace formátu ALTO XML do nástroje CODEG 4 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Postup zpracování: Skenování dokumentů vybraných podle časové vrstvy a tematického zaměření Rozpoznání a opravy textů v nástroji FineReader Zpracování textu v nástroji BookSave (rozdělení na slova, přiřazení atributů, uložení do báze WordBase) Čištění báze: deduplikace, mazání nestandardních nebo neexistujících slovních tvarů, atd. Prostřednictvím nástroje BookStore probíhala kontrola a editace slovní báze 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Postup zpracování v nástroji CODEG: Import obrazových souborů Vyhledání zón a označení jejich atributů (paginace, nadpis, autor, textová zóna, obrázek) Rozpoznání s využitím slovních bází Vytvoření souboru XML s metadaty a textovými soubory 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR CODEG 4 Komunikační nástroj pro vyřizování požadavku off line Zasílání požadavku externím uživatelem Získání výsledků Aplikace pro tvorbu rozšířených metadat server – klient pro práci on line 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Postup on line zpracování v nástroji CODEG 4: Export dokumentů v obrazové podobě do nástroje CODEG 4 Označení dokumentu určeného ke zpracování Vytvoření dávek Rozpoznání zón, přiřazení bibliografických metadat a atributů (tematická skupina, časová vrstva) Editace rozpoznaných zón u prvních (nebo typických) stránek, určování typů a podtypů zón Editace – opravy textů Vytvoření a export XML s rozšířenými metadaty a soubory ve formátu ALTO XML 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Postup zpracování v nástroji CODEG 4: Zpracované dokumenty se uloží do slovní báze Provede se deduplikace slovních tvarů a uložení nových do báze (správce databáze) Všechny uložené slovní tvary mají asociované bibliografické informace a atributy tematické skupiny a časové vrstvy Zbývá přizpůsobit export dat novým standardům 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR CODEG 4 může tvořit integrální součást digitalizačního wokflow (např. systému Sirius), nebo být využíván externímu uživateli on line, prostřednictvím klienta, nebo off line prostřednictvím komunikačního modulu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Nástroj pro optimalizaci OCR Aktivity realizované v projektu Optimalizace nástrojů …. se do značné míry kryjí s aktivitami vyvíjenými evropskými knihovnami, jazykovými ústavy a firmami IBM a ABBYY v rámci projektu IMPACT Podobný nástroj pod názvem CONCERT vyvíjí firma IBM v Izraeli. Vzhledem k našim výsledkům jsme byli v rámci projektu IMPACT pověřeni testováním nástroje CONCERT a porovnáním s nástrojem CODEG 4 Vývoj dalších jazykových nástrojů je plánován v rámci podaného projektu NAKI (NK ČR, EE, Ústav českého národního korpusu FFUK) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

Děkuji za pozornost Jiri.Polisensky@nkp.cz 11. konference Archivy, knihovny, muzea v digitálním světě 2010