Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Nové nástroje pro digitalizaci knihovních dokumentů
Jiří Polišenský
2
Obsah Výzkumný záměr: Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Nástroj pro automatizovanou kontrolu kvality obrazových souborů Programový projekt: Optimalizace nástrojů pro digitalizaci knihovních dokumentů ohrožených degradací kyselého papíru Nástroj pro optimalizaci OCR s využitím znalostních bází starších vrstev českého jazyka CODEG 4 11. konference Archivy, knihovny, muzea v digitálním světě 2010
3
Proč se zabývat optimalizací procesu digitalizace?
11. konference Archivy, knihovny, muzea v digitálním světě 2010
4
Proč se zabývat optimalizací procesu digitalizace
Kvalita obrazových souborů přímo ovlivňuje výsledek OCR a tím i možnosti zpřístupnění dokumentů pomocí vyhledávání Výsledek OCR ovlivňují negativně tři faktory: Stupeň degradace dokumentu Chyby v nastavení parametrů skenování Konstrukční vlastnosti skenovacího zařízení Nástroj pro automatizovanou kontrolu kvality obrazových souborů by měl pomoci eliminovat chyby v nastavení a zjistit některé limity skenovacích zařízení 11. konference Archivy, knihovny, muzea v digitálním světě 2010
5
Aktivity v l V r byla stanovena základní východiska pro hodnocení kvality mikrofilmů a digitálních obrazových souborů Současně byly definovány tři úrovně testů hodnocení kvality: A. informační testy B. základní analytické testy C. poloautomatizované testy Byla zpracována základní metodika vyhodnocování kvality pro mikrofilmy a přímou digitalizaci 11. konference Archivy, knihovny, muzea v digitálním světě 2010
6
Aktivity v l V r byl zpracován návrh kalibrační tabulky Byl vytvořen prototyp SW nástroje pro automatizovanou analýzu kvality obrazových souborů 11. konference Archivy, knihovny, muzea v digitálním světě 2010
7
Kalibrační tabulka Součástí řešení projektu v r byla výroba kalibrační tabulky, umožňující vyhodnocení základních parametrů Výroba kalibračních tabulek je velmi složitá a tím nákladná, proto bylo třeba omezit počet diagnostických prvků na minimum Kalibrační tabulka umožňuje praktickými využitelnými metodami dosáhnout stability skenovacího procesu 11. konference Archivy, knihovny, muzea v digitálním světě 2010
8
Kalibrační tabulka Tabulka umožňuje analyzovat následující parametry:
Stanovení úrovně bílé a černé plochy Nehomogenitu osvětlení plochy Maximální bílá a minimální černá Linearitu přenosu šedé stupnice Úroveň šedé v absolutních hodnotách jasu D Stanovení skutečně použitého (reálného) DPI Komplexní obrazovou ostrost Rozlišovací schopnost ve 4 bodech (rozích) plochy Středovou rozlišovací schopnost horizontální a vertikální Barevný mix pro stanovení gamutu skeneru Gradační stupnice RGBK pro barevné tisky Barevný mix pro degradovaný papír Stanovení přenosové charakteristiky kontrastu MTF 11. konference Archivy, knihovny, muzea v digitálním světě 2010
10
Aplikace pro kontrolu kvality
Aplikace umožňuje automatizovaným způsobem vyhodnocovat parametry kvality Podkladem pro hodnocení je snímek kalibrační tabulky na daném skeneru Po vyhodnocení snímku aplikace zobrazí výsledky na hlavní obrazovce Výsledky měření kvality je možné archivovat ve formátu xls 11. konference Archivy, knihovny, muzea v digitálním světě 2010
11
Aplikace pro kontrolu kvality
Hlavní obrazovka obsahuje identifikační pole kam se zadávají údaje buď manuálně nebo prostřednictvím čárového kódu a přihlášení operátora na PC (název testu, číslo testu, testovací obrazec, datum a čas, jméno operátora a název a typ zařízení, na kterém byl pořízen obrázek kalibrační tabulky) Na levé části obrazovky je souhrnné vyhodnocení parametrů kvality, zmenšený obrázek kalibrační tabulky a celkové hodnocení (vyhověl/nevyhověl) V pravé části obrazovky jsou uvedeny hodnoty pro jednotlivé parametry v podobě tabulky a grafu 11. konference Archivy, knihovny, muzea v digitálním světě 2010
14
Aplikace pro kontrolu kvality
Výsledky testů je možné archivovat v podobě tabulky Aplikaci bude možné použít samostatně, nebo integrovanou do příslušného SW pro digitalizaci dokumentů Aplikaci bude možné využívat lokálně, nebo jako webovou službu Pro vytvoření aplikace byly použity algoritmy f. EE, proto bude třeba zakoupit licenci. V rámci projektu byla provedena integrace, vyvinuto aplikační rozhraní a navržena a vyrobena kalibrační tabulka 11. konference Archivy, knihovny, muzea v digitálním světě 2010
15
Nástroj pro optimalizaci OCR
Nástroj byl vyvinut v rámci řešení programového projektu Optimalizace nástrojů pro digitalizaci dokumentů ohrožených degradací kyselého papíru Vývoj nástroje probíhal ve třech hlavních etapách v letech 2007 až 2010 11. konference Archivy, knihovny, muzea v digitálním světě 2010
16
Nástroj pro optimalizaci OCR
Cíle projektu: vyvinout SW nástroje pro tvorbu znalostních bází českého jazyka specializovaných podle časového období a tematické skupiny využít znalostní báze pro zlepšení výsledků OCR Vytvořit nástroj pro automatizovanou tvorbu rozšířených metadat (popis dílčích částí dokumentů - názvy článků, kapitol, atd.) 11. konference Archivy, knihovny, muzea v digitálním světě 2010
17
Nástroj pro optimalizaci OCR
etapa řešení Definování 5 časových vrstev českého jazyka podle společných charakteristik Určení 12 tematických slupin Vývoj nástrojů pro tvorbu lokálních bází (BookSave, BookStore a WordBase) 11. konference Archivy, knihovny, muzea v digitálním světě 2010
18
Nástroj pro optimalizaci OCR
2. etapa řešení Plnění znalostních bází Optimalizace nástrojů BookSave, BookStore a WordBase Vývoj aplikace CODEG (nástroj pro vytváření rozšířených metadat) Vyhodnocení efektivity zvoleného řešení 11. konference Archivy, knihovny, muzea v digitálním světě 2010
19
Nástroj pro optimalizaci OCR
3. etapa řešení Plnění znalostních bází Integrace nástrojů pro tvorbu lokálních bází a nástroje CODEG Implementace formátu ALTO XML do nástroje CODEG 4 11. konference Archivy, knihovny, muzea v digitálním světě 2010
20
Nástroj pro optimalizaci OCR
Postup zpracování: Skenování dokumentů vybraných podle časové vrstvy a tematického zaměření Rozpoznání a opravy textů v nástroji FineReader Zpracování textu v nástroji BookSave (rozdělení na slova, přiřazení atributů, uložení do báze WordBase) Čištění báze: deduplikace, mazání nestandardních nebo neexistujících slovních tvarů, atd. Prostřednictvím nástroje BookStore probíhala kontrola a editace slovní báze 11. konference Archivy, knihovny, muzea v digitálním světě 2010
21
Nástroj pro optimalizaci OCR
Postup zpracování v nástroji CODEG: Import obrazových souborů Vyhledání zón a označení jejich atributů (paginace, nadpis, autor, textová zóna, obrázek) Rozpoznání s využitím slovních bází Vytvoření souboru XML s metadaty a textovými soubory 11. konference Archivy, knihovny, muzea v digitálním světě 2010
22
Nástroj pro optimalizaci OCR
CODEG 4 Komunikační nástroj pro vyřizování požadavku off line Zasílání požadavku externím uživatelem Získání výsledků Aplikace pro tvorbu rozšířených metadat server – klient pro práci on line 11. konference Archivy, knihovny, muzea v digitálním světě 2010
23
Nástroj pro optimalizaci OCR
Postup on line zpracování v nástroji CODEG 4: Export dokumentů v obrazové podobě do nástroje CODEG 4 Označení dokumentu určeného ke zpracování Vytvoření dávek Rozpoznání zón, přiřazení bibliografických metadat a atributů (tematická skupina, časová vrstva) Editace rozpoznaných zón u prvních (nebo typických) stránek, určování typů a podtypů zón Editace – opravy textů Vytvoření a export XML s rozšířenými metadaty a soubory ve formátu ALTO XML 11. konference Archivy, knihovny, muzea v digitálním světě 2010
32
Nástroj pro optimalizaci OCR
Postup zpracování v nástroji CODEG 4: Zpracované dokumenty se uloží do slovní báze Provede se deduplikace slovních tvarů a uložení nových do báze (správce databáze) Všechny uložené slovní tvary mají asociované bibliografické informace a atributy tematické skupiny a časové vrstvy Zbývá přizpůsobit export dat novým standardům 11. konference Archivy, knihovny, muzea v digitálním světě 2010
33
Nástroj pro optimalizaci OCR
CODEG 4 může tvořit integrální součást digitalizačního wokflow (např. systému Sirius), nebo být využíván externímu uživateli on line, prostřednictvím klienta, nebo off line prostřednictvím komunikačního modulu 11. konference Archivy, knihovny, muzea v digitálním světě 2010
34
Nástroj pro optimalizaci OCR
Aktivity realizované v projektu Optimalizace nástrojů …. se do značné míry kryjí s aktivitami vyvíjenými evropskými knihovnami, jazykovými ústavy a firmami IBM a ABBYY v rámci projektu IMPACT Podobný nástroj pod názvem CONCERT vyvíjí firma IBM v Izraeli. Vzhledem k našim výsledkům jsme byli v rámci projektu IMPACT pověřeni testováním nástroje CONCERT a porovnáním s nástrojem CODEG 4 Vývoj dalších jazykových nástrojů je plánován v rámci podaného projektu NAKI (NK ČR, EE, Ústav českého národního korpusu FFUK) 11. konference Archivy, knihovny, muzea v digitálním světě 2010
35
Děkuji za pozornost Jiri.Polisensky@nkp.cz
11. konference Archivy, knihovny, muzea v digitálním světě 2010
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.