Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Nové nástroje pro digitalizaci knihovních dokumentů Jiří Polišenský.

Podobné prezentace


Prezentace na téma: "Nové nástroje pro digitalizaci knihovních dokumentů Jiří Polišenský."— Transkript prezentace:

1 Nové nástroje pro digitalizaci knihovních dokumentů Jiří Polišenský

2 Obsah Výzkumný záměr: Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů – Nástroj pro automatizovanou kontrolu kvality obrazových souborů Programový projekt: Optimalizace nástrojů pro digitalizaci knihovních dokumentů ohrožených degradací kyselého papíru – Nástroj pro optimalizaci OCR s využitím znalostních bází starších vrstev českého jazyka CODEG konference Archivy, knihovny, muzea v digitálním světě 2010

3 Proč se zabývat optimalizací procesu digitalizace? 11. konference Archivy, knihovny, muzea v digitálním světě 2010

4 Proč se zabývat optimalizací procesu digitalizace Kvalita obrazových souborů přímo ovlivňuje výsledek OCR a tím i možnosti zpřístupnění dokumentů pomocí vyhledávání Výsledek OCR ovlivňují negativně tři faktory: – Stupeň degradace dokumentu – Chyby v nastavení parametrů skenování – Konstrukční vlastnosti skenovacího zařízení Nástroj pro automatizovanou kontrolu kvality obrazových souborů by měl pomoci eliminovat chyby v nastavení a zjistit některé limity skenovacích zařízení 11. konference Archivy, knihovny, muzea v digitálním světě 2010

5 Aktivity v l V r byla stanovena základní východiska pro hodnocení kvality mikrofilmů a digitálních obrazových souborů Současně byly definovány tři úrovně testů hodnocení kvality: – A. informační testy – B. základní analytické testy – C. poloautomatizované testy Byla zpracována základní metodika vyhodnocování kvality pro mikrofilmy a přímou digitalizaci 11. konference Archivy, knihovny, muzea v digitálním světě 2010

6 Aktivity v l V r byl zpracován návrh kalibrační tabulky Byl vytvořen prototyp SW nástroje pro automatizovanou analýzu kvality obrazových souborů 11. konference Archivy, knihovny, muzea v digitálním světě 2010

7 Kalibrační tabulka Součástí řešení projektu v r byla výroba kalibrační tabulky, umožňující vyhodnocení základních parametrů Výroba kalibračních tabulek je velmi složitá a tím nákladná, proto bylo třeba omezit počet diagnostických prvků na minimum Kalibrační tabulka umožňuje praktickými využitelnými metodami dosáhnout stability skenovacího procesu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

8 Kalibrační tabulka Tabulka umožňuje analyzovat následující parametry: – Stanovení úrovně bílé a černé plochy – Nehomogenitu osvětlení plochy – Maximální bílá a minimální černá – Linearitu přenosu šedé stupnice – Úroveň šedé v absolutních hodnotách jasu D – Stanovení skutečně použitého (reálného) DPI – Komplexní obrazovou ostrost – Rozlišovací schopnost ve 4 bodech (rozích) plochy – Středovou rozlišovací schopnost horizontální a vertikální – Barevný mix pro stanovení gamutu skeneru – Gradační stupnice RGBK pro barevné tisky – Barevný mix pro degradovaný papír – Stanovení přenosové charakteristiky kontrastu MTF 11. konference Archivy, knihovny, muzea v digitálním světě 2010

9

10 Aplikace pro kontrolu kvality Aplikace umožňuje automatizovaným způsobem vyhodnocovat parametry kvality Podkladem pro hodnocení je snímek kalibrační tabulky na daném skeneru Po vyhodnocení snímku aplikace zobrazí výsledky na hlavní obrazovce Výsledky měření kvality je možné archivovat ve formátu xls 11. konference Archivy, knihovny, muzea v digitálním světě 2010

11 Aplikace pro kontrolu kvality Hlavní obrazovka obsahuje identifikační pole kam se zadávají údaje buď manuálně nebo prostřednictvím čárového kódu a přihlášení operátora na PC (název testu, číslo testu, testovací obrazec, datum a čas, jméno operátora a název a typ zařízení, na kterém byl pořízen obrázek kalibrační tabulky) Na levé části obrazovky je souhrnné vyhodnocení parametrů kvality, zmenšený obrázek kalibrační tabulky a celkové hodnocení (vyhověl/nevyhověl) V pravé části obrazovky jsou uvedeny hodnoty pro jednotlivé parametry v podobě tabulky a grafu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

12

13

14 Aplikace pro kontrolu kvality Výsledky testů je možné archivovat v podobě tabulky Aplikaci bude možné použít samostatně, nebo integrovanou do příslušného SW pro digitalizaci dokumentů Aplikaci bude možné využívat lokálně, nebo jako webovou službu Pro vytvoření aplikace byly použity algoritmy f. EE, proto bude třeba zakoupit licenci. V rámci projektu byla provedena integrace, vyvinuto aplikační rozhraní a navržena a vyrobena kalibrační tabulka 11. konference Archivy, knihovny, muzea v digitálním světě 2010

15 Nástroj pro optimalizaci OCR Nástroj byl vyvinut v rámci řešení programového projektu Optimalizace nástrojů pro digitalizaci dokumentů ohrožených degradací kyselého papíru Vývoj nástroje probíhal ve třech hlavních etapách v letech 2007 až konference Archivy, knihovny, muzea v digitálním světě 2010

16 Nástroj pro optimalizaci OCR Cíle projektu: – vyvinout SW nástroje pro tvorbu znalostních bází českého jazyka specializovaných podle časového období a tematické skupiny – využít znalostní báze pro zlepšení výsledků OCR – Vytvořit nástroj pro automatizovanou tvorbu rozšířených metadat (popis dílčích částí dokumentů - názvy článků, kapitol, atd.) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

17 Nástroj pro optimalizaci OCR 1.etapa řešení – Definování 5 časových vrstev českého jazyka podle společných charakteristik – Určení 12 tematických slupin – Vývoj nástrojů pro tvorbu lokálních bází (BookSave, BookStore a WordBase) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

18 Nástroj pro optimalizaci OCR 2. etapa řešení – Plnění znalostních bází – Optimalizace nástrojů BookSave, BookStore a WordBase – Vývoj aplikace CODEG (nástroj pro vytváření rozšířených metadat) – Vyhodnocení efektivity zvoleného řešení 11. konference Archivy, knihovny, muzea v digitálním světě 2010

19 Nástroj pro optimalizaci OCR 3. etapa řešení – Plnění znalostních bází – Integrace nástrojů pro tvorbu lokálních bází a nástroje CODEG – Implementace formátu ALTO XML do nástroje CODEG konference Archivy, knihovny, muzea v digitálním světě 2010

20 Nástroj pro optimalizaci OCR Postup zpracování: Skenování dokumentů vybraných podle časové vrstvy a tematického zaměření Rozpoznání a opravy textů v nástroji FineReader Zpracování textu v nástroji BookSave (rozdělení na slova, přiřazení atributů, uložení do báze WordBase) Čištění báze: deduplikace, mazání nestandardních nebo neexistujících slovních tvarů, atd. Prostřednictvím nástroje BookStore probíhala kontrola a editace slovní báze 11. konference Archivy, knihovny, muzea v digitálním světě 2010

21 Nástroj pro optimalizaci OCR Postup zpracování v nástroji CODEG: Import obrazových souborů Vyhledání zón a označení jejich atributů (paginace, nadpis, autor, textová zóna, obrázek) Rozpoznání s využitím slovních bází Vytvoření souboru XML s metadaty a textovými soubory 11. konference Archivy, knihovny, muzea v digitálním světě 2010

22 Nástroj pro optimalizaci OCR CODEG 4 Komunikační nástroj pro vyřizování požadavku off line – Zasílání požadavku externím uživatelem – Získání výsledků Aplikace pro tvorbu rozšířených metadat server – klient pro práci on line 11. konference Archivy, knihovny, muzea v digitálním světě 2010

23 Nástroj pro optimalizaci OCR Postup on line zpracování v nástroji CODEG 4: Export dokumentů v obrazové podobě do nástroje CODEG 4 Označení dokumentu určeného ke zpracování Vytvoření dávek Rozpoznání zón, přiřazení bibliografických metadat a atributů (tematická skupina, časová vrstva) Editace rozpoznaných zón u prvních (nebo typických) stránek, určování typů a podtypů zón Editace – opravy textů Vytvoření a export XML s rozšířenými metadaty a soubory ve formátu ALTO XML 11. konference Archivy, knihovny, muzea v digitálním světě 2010

24

25

26

27

28

29

30

31

32 Nástroj pro optimalizaci OCR Postup zpracování v nástroji CODEG 4: Zpracované dokumenty se uloží do slovní báze Provede se deduplikace slovních tvarů a uložení nových do báze (správce databáze) Všechny uložené slovní tvary mají asociované bibliografické informace a atributy tematické skupiny a časové vrstvy Zbývá přizpůsobit export dat novým standardům 11. konference Archivy, knihovny, muzea v digitálním světě 2010

33 Nástroj pro optimalizaci OCR CODEG 4 může tvořit integrální součást digitalizačního wokflow (např. systému Sirius), nebo být využíván externímu uživateli on line, prostřednictvím klienta, nebo off line prostřednictvím komunikačního modulu 11. konference Archivy, knihovny, muzea v digitálním světě 2010

34 Nástroj pro optimalizaci OCR Aktivity realizované v projektu Optimalizace nástrojů …. se do značné míry kryjí s aktivitami vyvíjenými evropskými knihovnami, jazykovými ústavy a firmami IBM a ABBYY v rámci projektu IMPACT Podobný nástroj pod názvem CONCERT vyvíjí firma IBM v Izraeli. Vzhledem k našim výsledkům jsme byli v rámci projektu IMPACT pověřeni testováním nástroje CONCERT a porovnáním s nástrojem CODEG 4 Vývoj dalších jazykových nástrojů je plánován v rámci podaného projektu NAKI (NK ČR, EE, Ústav českého národního korpusu FFUK) 11. konference Archivy, knihovny, muzea v digitálním světě 2010

35 Děkuji za pozornost 11. konference Archivy, knihovny, muzea v digitálním světě 2010


Stáhnout ppt "Nové nástroje pro digitalizaci knihovních dokumentů Jiří Polišenský."

Podobné prezentace


Reklamy Google