Digitalizace knihovních dokumentů Jiří Polišenský
Obsah prezentace Základní prvky digitalizace Formáty a standardy Skenery Digitalizační work flow Systémy pro prezentaci a evidenci digitalizovaných dokumentů Projekt Národní digitální knihovna
Základní prvky digitalizace Digitální objekty + metadata Digitální objekty Obrazové soubory Zvuk Video atd.
Funkce digitálních objektů Archival master – archivní soubor Modified master – modifikovaný soubor User copy – uživatelská kopie
Obrazové soubory Základní bitmapa získaná skenováním Různé způsoby komprese podle použitých obrazových formátů Ztrátová a bezztrátová komprese Vlastnosti obrazových souborů –Obrazový formát –Rozlišovací schopnost v dpi –Černobílé zobrazení, šedá škála, barva –Velikost v bytech
Formáty obrazových souborů TIFF neztrátový JPEG ztrátový JP2 neztrátový PNG neztrátový DjVu ztrátový PDF
Metadata Popisná metadata Strukturální metadata Administrativní a technická metadata
Standardy Popisná metadata –V současné době NK používá národní standard založený na UNIMARCu a DTD pro periodika a monografie, XML –Další používané standardy: Dublin Core MARC XML MODS Administrativní a technická metadata –PREMIS, MIX
Příprava dokumentů pro digitalizaci Selekce dokumentů – stanovit selekční kriteria Kontrola stavu zpracování v elektronickém katalogu Čárový kód Fyzický stav Přílohy – volné, rozkládací apod. Jazyk a písmo (OCR)
Skenery Skenery pro různé typy dokumentů: Knižní skenery –Manuální –Robotické –Kombinované –Hybridní kamery Skenery pro jiné typy dokumentů –Průběžné –Bubnové –Mikrofilmové –Atd.
Vlastnosti skenovacích zařízení Maximální velikost předlohy Způsob uložení knihy (bookcradle) Maximální dpi v celé ploše Rychlost skenování Přenos souborů
Zpracování obrazových souborů Separace jednotlivých stránek dokumentu Narovnání –Manuální –Poloautomatické Ořez –Uvnitř stránky dokumentu –Vně stránky dokumentu Zlepšení kvality –Potlačení pozadí (průtisků) –Odstranění šumu
OCR Optical Character Recognition –Antikva –Fraktura německá –Fraktura česká Formáty –TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML Příčiny nízké úspěšnosti rozpoznávání –Nízká kvalita předlohy –Chyby v nastavení skenovacích parametrů (např. nízké dpi) –Zastaralý typ písma –Starší podoba jazyka
Struktura dokumentu Jednostránkové soubory / dvoustránkové / vícestránkové Jendosvazkové /vícesvazkové dokumenty Seriály a nepravá periodika Pravá periodika Noviny
Struktura dokumentu Složité struktury, např. noviny –Titul –Ročník metadata –Výtisk –Strana –Reprezentace stranydigitální objekt
Struktura dokumentu Struktura pro zpřístupnění archivaci: PSP, SIP –Popisná metadata – xml –Složka JP2 – Modified master (neztrátová komprese) –Složka JP2 – User copy (ztrátová komprese) –Složka METS ALTO
Kontrola kvality Kontrola kvality obrazových souborů –DPI, stupně šedé barvy, věrnost barevného podání podle obrazce, atd. Kontrola úspěšnosti OCR –Na písmena (vícenásobné selhání u stejného písmene) –Na slova Validace XML Konsistence struktury dokumentu
Nástroje pro digitalizaci Skenery Programové nástroje pro zpracování obrazu OCR Nástroje pro vytvoření struktury dokumentu Nástroje pro tvorbu metadat (XML editor) Kompletní work flow (DocWorks, Sirius, Goobi, atd.)
Automatizace procesu digitalizace Tvorba popisných metadat konverzí záznamu z elektronického katalogu Generování administrativních a technických metadat v průběhu digitalizace nebo archivace Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)
Prezentace digitalizovaných dokumentů Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): Vyhledávání dokumentů podle metadat a fulltextu Jednotná informační brána Federované katalogy Europeana, TEL
Evidence digitalizovaných dokumentů Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitá pro: –Eliminaci duplicitních neekonomických činností –Zjišťování informací o digitalizovaných dokumentech –
Národní program Kramerius VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentů ohroženýchz degradací kyselého papíru Podporuje MK ČR – hradí 70% nákladů Otevřený všem veřejným knihovnám registrovaným MK ČR Výzva k podávání projektů listopad 2010, uzávěrka leden 2011 Informace na webu NK ČR
Projekt Národní digitální knihovna Integrovaný operační program, Smart administration Trvání 2010 – 2014 Udržitelnost 2015 – 2019 Celkem digitalizace 26 mil. stran V rámci projektu budou vybudována dvě pracoviště digitalizace NK ČR a MZK Využití robotických skenerů Nové standardy a formáty (konverze a migrace dat)
Děkuji za pozornost