Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Digitalizace knihovních dokumentů
Jiří Polišenský
2
Obsah prezentace Základní prvky digitalizace Formáty a standardy
Skenery Digitalizační work flow Systémy pro prezentaci a evidenci digitalizovaných dokumentů Projekt Národní digitální knihovna
3
Základní prvky digitalizace
Digitální objekty + metadata Digitální objekty Obrazové soubory Zvuk Video atd.
4
Funkce digitálních objektů
Archival master – archivní soubor Modified master – modifikovaný soubor User copy – uživatelská kopie
5
Obrazové soubory Základní bitmapa získaná skenováním
Různé způsoby komprese podle použitých obrazových formátů Ztrátová a bezztrátová komprese Vlastnosti obrazových souborů Obrazový formát Rozlišovací schopnost v dpi Černobílé zobrazení, šedá škála, barva Velikost v bytech
6
Formáty obrazových souborů
TIFF neztrátový JPEG ztrátový JP2 neztrátový PNG neztrátový DjVu ztrátový PDF
7
Metadata Popisná metadata Strukturální metadata
Administrativní a technická metadata
8
Standardy Popisná metadata Administrativní a technická metadata
V současné době NK používá národní standard založený na UNIMARCu a DTD pro periodika a monografie, XML Další používané standardy: Dublin Core MARC XML MODS Administrativní a technická metadata PREMIS, MIX
9
Příprava dokumentů pro digitalizaci
Selekce dokumentů – stanovit selekční kriteria Kontrola stavu zpracování v elektronickém katalogu Čárový kód Fyzický stav Přílohy – volné, rozkládací apod. Jazyk a písmo (OCR)
10
Skenery Skenery pro různé typy dokumentů: Knižní skenery
Manuální Robotické Kombinované Hybridní kamery Skenery pro jiné typy dokumentů Průběžné Bubnové Mikrofilmové Atd.
16
Vlastnosti skenovacích zařízení
Maximální velikost předlohy Způsob uložení knihy (bookcradle) Maximální dpi v celé ploše Rychlost skenování Přenos souborů
17
Zpracování obrazových souborů
Separace jednotlivých stránek dokumentu Narovnání Manuální Poloautomatické Ořez Uvnitř stránky dokumentu Vně stránky dokumentu Zlepšení kvality Potlačení pozadí (průtisků) Odstranění šumu
18
OCR Optical Character Recognition Formáty
Antikva Fraktura německá Fraktura česká Formáty TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML Příčiny nízké úspěšnosti rozpoznávání Nízká kvalita předlohy Chyby v nastavení skenovacích parametrů (např. nízké dpi) Zastaralý typ písma Starší podoba jazyka
19
Struktura dokumentu Jednostránkové soubory / dvoustránkové / vícestránkové Jendosvazkové /vícesvazkové dokumenty Seriály a nepravá periodika Pravá periodika Noviny
20
Struktura dokumentu Složité struktury, např. noviny Titul
Ročník metadata Výtisk Strana Reprezentace strany digitální objekt
21
Struktura dokumentu Struktura pro zpřístupnění archivaci: PSP, SIP
Popisná metadata – xml Složka JP2 – Modified master (neztrátová komprese) Složka JP2 – User copy (ztrátová komprese) Složka METS ALTO
22
Kontrola kvality Kontrola kvality obrazových souborů
DPI, stupně šedé barvy, věrnost barevného podání podle obrazce, atd. Kontrola úspěšnosti OCR Na písmena (vícenásobné selhání u stejného písmene) Na slova Validace XML Konsistence struktury dokumentu
23
Nástroje pro digitalizaci
Skenery Programové nástroje pro zpracování obrazu OCR Nástroje pro vytvoření struktury dokumentu Nástroje pro tvorbu metadat (XML editor) Kompletní work flow (DocWorks, Sirius, Goobi, atd.)
24
Automatizace procesu digitalizace
Tvorba popisných metadat konverzí záznamu z elektronického katalogu Generování administrativních a technických metadat v průběhu digitalizace nebo archivace Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)
25
Prezentace digitalizovaných dokumentů
Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): Vyhledávání dokumentů podle metadat a fulltextu Jednotná informační brána Federované katalogy Europeana, TEL
26
Evidence digitalizovaných dokumentů
Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitá pro: Eliminaci duplicitních neekonomických činností Zjišťování informací o digitalizovaných dokumentech
27
Národní program Kramerius
VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentů ohroženýchz degradací kyselého papíru Podporuje MK ČR – hradí 70% nákladů Otevřený všem veřejným knihovnám registrovaným MK ČR Výzva k podávání projektů listopad 2010, uzávěrka leden 2011 Informace na webu NK ČR
28
Projekt Národní digitální knihovna
Integrovaný operační program, Smart administration Trvání 2010 – 2014 Udržitelnost 2015 – 2019 Celkem digitalizace 26 mil. stran V rámci projektu budou vybudována dvě pracoviště digitalizace NK ČR a MZK Využití robotických skenerů Nové standardy a formáty (konverze a migrace dat)
31
Děkuji za pozornost
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.