Možnosti technického řešení Petr Žabička Moravská zemská knihovna v Brně zabak@mzk.cz
Upozornění Dále uvedené informace jsou jen orientační. V případě realizace projektu bude muset proběhnout řada výběrových řízení, z nichž vzejde konkrétní řešení.
NDK - výzvy Zpřístupnění – standardy, copyright Koordinace – omezení duplicitní digitalizace (v rámci projektu i mimo jeho rámec) identifikátory!! Workflow – nutnost eliminace úzkých míst při masové digitalizaci (tvorba metadat) Uložení dat – redundance/spolehlivost, nástroje pro správu, migraci,...
Standardy METS – kontejner pro další typy metadat OAI-PMH OAI-ORE Popisná MARC21/MARCXML Administrativní Strukturální OAI-PMH Protokol pro stahování metadat (využití poskytovateli dalších služeb) OAI-ORE Standard řešící popis strukturovaných objektů v repozitářích Přechod na jpeg2000 pro uložení obrazových dat…?
Jpeg2000 přechod na jpeg2000 pro uložení obrazových dat (?) bezeztrátová vs. ztrátová komprese potřeba volby vhodného profilu úspora úložného prostoru lepší poměr velikost/kvalita než u jpg pro zpřístupnění nutno zprovoznit image server poskytuje ”dlaždice” v různém zvětšení ve formátu jpg image server musí mít přístup ke zdrojovému jpeg2000 na úrovni filesystému
Požadavky na identifikátory Perzistentnost Jednoznačnost Zodpovědnost instituce za udržení identifikátorů Standardy NK – Kramerius: UUID Připravuje se: NBN - zdrojem SK ČR? i kontroverzní rozhodnutí je lepší než žádné rozhodnutí
Digitalizační pracoviště Jedno pracoviště v NK, jedno v MZK V NK 8 robotických scannerů 4x 4DigitalBooks 4x Treventus Ruční knižní scannery A2 Digitalizace velkých celků národního konzervačního fondu V MZK 4 robotické scannery 2x 4DigitalBooks 2x Treventus Ruční knižní scannery A0/A1 Zařazení digitalizace do linky zpracování Digitalizace vybraných dokumentů (celky podle roku vydání - koordinace s NK, moravika, doplněk k NKF, speciální dokumenty, velké formáty)
Masová digitalizace Robotické scannery Vysokorychlostní scannery 4DigitalBooks (A2!) Treventus Qidenus Kirtas Vysokorychlostní scannery Microform Canon ... Knižní scannery Proserv (hybridní) Zeutschel BookEye Minolta …
4DigitalBooks Pro dokumenty max. formátu A2 Nutnost rozevření dokumentu do roviny Přítlak zespodu na sklo Vyšší cena (cca 7 mil. Kč) Velká hmotnost a rozměry
Treventus Unikátní konstrukce skenovacího mechanismu Svislý pohyb Skenované listy drženy podtlakem Skenují se obě strany zároveň Obálku a přídeští je nutné skenovat na ručním skeneru zvlášť
Qidenus Snímání dvojicí digitálních fotoaparátů Obracení stránek mechanickým systémem Možnost zakoupit jen mechanismus otáčení stran jako přídavné zařízení k ručnímu knižnímu skeneru (Zeutschel apod.) Určité riziko poškození knihy
Kirtas Snímání jedním nebo dvěma digitálními fotoaparáty Obracení stran mechanickým ramenem s využitím podtlaku Nasazeno zejména v USA, ale např. i BL
Vysokorychlostní skenery Např. Microform Pouze volné listy Digitalizace v Národní knihovně Norska Destruktivní metoda – v případě že má NK alespoň 3 kopie Jinak manuální skenování Digitalizace skript v STK Nevhodné pro fondy NK, MZK (?)
Knižní scannery Více výrobců Rozdíly ve způsobu přítlaku na sklo (vyklápění, svislý přítlak, beze skla) Rozdíly v úhlu osvětlení a orientaci snímací hlavy Různá výška snímacího prvku Možnost hybridního snímání (mikrofilm+sken) U velkých formátů starší konstrukce (ProServ) možné problémy na rozhraní snímacích prvků Velké formáty - důraz na přesnost (METIS)
Procesy Při masové digitalizaci stoupá riziko neodhalené ztráty dat Tvorba metadat je neopomenutelnou součástí procesu digitalizace Zkušenosti NK – digitalizace bohemikálních monografií 19. století - úzké hrdlo je retrokonverze Vlastní digitalizace je pracovně nejméně náročnou částí procesu Obtíže při implementaci: Oxford: model OAIS by způsoboval v pracovním procesu úzká hrdla ExLibris: normotvůrci často nezohledňují praktické problémy při implementaci standardů
Workflow Koordinace prostřednictvím Aleph Cluster a RD CZ Analogické toky dokumentů na obou pracovištích bibliografický záznam -> digitalizace -> metadata využití komerčních nebo open source nástrojů snaha o minimum ruční práce, maximální automatizaci workflow, vysoký výkon Ochrana digitalizovaných dokumentů (omezení výpůjček, restaurování, ochranné obaly)
Požadavky na SW pro workflow vazba na existující systémy (Aleph, RD.CZ) nezávislý na jednom modelu/výrobci HW (zejm. scannerů) stejný na obou pracovištích minimalizace lidské práce, maximální automatizace procesů automatické OCR, zónování (ALTO) tvorba požadovaných metadat sledování toku dokumentů linkou rozhodnutí zda výpočetní výkon centralizovat na serverové farmy nebo na velký počet PC
Potenciální dodavatelé SW pro workflow 4DigitalBooks každý pracovník obsluhuje 2-3 počítače CCS centrální serverová farma využívá se levná práce Rumunů Treventus připravuje se Goobi open source systém
Ochrana dat Hardware: 2 geograficky oddělené lokality (Praha - Brno, nejlépe s možností rozšíření na více než 2) Propojení prostřednictvím akademické sítě (stávající optické spoje, ale nasvícení vláken n*10Gbps) Disková pole nebo alternativa (Honeycomb, datagridy, ZFS apod.), zálohování na páskové roboty Servery pro provoz SW pro zpracování (např. OCR, konverze dat), ochranu a zpřístupnění Ideálně využití různých technologií v jednotlivých lokalitách
Ochrana dat Software: Systém pro ochranu a uchování digitálních dokumentů (velmi vysoká pořizovací cena i provozní náklady) Rosetta (Ex Libris) - velmi nový produkt DIAS (IBM) - velmi starý produkt …? Podpora modelu OAIS (implementační odchylky) Model OAIS neřeší vhodně online zpřístupnění Otázka (ne)závislosti na HW konkrétního výrobce
Ochrana dat Infrastruktura: Motorgenerátory doplněné UPS – provoz několik hodin Chlazení napojené na motorgenerátor Opatření proti zaplavení EPS a samozhášecí systém (inertní plyn nebo snížení obsahu kyslíku ve vzduchu) Zabezpečovací systémy (EZS) Ochrana před průnikem z Internetu (firewally apod.)
Zpřístupnění Možnosti zpřístupnění Podpora otevřených protokolů digitální obrazy nejlépe přímo prostřednictvím systému pro archivaci digitálních dat metadata a textová data využita v jiných systémech Aleph – vazba na SK Kramerius – možnosti replikací, volné zpřístupnění dokumentů starších 100? let Primo, Aquabrowser, analogické open source nástroje…? Podpora otevřených protokolů OAI-PMH -> Europeana… SRU/SRW nebo Z39.50 <-> JIB XML API – obohacování libovolných webových stránek další relevantní protokoly – vazba na systémy státní správy apod.
Obohacování katalogů Další využití částí naskenovaných dokumentů Obrázek obálky / titulní list Obsah dokumentu / rejstříky Při integraci digitalizační linky do procesu zpracování odpadne nutnost samostatného skenování Zůstává intelektuální rozhodnutí katalogizátora, zda pro daný dokument daný prvek samostatně zpřístupňovat (zejm. obsahy)
Projekt EOD Zapojení MZK (+ VKOL + NTK) Pouze pro volná díla Pouze pro celé svazky Nabízí službu print on demand Využití digitalizační linky - v EOD objednané knihy mají přednost (priorizace objednávaných knih) Návaznost - projekt ARROW
Další nástroje Image server IIPimage (nově podpora zoomify a JPEG2000) Integrace image serveru do Krameria - možnost opuštění formátu djvu a přechodu na jpeg2000 jako jediný formát dodatečné doplňování (geo)metadat, zpřesňování OCR (využití komunity)
Děkuji za pozornost! Petr Žabička <zabak@mzk.cz> Moravská zemská knihovna v Brně www.mzk.cz