Digitální zpřístupnění knihovních sbírek Adolf Knoll Národní knihovna České republiky
Digitalizační aktivity ► 1992/1993 – První pilotní projekt programu UNESCO Paměť světa ► 1995 – další pilotní projekty ► 1996 – počátek rutinní digitalizace ► 2000 – národní programy ► 2003/2004 – spuštění digitálních knihoven ► -> 2010 – vytvoření virtuálního badatelského prostředí pro historické dokumenty a sbírky
Standardizace ► Složený digitální dokument: Datová část Metadatová část ► Jak strukturovat? ► Komplexní dokumentový formát
Značkovací jazyky ► Platforma SGML je pro takový formát ideální ► Naše programy: Vlastní SGML implementace (DOBM) – 1996 – v r jako doporučení UNESCO XML platforma od r. 2003/2004 ► Namapování standardů pro popis obsahu, doporučených postupů a dalších řešení
Metadata
Metadata – co popsat ► Identifikace ► Obsah ► Struktura ► Technické parametry ► Komunikace ► Jak: naše konkrétní řešení jsou promítnuta do těchto strukturálních součástí ZPŘÍSTUPNĚNÍ PROSTŘEDNICTVÍM DEFINOVANÉ KOMPATIBILITY
Identifikační metadata ► Katalogizační a další identifikační pravidla ► MARC, Dublin Core, MASTER, …, v knihovnách ► EAD v archivech ► AMICO, CIDOC, REACH Element Set, …, v muzeích ► … in … ► ROLE: identifikovat virtuální reprezentaci originálu (ve vztahu k originálu)
Metadata pro popis obsahu ► Žádná pevná pravidla nejsou k dispozici – nebo jen částečně – většinou ověřené praktické postupy ► Musíme je vzít a formálně zabudovat do struktury dokumentu ► Většinou základní povinná úroveň je velmi jednoduchá, ale musí vyhovět nejčastějším uživatelským potřebám
Strukturální metadata ► Musí být namapována struktura celého dokumentu (se všemi nejčastějšími zvláštnostmi): Fyzické části Logické části, které chceme specifickým způsobem pojednat (články, kapitoly, vztažené objekty, …) ► Zde je často nesnadné stanovit povinné elementy
Technická metadata Existence vysoce profesionálních standardů vs. Naše pragmatické a skutečné potřeby ► Rigorózní standardy je třeba aplikovat tam, kde mohou dobře sloužit cílům projektu, ale tam, kde by byly jen cílem pro sebe sama, bychom měli mít odvahu se rozhodnout jinak ► ROLE: vyřešit současné a budoucí zobrazení, přehrání nebo tisk správně a na nezbytné kvalitativní úrovni
Komunikační metadata ► Zajišťují integraci do širšího virtuálního prostředí ► Komunikace mezi aplikacemi digitální knihovny a vyhledávacími portály ► Standardizované protokoly: Z39.50, OAI- PMH, … ► Je třeba si odsouhlasit profily, tj. minimální identifikační záznamy
Digital Library Applications Manuscriptorium Kramerius KATALOGY (Souborný katalog ČR bude mít funkci souborného katalogu digitálního obsahu) PORTÁLY TEL ( JIB ( CERL-MSS (
Metadata: jak popsat ► Cílem je strukturovaný formát definovaný formálně jako DTD nebo W3C Schéma ► Mnoho z výše uvedených skutečností závisí na našem výběru/rozhodnutí ► Naše formáty pro digitalizované dokumenty: rukopisy, periodika, monografie, zvukové dokumenty, sbírkové předměty, komunikační profily, historický fultext
Budoucí vývoj ► XML platforma se zdá zatím dostatečně robustní ► Nové přístupy a dílčí platformy se budou objevovat – například METS (strukturovaná kontejnerizace) ► Jestliže jsou naše analýzy správné, budou starší a novější základně mezi sebou kompatibilní ► Změny stojí peníze: nástroje na výrobu digitálních dokumentů, na jejich zpřístupnění, na…
Data
Data: co ukázat ► Datové soubory jsou cílem uživatelského zájmu (obrazy, fulltext, audio nebo video soubory) ► Originál je jimi přímo reprezentován ► Kvalita dat: Archivní soubory Uživatelské soubory ► Obě úrovně jsou primárně definovány cíli našich projektů
Archivní soubory ► Funkce ochrany a záchrany originálů ► Většinou ISO nebo velmi rozšířené standardy: TIFF, JPEG WAV MPEG Nekomprimované Komprimované ► bezeztrátově ► ztrátově
Uživatelské soubory ► Redukce objemu dat: Snížení rozlišení nebo toku dat (bit rate) Komprese Pouze obrazy (+ je třeba zvážit i snížení počtu barev): ► Mixed Raster Content ► Multiresolutional image ► Obrazové servery
Snížení rozlišení/toku dat ► Použití pouze známých formátů ► Definovat cíle a smysl dodávání dat ► Dodávat jen takové rozlišení, které je mírně vyšší než požadovaný limit (náhled, základní kvality, normální kvalita, …) ► Většinou oblast JPEG nebo TIFF/GIF (černobílý obraz); MP3 nebo WMA; WMV nebo MPEG4 na Internetu
Ztrátová komprese ► Tradiční schémata: DCT JPEG MPEG1, MPEG2 ► Nová schémata: JBIG pro černobílý obraz (zatím nerozšířeno) Wavelet schémata (JPEG 2000 a další formáty) MPEG4
Mixed Raster Content
Multiresolutional image ALL in ONE FILE
Obrazové servery Dynamické generování požadovaných částí obrazu resp. kvalitových hladin
Manuscriptorium Skutečnost Manuscriptorium ► souborný katalog vč. některých zahraničních institucí ► ca dokumentů, tj. cca stran vč. několika zahraničních ► obrazový Express Server na mapy ► Komunikace Z39.50 (MARC21), OAI-PMH (DC, MARC21, OpenM, MODS)
Manuscriptorium Záměry ► TEI strukturované texty (pilot nyní) ► CERL-MSS ► TEL ► Audio data ► Mezinárodní rozšíření – nástroje pro jeho podporu, výzva dalším institucím, mezinárodní workshop před Inforem ► Účast v mezinárodních projektech
Kramerius Současnost ► 1,5 milionu stran (dalších 0,5 milionu připraveno) ► 2 velké aplikace (NK, Akademie věd) ► Zabudováno v komerčních nástrojích firmy Elsys Engineering ► Wavelet a Mixed Raster Content technologie
Kramerius Současnost ► Zlepšení komunikace OAI-PMH (DC qualified) ► Dokončení provázanosti na Souborný katalog ČR (vzájemná propojenost) ► Další dokumenty: t.č. implementace DTD pro sbírkové předměty, návrh pro zvukové dokumenty
Digitální knihovny a zdroje ► ► ► Zdroje: (naše DTD)