Digitalizace a dlouhodobá ochrana digitálních dokumentů Pavla Švástová, Přemysl Bar Moravská zemská knihovna 23.11.2011
Obsah Digitalizace, digitální dokument Digitalizační workflow Formáty dat a metadat, identifikátory Problematika dlouhodobého uchování digitálních dokumentů
Digitalizace převod fyzického dokumentu do digitální podoby jedna z metod ochrany knihovního fondu cesta ke zpřístupnění kulturního dědictví široké veřejnosti projekty v ČR VISK6 Manuscriptorium a VISK7 Kramerius Národní digitální knihovna, Norské fondy Europeana Travel, GoogleBooks WebArchiv Digitalizace
http://www.manuscriptorium.com
http://kramerius.nkp.cz
http://kramerius4.mzk.cz
http://www.europeana.eu
http://books.google.com/books
Vlastnosti digitálního dokumentu čím se liší od fyzického dokumentu? obsahové vlastnosti jsou stejné! formální vlastnosti se liší! digitální forma uložení – bit stream nezávislost na nosiči pro jeho zpracování a zobrazení potřebujeme počítač lze donekonečna kopírovat beze změny kvality (vznikají další originály) nové vlastnosti? lepší prohledávání, možnosti popisu...
Co vzít v potaz, než začnu digitalizovat? co chci digitalizovat? knihy, periodika, diplomové práce, grafiky, mapy, 3D objekty, obrazy, zvuk, video proč chci digitalizovat? archivace a zpřístupnění poškozených nebo vzácných dokumentů, nedostupných nebo hodně využívaných dokumentů... jak chci digitalizovat? náklady na digitalizaci, výrobu metadat, archivaci, nákup HW a SW
Co vzít v potaz, než začnu digitalizovat? neustálý vývoj hardware počítat s novými typy zařízení (e-readery, SmartPhone, tablety apod.) ceny jdou dolů neustálý vývoj software používat pouze rozšířené a standardizované formáty dat a metadat hlídat zastarávájící data ?
Digitalizační workflow
Digitalizační workflow proces výroby digitálního dokumentu, jeho zpracování, archivace a zpřístupnění příprava dokumentů skenování úprava obrazu výroba metadat a OCR archivace zpřístupnění
Příprava dokumentů před skenováním vyhledání nejkvalitnější předlohy kompletace dokumentu (periodika) katalogizace a přidělení identifikátorů restaurování poškozených dokumentů analýza stavu dokumentu, vybrání vhodné techniky skenování příprava pracoviště (optimální a rovnoměrné nasvícení)
Skenování aneb jak vyrobit obrázky? černobílé? škála šedi? barva? rozlišení (300-600 DPI) velikost obrázku (MB) (stránka monografie A5 x nejkvalitněji naskenovaná mapa) v jakém formátu uložit dokument? které formáty se hodí pro dlouhodobou ochranu? (tiff, jp2, jpg, djvu) kompletnost dokumentu (kontrola kvality) systém ukládání (adresářová struktura)
Zpracování obrazu ořez narovnání barevná škála a kalibrace výroba náhledů z originálního obrázku konverze do různých formátů (z tiff do jp2)
Výroba OCR optical character recognition převod obrazového textu do počítačem čitelné podoby FineReader kvalita OCR opravy OCR? kolaborativni opravy (Národní australská knihovna), http://trove.nla.gov.au/newspaper projekt IMPACT, http://www.impact-project.eu/
Jak obrázky popsat aneb výroba metadat identifikátory čísla z knihovního katalogu = provázání s fyzickou jednotkou (systémové číslo, signatura, čárový kód, čČNB, evidenční číslo) identifikace celého dokumentu, ročníku novin, kapitoly knihy, každé stránky metadata data, která uchovávájí informace o vzniku dokumentu, o jeho vlastnostech, struktuře atd.
Metadata I. deskriptivní (=popisná) strukturální obdobná těm z knihovního katalogu (autor, název...) jediné popisují obsah dokumentu MODS, DC, MARCXML strukturální jak je dokument poskládán? jak jdou stránky po sobě? jaká jsou jejich fyzická a logická čísla? periodikum-ročník-číslo-článek provázání různých kvalit téhož obrázku METS, FOXML
Metadata II. technická administrativní jaká je kvalita a velikost obrázků na jakém přístroji byly obrázky vyrobeny? kdy byly snímky pořízeny formát obrázků MIX, ALTO administrativní kdo je vlastníkem dokumentu? komu je možné dokument zpřístupnit a za jakých podmínek? zaznamenán životní cyklus dokumentu PREMIS
Zpřístupnění digitálních dokumentů vystavení dokumentů online v digitální knihovně ke čtení ke stažení (e-books) uložení na digitální nosič myslet na autorský zákon! uživatelská přívětivost prostředí dáváme dokumentům přidanou hodnotu
Archivace digitálních dokumentů archivuje se nejlepší kvalita obrázku a veškerá příslušející metadata uložení na disky (operativnější a rychlejší) nebo na pásky (pomalejší, ale bezpečnější) zálohování! kontrola přístupů LTP systémy
Dlouhodobá ochrana digitálních dat 5 let? 100 let? trvale? účel – dokdy má dokument význam pro uživatele počítat s neustálým vývojem software a hardware sledovat formáty dat a metadat dodržovat kompatibilitu neustálé sledování trendů a vývoje informačních technologií a plánování; mít vizi X správně reagovat na tento vývoj
Dlouhodobá ochrana digitálních dat co chráníme? informaci, vložené finance, kulturní dědictví... ochrana bit streamu X ochrana logiky dokumentu proč? srozumitelnost použitelnost vyhledatelnost dostupnost v budoucnu jak? potřebujeme plán! vše evidovat, ukládat kontrolní součty apod. dodržovat standardy, OAIS
Dlouhodobá ochrana digitálních dat identifikace (co to je za formát?) a validace (opravdu je to ten formát) – jsou všechny soubory standardní? kontrolní součty (při přesunech a kopírování) kapacita – máme místo na discích na archivní data, data pro zpřístupnění a jejich zálohy? standardy, standardy, standardy! odhad risků – které formáty souborů zastarávají a jak je transformovat? zobrazení – jak zobrazím, otevřu soubor v určitém formátu
Dlohodobá ochrana digitálních dat LTP systémy – softwarová ochrana bezpečná úložiště – hardwarová ochrana open source nástroje: RODA, ARCHIVEMATICA, AIDA, MOPSEUS komerční řešení Rosseta (ExLibris), SDB (Tessela),...
Děkujeme za pozornost Pavla Švástová svastovap@mzk Děkujeme za pozornost Pavla Švástová svastovap@mzk.cz Přemysl Bar bar@mzk.cz