Dlouhodobá ochrana digitálních dat a systém Archivematica Miroslav Bartošek ÚVT MU
Úvod
„Digital information is forever „Digital information is forever. It doesn’t deteriorate and requires little in the way of material media”. Andy Grove, Intel Corp. „Digital information lasts forever – or five years, whichever comes first.“ Jeff Rothenberg, RAND, 1995
Uchování informací Důležitý úkol (podmínka rozvoje) civilizace Knihovny (GLAM): dlouhodobě = mnoho staletí digitální technologie: inovační cyklus = cca 5 let (v průměru po 5 letech je daná technologie zastaralá ) The trouble with technological progress is that it seems to come at the expense of preservation (Ian H.Witten) Computer technology is made for information processing, not for long term storage (M. Wettengel)
Problém s digitální informací bity – OK nosič, formát, SW, HW – problém! Životnost Dostupnost Použitelnost
Nosiče informací - trendy Médium Kapacita (bits/cm2) Životnost (roky) kámen 10 10.000 papír 104 1.000 film 107 100 disk 1010 Zdroj: Richard Wright (http://dx.doi.org/10.7207/twr12-01) Analogové záznamy – postupná degradace Digitální záznamy – zmizí najednou
Domesday Book/Project 1086 Vilém Dobyvatel pozemková kniha (kniha posledního soudu) – výběr daní 1984-86 BBC projekt záznam života UK na dalších 1000 let, špičkové technologie LV-ROM 2002 data nedostupná technologická zastaralost 2000-4 záchranná mise projekty – emulace, konverze, … 2011 BBC Domesday Reloaded aktualizovaná webová verze
Digital preservation
Digital Preservation Digital preservation combines policies, strategies and actions that ensure access to digital content over time. (ALA – Short definition) Digital preservation combines policies, strategies and actions to ensure access to content that is born digital or converted to digital form regardless of the challenges of file corruption, media failure and technological change. The goal of digital preservation is the most accurate rendering possible of authenticated content over time. (ALA – Medium definition) http://www.ala.org/alcts/resources/preserv/2009def DP – Digital Preservation LTP – Long-Term (digital) Preservation
DP trojnožka Technologie HW, SW, sítě, technické dovednosti Organizace Mandát, strategie, plány ochrany, sbírkové plány, bezpečnost Zdroje Lidé a jejich kvalifikace, prostory, financování http://www.dpworkshop.org/dpm-eng/conclusion.html
Úrovně digitální ochrany Fyzická (bitová) ochrana – ochrana bitů Bitová replikace Vícenásobné kopie Různá média Rozdílné lokality Fixity – neměnnost, problém bit-rot Logická ochrana – ochrana informačního obsahu Ochrana před zastaráváním technologií a formátů Identifikace formátů, plánování, migrace formátů, emulace prostředí, … Použitelnost a srozumitelnost obsahu v budoucnosti Metadata, kontext, porozumění – OAIS Zachování integrity a autenticity
Standardy ISO 14721:2012 OAIS – Open Archival Information Systém referenční model pro dlouhodobý archiv Model prostředí (tvůrci, archiv, uživatelé, určená komunita, správa) Informační model (SIP, AIP, DIP, …) Funkční model (Ingest, Archival storage, Data Management, Preservation Planning, Administration, Access) 2014 český překlad ČSN ISO 14721 Skvělý přehled od Lavoie v rámci DPC Technology Watch Reports ISO 16363:2012 Audit a certifikace důvěryhodných digitálních repozitářů
Aktivity Obrovské množství projektů ve světě Velká komerční řešení Řada open-source nástrojů Systémy a best-practices V ČR Národní digitální knihovna (NK) – vlastní řešení Centralizovaný projekt MŠMT (spisová služba?) LTP-pilot (FR Cesnet 2014/09-2015/10) NAKI-LTP (návrh projektu 2016-2020) Ale pořád jsme teprve na začátku, systémové řešení není
Přístupy Velké projekty/systémy Nízkonákladové projekty Národní knihovny/archivy ve vyspělých zemích Velké drahá řešení (komerční nebo vývoj na zakázku) KB e-Depot (NK Holandska + IBM, DIAS) Archives New Zealand (ExLibris – Rosetta,Honza Hutař) Nízkonákladové projekty Nečekat, až s čím přijdou velcí hráči Začít se dá i v malém, postupné kroky Využít komunitní nástroje, řešení, zkušenosti POWRR – Preserving Digital Objects With Restricted Resources LTP-pilot NAKI-LTP
LTP-pilot Projekt FR CESNET (MU, MZK 2014/09-2015/10) Pilotní implementace a ověření nízkobariérového přístupu k LTP prostřednictvím systému Archivematica Prozkoumat možnosti, nároky a omezení systému Archivematika Propojení Archivematiky s úložnou infrastrukturou Cesnet Ověřit použitelnost systému Archivematica pro ukládání, správu a logickou dlouhodobou ochranu vybraných typů dokumentů a sbírek Vytvořit základní dokumentaci pro správce systému a kurátory digitálních dat
LTP-pilot 6 pracovních skupin Závěrečný LTP-workshop (spolu s NA ČR) Systém a vývoj Úložiště Uživatelské scénáře Kurátoři dat Standardy Publicita Závěrečný LTP-workshop (spolu s NA ČR) Satelitní akce konference Archivy, knihovny a muzea v digitálním světě 2015 (počátkem prosince)
Archivematica
Archivematica - vznik Open-source SW na podporu DP Artefactual Systems Inc., vývoj od 2008, v1.3.1 www.archivematica.org Spolupráce s UNESCO, archiv Vancouveru, MMF, univ, … ZIB Berlín, Finská NDL, NA ČR Impuls vzniku: Poptávka po nízkonákladovém řešení Dostupnost velké škály volných open-source nástrojů Propojit dostupná nástroje do „pragmatického“ řešení dle OAIS
Archivematica - rysy Propojená sada dostupných nástrojů pro realizací základních funkcí DP Neřeší vše – integrace s externími systémy používanými institucí a doplnění těchto systémů o DP funkcionalitu Příjem a zpracování dat (normalizace), vytvoření kvalitních AIP balíčků Best practices – formátově orientované ochranné postupy FPR – Format Policy Registr Kontrola a normalizace na vstupu, migrace a emulace později Technologie mikroslužeb Open-source nástroje Řetězení mikroslužeb do pracovních postupů – funkční entity OAIS Řídicí webová aplikace Dashboard Programovací jazyk Python, open-source produkt po licencí AGPL 3.0 Průběžný vývoj + uživateli sponzorované nové funkcionality + wish-list
OAIS a Archivematica Transfer příprava dat -> SIP Ingest zpracování -> AIP, DIP Archival Storage uložení AIP, DIP Data Mngmt AtoM, externí systém Preservation Planning FPR Administration Access AtoM, externí systém
Archivematica - architektura access DAM storage
Archivematica - standardy UUID identifikace všech interních objektů (soubory, procesy, paměťové lokace, aj.) BagIt zabalení informačních balíčků AIP, SIP (kontrolní součty – fixity) METS integrace všech metadatových popisů v rámci AIP Premis zachycení všech událostí a historie změn během vzniku a života AIP DC popisná metadata pro vyhledávání informačních balíčků
Archivematica - dashboard
NAKI-LTP ARCLib - komplexní řešení pro dlouhodobou archivaci digitálních (knihovních) sbírek Návrh projektu do NAKI II – KNAV, MU, MZK, NK + externisté Podáno 4.5.2015, rozhodnutí 2015/12, doba řešení 2016/3-2020 Hlavní řešitel: M.Lhoták Výstupy Komplexní SW řešení pro LTP (open-source) Certifikovaná metodika pro LTP Certifikovaná metodika pro fyzické ukládání dat a bit-level ochranu Cílem projektu je vytvoření komplexního LTP (Long Term Preservation) řešení ARCLib na bázi open source, které využije volně dostupné nástroje a systémy. Součástí projektu a jeho dalším významným výstupem je vytvoření metodiky na dlouhodobou logickou ochranu digitálních dat zohledňující mezinárodní standardy v této oblasti (referenční model OAIS – ČSN ISO 14721 a ČSN ISO 16363) a systémy využívané pro vytváření a zpřístupňování digitálních dat v českých knihovnách. Současně bude připravena metodika a řešení pro fyzické ukládání dat a zajištění bit-level ochrany. Funkčnost celého řešení bude ověřena v praxi formou poloprovozu minimálně v jedné ze zapojených institucí.
Děkuji za pozornost. Dotazy?