Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR
Projekt WebArchiv (*2000) Hlavní řešitelé: Národní knihovna ČR Moravská zemská knihovna v Brně Externí spolupráce: Ústav výpočetní techniky Masarykovy univerzity v Brně Cíle: Cíle: registrace dlouhodobá archivace zpřístupnění „domácích“ online zdrojů
A rchivace webu – důvody? celosvětový trend enormní nárůst elektronických zdrojů 90 % dokumentů existuje pouze v elektronické podobě prchavost elektronických zdrojů průměrná životnost dokumentu na webu je cca 44 dní cenné dokumenty mohou být nenávratně ztraceny informační hodnota různá, dokonalejší možnosti vyjádření oproti tradičním dokumentům zachování národního kulturního dědictví národní knihovny
není možné archivovat veškerý online obsah technické důvody ekonomické důvody (vč. ceny dlouhodobého uchovávání a zpřístupňování) zaměření archivující instituce legislativní rámec hledání optimálního řešení omezení rozsahu podle účelu archivu (rozdělení rolí) dlouhodobá ekonomická udržitelnost A rchivace webu – názory
Hlavní přístupy v tvorbě digitálního archivu Kompletní archiv Kompletní archiv (harvesting) Výběrový archiv Výběrový archiv Tematický archiv (volby, 11. září 2001, povodně) Kombinace Kombinace (harvesting+selektivní výběr)
WebArchiv - čísla Kompletní archiv Kompletní archiv Heritrix - spuštěna další sklizeň domény.cz zatím sklizeno 1,7 TB dat 55 mil. stažených souborů z 64,5 mil. URL Výběrový archiv Výběrový archiv legislativní omezení volně dostupné online zdroje 35 smluv s vydavateli sklizeň 4x ročně
Zpřístupnění archivu data uložena na diskovém poli - celkem 1 TB v komprimovaném tvaru data uložena na diskovém poli - celkem 1 TB v komprimovaném tvaru současná kapacita diskového pole 2,6 TB předpokládané rozšíření až na 5,2TB budoucnost - Centrální velkokapacitní úložiště (plánováno v rámci Koncepce knihoven ) testování nástrojů pro zpřístupnění testování nástrojů pro zpřístupnění NWA Toolset volné zpřístupnění - jen pokud je uzavřena smlouva s vydavatelem volné zpřístupnění - jen pokud je uzavřena smlouva s vydavatelem
Knihovny, archivy, muzea, galerie… Role paměťových institucí Knihovny, archivy, muzea, galerie… zájem trvale uchovat kulturní a informační dědictví společné problémy dlouhodobé uchování dat, migrace na nová média, konverze formátů vzájemná spolupráce rozdělení rolí, spolupráce při standardizaci postupů…
Doména.cz - relativní četnost souborů v archivu podle typů
Doména.cz - zastoupení hlavních typů souborů v archivu podle objemu dat
Vaše otázky? Markéta Škodová Národní knihovna ČR Klementinum Praha 1 Tel: