Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR ISSS 2003
Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) Zadavatel projektu: Ministerstvo kultury ČR Nositel projektu: Národní knihovna ČR Spolupráce na řešení: ÚVT MU, Brno
Vzdáleně přístupné elektronické zdroje nedílná součást národní kulturní produkce => národní kulturní dědictví obrovské množství dokumentů různé kvality nehmotné dokumenty dynamické povahy – nestálé
Zajištění trvalého/dlouhodobého přístupu Tradiční role depozitních knihoven a archivů Ale: výhodná je archivace na národní úrovni Problémy: trvanlivost a morální zastarávání médií morální zastarávání formátů souborů Řešení: migrace na nová média emulace nebo konverze
Další aspekty knihovnické popis archivovaných zdrojů vs. automatická indexace legislativní oprávnění akvizice (povinný výtisk ?) autorská práva možnosti zpřístupňování veřejnosti
Výsledky projektu server Informace o projektu Odkazy na zdroje a zahraniční/ mezinárodní projekty Vyvinuté/lokalizované nástroje pro podporu využívání metadat: generátor/extraktor metadat Dublin Core generátor jednoznačného identifikátoru dokumentu (URN) kalkulátor kontrolního součtu dokumentu MD5 Nedlib Harvester
Nedlib Harvester Volně dostupný systém pro archivaci webových informačních zdrojů, vyvíjený finskou národní knihovnou Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů Podporuje protokoly http a ftp Může procházet i dynamicky generované stránky (URL s parametrem) V HTML souborech hledá odkazy na další dokumenty
Doména.cz Sklízení probíhá s přestávkami od doposud staženo 10 milionů unikátních dokumentů z cca domén 2. úrovně v současné době registrováno v doméně.cz cca domén 2. úrovně zatím sklizeno 250 GB (nekomprimovaných) dat průměrná velikost souboru 17 kB
Doména.cz - relativní četnost souborů v archivu podle typů
Doména.cz - zastoupení hlavních typů souborů v archivu podle objemu dat
Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu Internet Archive – výsledky do tří let projekt v rámci 6RP EU - nejisté u nás – využití NWA toolsetu v kombinaci s Convera RetrievalWare (podpora velkého množství formátů, fuzzy search) studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz
Spolupráce Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána) Nutnost spolupráce s vydavateli
Nordic Web Archive – časová osa
Internet Archive – časová osa
Děkujeme za pozornost WebArchiv Petr Žabička Ludmila Celbová ISSS 2003