Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilEma Pokorná
1
http://webarchiv.nkp.cz Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR ISSS 2003
2
http://webarchiv.nkp.cz Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) Zadavatel projektu: Ministerstvo kultury ČR Nositel projektu: Národní knihovna ČR Spolupráce na řešení: ÚVT MU, Brno
3
http://webarchiv.nkp.cz Vzdáleně přístupné elektronické zdroje nedílná součást národní kulturní produkce => národní kulturní dědictví obrovské množství dokumentů různé kvality nehmotné dokumenty dynamické povahy – nestálé
4
http://webarchiv.nkp.cz Zajištění trvalého/dlouhodobého přístupu Tradiční role depozitních knihoven a archivů Ale: výhodná je archivace na národní úrovni Problémy: trvanlivost a morální zastarávání médií morální zastarávání formátů souborů Řešení: migrace na nová média emulace nebo konverze
5
http://webarchiv.nkp.cz Další aspekty knihovnické popis archivovaných zdrojů vs. automatická indexace legislativní oprávnění akvizice (povinný výtisk ?) autorská práva možnosti zpřístupňování veřejnosti
6
http://webarchiv.nkp.cz Výsledky projektu server www.webarchiv.cz: Informace o projektu Odkazy na zdroje a zahraniční/ mezinárodní projekty Vyvinuté/lokalizované nástroje pro podporu využívání metadat: generátor/extraktor metadat Dublin Core generátor jednoznačného identifikátoru dokumentu (URN) kalkulátor kontrolního součtu dokumentu MD5 Nedlib Harvester
7
http://webarchiv.nkp.cz Nedlib Harvester Volně dostupný systém pro archivaci webových informačních zdrojů, vyvíjený finskou národní knihovnou Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů Podporuje protokoly http a ftp Může procházet i dynamicky generované stránky (URL s parametrem) V HTML souborech hledá odkazy na další dokumenty
8
http://webarchiv.nkp.cz Doména.cz Sklízení probíhá s přestávkami od 23.4.2002 doposud staženo 10 milionů unikátních dokumentů z cca 32.000 domén 2. úrovně v současné době registrováno v doméně.cz cca 132.000 domén 2. úrovně zatím sklizeno 250 GB (nekomprimovaných) dat průměrná velikost souboru 17 kB
9
http://webarchiv.nkp.cz Doména.cz - relativní četnost souborů v archivu podle typů
10
http://webarchiv.nkp.cz Doména.cz - zastoupení hlavních typů souborů v archivu podle objemu dat
11
http://webarchiv.nkp.cz Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu Internet Archive – výsledky do tří let projekt v rámci 6RP EU - nejisté u nás – využití NWA toolsetu v kombinaci s Convera RetrievalWare (podpora velkého množství formátů, fuzzy search) studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz
12
http://webarchiv.nkp.cz Spolupráce Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána) Nutnost spolupráce s vydavateli
13
http://webarchiv.nkp.cz Nordic Web Archive – časová osa
14
http://webarchiv.nkp.cz Internet Archive – časová osa
15
http://webarchiv.nkp.cz Děkujeme za pozornost WebArchiv http://www.webarchiv.cz Petr Žabička zabak@mzk.cz Ludmila Celbová ludmila.celbova@nkp.cz ISSS 2003
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.