WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.

http://webarchiv.nkp.cz WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně zabak@mzk.cz Rufis 2002

http://webarchiv.nkp.cz Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) Zadavatel projektu: Ministerstvo kultury ČR Nositel projektu: Národní knihovna ČR Spolupráce na řešení: ÚVT MU, Brno

http://webarchiv.nkp.cz Vzdáleně přístupné elektronické zdroje nedílná součást národní kulturní produkce => národní kulturní dědictví obrovské množství publikací různé kvality nehmotné dokumenty dynamické povahy – nestálé

http://webarchiv.nkp.cz Zajištění trvalého/dlouhodobého přístupu role depozitních knihoven význam archivace na národní úrovni Problémy:  trvanlivost a morální zastarávání médií  morální zastarávání formátů souborů Řešení:  migrace na nová média  emulace vs. konverze

http://webarchiv.nkp.cz Další aspekty knihovnické  popis archivovaných zdrojů vs. automatická indexace legislativní  oprávnění akvizice (povinný výtisk ?)  autorská práva  možnosti zpřístupňování

http://webarchiv.nkp.cz Výsledky projektu server webarchiv.nkp.cz: Informace o projektu Odkazy na zdroje a zahraniční/ mezinárodní projekty Vyvinuté/lokalizované nástroje pro podporu využívání metadat  generátor/extraktor metadat Dublin Core  generátor jednoznačného identifikátoru dokumentu URN  kalkulátor kontrolního součtu dokumentu MD5 Nedlib Harvester

http://webarchiv.nkp.cz Generátor URN (NBN) Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele. NK zaručuje při jeho vydání jeho jednoznačnost Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …) Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní součet dokumentu MD5 Připravuje se přepracování systému přidělování URN jako služby integrovatelné do webových publikačních systémů

http://webarchiv.nkp.cz Dublin Core metadata generator Analýza existujícího dokumentu a extrakce metadat Tvorba nebo úprava metadat Dublin Core Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení Podpora kvalifikátorů DC Možnost přidělení URN

http://webarchiv.nkp.cz Nedlib Harvester 1/2 Programový systém pro archivaci webových informačních zdrojů Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů Podporuje protokoly http a ftp Může procházet i dynamicky generované stránky (URL s parametrem) V HTML souborech hledá odkazy na další dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé sklízené servery dodržuje pravidla v souboru robots.txt

http://webarchiv.nkp.cz Nedlib Harvester (2/2) Vývoj podporován především Finskou Národní knihovnou Volně dostupný Sám o sobě neřeší indexaci a zpřístupnění archivu Archivované soubory ukládá v tar.gz balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění

http://webarchiv.nkp.cz Sklizeň domény.cz (1/2) probíhá s přestávkami (opravy chyb, povodně,…) od 23.4.2002 doposud staženo 10.4 milionu unikátních dokumentů z cca 32.000 domén 2. úrovně v současné době registrováno v doméně.cz cca 120.900 domén 2. úrovně zatím sklizeno 250 GB (nekomprimovaných) dat průměrná velikost souboru 17 kB

http://webarchiv.nkp.cz Sklizeň domény.cz (2/2) kompresní poměr při ukládání průměrně 85% denní přírůstek archivu cca 5,5 GB komprimovaných dat průměrný datový tok pouze 640 kb/s  rychlost sklízení není limitována rychlostí připojení k Internetu, ale výpočetním výkonem serveru. (Nyní PC server / Linux)

http://webarchiv.nkp.cz Relativní četnost souborů v archivu podle typů

http://webarchiv.nkp.cz Zastoupení hlavních typů souborů v archivu podle objemu dat

http://webarchiv.nkp.cz Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu (Lucene ?) pro projekt NWA zakoupena technologie norské firmy Fast (prohledávač AllTheWeb) u nás – využití NWA toolsetu v kombinaci s  Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)  studentský projekt na MFF UK (dokončení 1.pol. 2003) může být využit přinejmenším pro zkušební provoz (požadované funkce: vyhledávání pomocí URL, času, metadat i fulltextu)

http://webarchiv.nkp.cz Spolupráce Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) Účast na přípravě mezinárodního projektu "European Web Archive" v rámci 6. rámcového programu EU (podání "Expression of Interest") V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. spolupráce s týmen JIB) Nutnost spolupráce s vydavateli

http://webarchiv.nkp.cz Nordic Web Archive – výsledky hledání

http://webarchiv.nkp.cz Nordic Web Archive – časová osa

http://webarchiv.nkp.cz Internet Archive – Wayback Machine

http://webarchiv.nkp.cz Internet Archive – časová osa

http://webarchiv.nkp.cz Internet Archive - VUT v roce 0 (1997)

http://webarchiv.nkp.cz Internet Archive – VUT (téměř) aktuálně

http://webarchiv.nkp.cz Internet archive – rozsah archivace www.vutbr.cz

http://webarchiv.nkp.cz Děkuji za pozornost  WebArchiv http://webarchiv.nkp.cz  Petr Žabička zabak@nkp.cz Rufis 2002 - 4. září 2002

WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.

Podobné prezentace

Prezentace na téma: "WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.

Podobné prezentace

Prezentace na téma: "WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář