Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.

Podobné prezentace


Prezentace na téma: "Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR."— Transkript prezentace:

1 Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR ISSS 2003

2 Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) Zadavatel projektu: Ministerstvo kultury ČR Nositel projektu: Národní knihovna ČR Spolupráce na řešení: ÚVT MU, Brno

3 Vzdáleně přístupné elektronické zdroje nedílná součást národní kulturní produkce => národní kulturní dědictví obrovské množství dokumentů různé kvality nehmotné dokumenty dynamické povahy – nestálé

4 Zajištění trvalého/dlouhodobého přístupu Tradiční role depozitních knihoven a archivů Ale: výhodná je archivace na národní úrovni Problémy:  trvanlivost a morální zastarávání médií  morální zastarávání formátů souborů Řešení:  migrace na nová média  emulace nebo konverze

5 Další aspekty knihovnické  popis archivovaných zdrojů vs. automatická indexace legislativní  oprávnění akvizice (povinný výtisk ?)  autorská práva  možnosti zpřístupňování veřejnosti

6 Výsledky projektu server Informace o projektu Odkazy na zdroje a zahraniční/ mezinárodní projekty Vyvinuté/lokalizované nástroje pro podporu využívání metadat:  generátor/extraktor metadat Dublin Core  generátor jednoznačného identifikátoru dokumentu (URN)  kalkulátor kontrolního součtu dokumentu MD5 Nedlib Harvester

7 Nedlib Harvester Volně dostupný systém pro archivaci webových informačních zdrojů, vyvíjený finskou národní knihovnou Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů Podporuje protokoly http a ftp Může procházet i dynamicky generované stránky (URL s parametrem) V HTML souborech hledá odkazy na další dokumenty

8 Doména.cz Sklízení probíhá s přestávkami od doposud staženo 10 milionů unikátních dokumentů z cca domén 2. úrovně v současné době registrováno v doméně.cz cca domén 2. úrovně zatím sklizeno 250 GB (nekomprimovaných) dat průměrná velikost souboru 17 kB

9 Doména.cz - relativní četnost souborů v archivu podle typů

10 Doména.cz - zastoupení hlavních typů souborů v archivu podle objemu dat

11 Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu Internet Archive – výsledky do tří let projekt v rámci 6RP EU - nejisté u nás – využití NWA toolsetu v kombinaci s  Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)  studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz

12 Spolupráce Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána) Nutnost spolupráce s vydavateli

13 Nordic Web Archive – časová osa

14 Internet Archive – časová osa

15 Děkujeme za pozornost  WebArchiv  Petr Žabička  Ludmila Celbová ISSS 2003


Stáhnout ppt "Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR."

Podobné prezentace


Reklamy Google