Mgr. Ludmila Celbová Národní knihovna ČR Archivace a zpřístupnění elektronických online zdrojů v evropském kontextu Mgr. Ludmila Celbová Národní knihovna ČR http://www.webarchiv.cz CASLIN 2005, Lednice
Role knihoven jako paměťových institucí Národní knihovny (příp. další) – funkce depozitních knihoven trvalé uchování kulturního a informačního dědictví (textové, obrazové, zvukové, elektronické či jiné záznamy v podobě analogové i digitální, vč. publikací zveřejněných v síti Internet ) zajištění depozitní úlohy uchovávání dokumentů v konzervačním fondu registrace v národní bibliografii http://www.webarchiv.cz
Archivace internetových zdrojů – důvody? enormní nárůst elektronických zdrojů 90 % dokumentů existuje pouze v elektronické podobě prchavost elektronických zdrojů průměrná životnost dokumentu na webu je cca 44 dní cenné dokumenty mohou být nenávratně ztraceny informační hodnota různá, dokonalejší možnosti vyjádření oproti tradičním dokumentům zachování národního kulturního dědictví národní (depozitní) knihovny http://www.webarchiv.cz
Archivace webu – historie Začátky v polovině 90. let 20. století v Evropě severské země, Kanada, Austrálie mezinárodní projekty (Nordic Metadata I, II; NEDLIB - Networked European Deposit Library) V České republice od r. 2000 Národní knihovna ČR Moravská zemská knihovna (oficiální spolupráce od května 2003) Ústav výpočetní techniky MU ČR (externí spolupráce) ! ! ! grantová podpora http://www.webarchiv.cz
Problematika archivace webu Získávání elektronických zdrojů (uchovat charakteristiku webu z hlediska obsahu a typu zdroje) 2. Uložení elektronických zdrojů (zajistit trvalou čitelnost zdrojů uložených v archivu – migrace dat) 3. Uchování elektronických zdrojů (zajistit trvalou přístupnost zdrojů uložených v archivu - nečitelnost zdrojů v důsledku změn SW a HW ) 4. Zpřístupnění elektronických zdrojů (zajistit přístup ke zdrojům v archivu, které již na webu nejsou dostupné – technické nástroje pro vyhledávání; autorské právo) http://www.webarchiv.cz
Archivace webu – komplexní problematika 1. Legislativní problematika 2. Kritéria výběru zdrojů a strategie jejich archivace 3. Bibliografická správa a zpřístupnění zdrojů http://www.webarchiv.cz
Legislativa Zákony o povinném výtisku Autorský zákon (č. 121/2000 Sb.) potřeba úpravy zákonů – č. 37/1995 Sb. o neperiodických publikacích, č. 46/2000 Sb. (tzv. Tiskový zákon) – pro online zdroje nelze aplikovat Autorský zákon (č. 121/2000 Sb.) vytváření digitálního archivu: ANO zpřístupnění digitálního archivu: NE Náhradní řešení – smlouvy s vydavateli Novela AZ – lokální zpřístupnění http://www.webarchiv.cz
Kritéria výběru zdrojů do archivu Nelze archivovat veškerý obsah webu (technické důvody, ekonomické důvody, legislativní rámec) Selekční kritéria pro účely registrace v ČNB Omezení při automatizovaném procesu sběru dat http://www.webarchiv.cz
Kritéria výběru zdrojů pro ČNB Místo uložení zdroje (doména .cz) Přístup (pouze volně přístupné zdroje) Obsah (informační hodnota) Typ a forma (seriály, publikace z akademické oblasti, vládní publikace…) Formát (formáty všeobecně podporované producenty aplikačního SW, zejména webových prohlížečů) http://www.webarchiv.cz
Kritéria výběru zdrojů pro automatizovaný sběr dat do archivu Nelze archivovat veškerý obsah českého webu (= „plošné sklízení“) Výběr zdrojů dostupných prostřednictvím běžného prohlížeče (protokol http) Všeobecně podporované formáty: html, xml, jpg, gif, txt, pdf Technická omezení (kapacita paměti) http://www.webarchiv.cz
Strategie vytváření digitálního archivu Kompletní archiv automatizovaný sběr elektronických online zdrojů (tzv. harvesting) nenárokuje intelektuální práci nižší kvalita archivovaných zdrojů větší právní rizika Implementace Švédsko (projekt Kulturarw3) Finsko (projekt EVA) USA (projekt Internet Archive) http://www.webarchiv.cz
Strategie vytváření digitálního archivu Výběrový archiv, tématické sbírky náročnější na čas a intelektuální práci předem stanovená obsahová a formální kritéria menší právní rizika uzavírání smluv s vydavateli možnost archivace neviditelného webu Implementace Austrálie (projekt Pandora) - výběr USA (projekt Minerva) – téma voleb http://www.webarchiv.cz
Další možná alternativa v tvorbě digitálního archivu Kompletní archiv + Výběrový archiv Implementace Dánsko (projekt Netarchive.dk) Česká republika (projekt WebArchiv) http://www.webarchiv.cz
Bibliografická správa, zpřístupnění zdrojů Cíl - budování České národní bibliografie pro online zdroje Uložení zdrojů vybraných podle selekčních kritérií do digitálního archivu Propojení obou databází pro účely zpřístupnění http://www.webarchiv.cz
Bibliografická správa samostatná báze WEB v rámci elektronického katalogu Národní knihovny primární funkce bibliografická (ČNB) - zkatalogizované zdroje vybrány na základě kritérií pro ČNB sekundární funkce pro oborové informační brány - zkatalogizované zdroje vybrány na základě kritérií pro oborové informační brány (ve fázi testování) uloženo 170 záznamů pro ČNB provoz cca 1,5 roku http://www.webarchiv.cz
Záznamy v bázi WEB – funkce pro zpřístupnění MARC21 doplnění několika polí dle metadatového standardu Dublin Core pro účely kooperace oborových informačních bran použitelnost v různých systémech konverze do UNIMARC konverze do Dublin Core konverze do Metalibu apod. prostřednictvím pole 856 (URL adresa) přístup do aktuálního zdroje na webu do digitálního archivu zpřístupnění v JIB http://www.webarchiv.cz
Příklad záznamu v bázi WEB Záznam časopisu Ikaros (standardní zobrazení) Přístup do aktuální stránky zdroje (http://www.ikaros.cz) Přístup do digitálního archivu (http://ind.war.mzk.cz/index.php?action=get_versions&lang=cs&url_send=1&show_results=1&fr_url=www.ikaros.cz&fr_date_from=&fr_date_to=) http://www.webarchiv.cz
Český WebArchiv v evropském kontextu Dilema všech knihoven/institucí řešících archivaci webu: komplexní archivace (automatizovaný sběr online zdrojů) nebo výběrová archivace Důležité ale je hlavně vůbec začít, protože mnohé dokumenty na webu nepočkají !!! > IFLA > http://www.webarchiv.cz
IFLA – snaha o společné řešení problematiky uchování online zdrojů Zpracování přehledu o stavu řešení problematiky registrace a uchování online zrojů v členských zemích stanovení obecných selekčních kritérií pro elektronickou národní bibliografii návrh směrnic pro elektronickou národní bibliografii poskytnutí směrnic pro tvorbu základní národní bibliogafie Zatím čekáme na výsledky analýzy. http://www.webarchiv.cz
Výsledky šetření pracovníků NK ČR Situace v pokročilejších evropských národních knihovnách přístup velmi rozdílný, většina zemí se rozhoduje o dalším postupu severské země trend k co nejvyšší automatizaci národní bibliografie na základě indexace webových zdrojů je zatím nereálná ve většině zemí je zákon o PV nevyhovující zejména Německo počítá s obrovskou podporou archivace webu http://www.webarchiv.cz
Závěr I – postavení ČR v oblasti archivace webu v evropském kontextu Pozitiva ČR začala včas velmi dobrá znalostní úroveň pro budoucno jsou již archivovány české zdroje za poslední tři roky kooperace se zahraničními institucemi renomé mezi nejvýznamnějšími institucemi schopnost předávat dál své zkušenosti (CULTURE 2000 – projekt 2005, kooper. Slovensko, Slovinsko, Estonsko http://www.webarchiv.cz
Závěr II – postavení ČR v oblasti archivace webu v evropském kontextu Negativa existence projektu, pokračování archivační činnosti je každým rokem závislé na získání grantů vzhledem k technickým problémům souvisejícím s nedostatkem finančních problémů se nepodařilo dosud dokončit jediné kompletní stažení dat vzhledem k finančním problémům nebylo možno získat potřebný SW pro vyhledávání http://www.webarchiv.cz
Závěr III – postavení ČR v oblasti archivace webu v evropském kontextu Negativa – pokrač. vzhledem k personálním problémům je rozsah zdrojů registrovaných pro ČNB (katalogizace - 170 záznamů) a rozsah zdrojů pro online zpřístupnění (smlouvy s vydavateli - 39) mizivý personální problémy jsou rovněž příčinou, proč v ČR je řešení otázky povinného výtisku pro online zdroje na mrtvém bodě atd. http://www.webarchiv.cz
Ludmila Celbová (část knihovnická) Kontakty: webarchiv@nkp.cz Ludmila Celbová (část knihovnická) ludmila.celbova@nkp.cz Petr Žabička (část IT) zabak@mzk.cz Informace: http://www.webarchiv.cz http://www.webarchiv.cz