Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Internet ve službách archivu a archivace webu
PhDr. Jaroslav Šulc, Národní archiv
2
Proč archivovat web? Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).
3
Základní problémy archivace webu
Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. Nové technologie - fenomény WEB 2.0 a WEB 3.0.
4
Archivace webu - činnosti
Výběr webu k dlouhodobému uložení Metody sběru dat Kontrola kvality a popis (metadata) Dlouhodobé uchovávání webu Zpřístupňování archivovaného webu Právní problematika Řízení životního cyklu archivovaného webu Kooperace, standardizace při archivaci webu
5
Vazby činností při archivaci web. stránek
6
Metody výběru dat k archivaci
Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.
7
Výběr web. stránek k dlouhodobému uložení
8
Metody sběru dat (sklizně)
Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.
9
Nástroje archivace webu
Heritrix, HTTrack – software pro vzdálenou sklizeň. Web Curator – software pro selektivní vzdálenou archivaci DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML Xinq – nástroj pro zpřístupnění XML databáze PageVault, Vignette WebCapture – nástroje pro transakční archivaci NutchWAX – nástroj pro vyhledávání ve webovém archivu Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu
10
Kontrola kvality a popis dat
Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). WARC – standardizovaný formát pro archivaci webu.
11
Dlouhodobé uchování webu
Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. Základní strategie uchovávání MIGRACE a EMULACE. Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. Budování Národního digitálního archivu v ČR.
12
Zpřístupnění archivovaného webu
Je prováděno pomocí speciálních softwarů. Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.
13
Právní problémy Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. Licence CREATIVE COMMONS. Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.
14
Programy a instituce The Internet Archive – od roku 1996, plošné sklizně Severské země – Nordic Web Archive PANDORA – program Australské národní knihovny NEDLIB – iniciativa zaštítěná Evropskou komisí Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru MINERVA – projekt Kongresové knihovny ve Washingtonu Národní knihovna ČR – projekt Webarchiv IIPC – mezinárodní konsorcium pro archivaci webu
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.