Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Internet ve službách archivu a archivace webu

Podobné prezentace


Prezentace na téma: "Internet ve službách archivu a archivace webu"— Transkript prezentace:

1 Internet ve službách archivu a archivace webu
PhDr. Jaroslav Šulc, Národní archiv

2 Proč archivovat web? Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).

3 Základní problémy archivace webu
Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. Nové technologie - fenomény WEB 2.0 a WEB 3.0.

4 Archivace webu - činnosti
Výběr webu k dlouhodobému uložení Metody sběru dat Kontrola kvality a popis (metadata) Dlouhodobé uchovávání webu Zpřístupňování archivovaného webu Právní problematika Řízení životního cyklu archivovaného webu Kooperace, standardizace při archivaci webu

5 Vazby činností při archivaci web. stránek

6 Metody výběru dat k archivaci
Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.

7 Výběr web. stránek k dlouhodobému uložení

8 Metody sběru dat (sklizně)
Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.

9 Nástroje archivace webu
Heritrix, HTTrack – software pro vzdálenou sklizeň. Web Curator – software pro selektivní vzdálenou archivaci DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML Xinq – nástroj pro zpřístupnění XML databáze PageVault, Vignette WebCapture – nástroje pro transakční archivaci NutchWAX – nástroj pro vyhledávání ve webovém archivu Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu

10 Kontrola kvality a popis dat
Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). WARC – standardizovaný formát pro archivaci webu.

11 Dlouhodobé uchování webu
Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. Základní strategie uchovávání MIGRACE a EMULACE. Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. Budování Národního digitálního archivu v ČR.

12 Zpřístupnění archivovaného webu
Je prováděno pomocí speciálních softwarů. Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.

13 Právní problémy Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. Licence CREATIVE COMMONS. Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.

14 Programy a instituce The Internet Archive – od roku 1996, plošné sklizně Severské země – Nordic Web Archive PANDORA – program Australské národní knihovny NEDLIB – iniciativa zaštítěná Evropskou komisí Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru MINERVA – projekt Kongresové knihovny ve Washingtonu Národní knihovna ČR – projekt Webarchiv IIPC – mezinárodní konsorcium pro archivaci webu


Stáhnout ppt "Internet ve službách archivu a archivace webu"

Podobné prezentace


Reklamy Google