Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv.

Podobné prezentace


Prezentace na téma: "Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv."— Transkript prezentace:

1 Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv

2 Proč archivovat web? •Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. •Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. •Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. •Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).

3 Základní problémy archivace webu •Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. •Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. •Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. •Nové technologie - fenomény WEB 2.0 a WEB 3.0.

4 Archivace webu - činnosti •Výběr webu k dlouhodobému uložení •Metody sběru dat •Kontrola kvality a popis (metadata) •Dlouhodobé uchovávání webu •Zpřístupňování archivovaného webu •Právní problematika •Řízení životního cyklu archivovaného webu •Kooperace, standardizace při archivaci webu

5 Vazby činností při archivaci web. stránek

6 Metody výběru dat k archivaci •Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. •Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. •Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.

7 Výběr web. stránek k dlouhodobému uložení

8 Metody sběru dat (sklizně) •Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. •Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. •Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. •Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.

9 Nástroje archivace webu •Heritrix, HTTrack – software pro vzdálenou sklizeň. •Web Curator – software pro selektivní vzdálenou archivaci •DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML •Xinq – nástroj pro zpřístupnění XML databáze •PageVault, Vignette WebCapture – nástroje pro transakční archivaci •NutchWAX – nástroj pro vyhledávání ve webovém archivu •Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu

10 Kontrola kvality a popis dat •Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. •Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. •Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). •WARC – standardizovaný formát pro archivaci webu.

11 Dlouhodobé uchování webu •Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. •Základní strategie uchovávání MIGRACE a EMULACE. •Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. •Budování Národního digitálního archivu v ČR.

12 Zpřístupnění archivovaného webu •Je prováděno pomocí speciálních softwarů. •Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. •Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.

13 Právní problémy •Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. •Licence CREATIVE COMMONS. •Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.

14 Programy a instituce •The Internet Archive – od roku 1996, plošné sklizně •Severské země – Nordic Web Archive •PANDORA – program Australské národní knihovny •NEDLIB – iniciativa zaštítěná Evropskou komisí •Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru •MINERVA – projekt Kongresové knihovny ve Washingtonu •Národní knihovna ČR – projekt Webarchiv •IIPC – mezinárodní konsorcium pro archivaci webu


Stáhnout ppt "Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv."

Podobné prezentace


Reklamy Google