Internet ve službách archivu a archivace webu

Slides:



Advertisements
Podobné prezentace
Spisová služba pro organizace zřízené Olomouckým krajem
Advertisements

Mgr. Ludmila Celbová Národní knihovna ČR
Zpřístupnění digitálního archivu
Přehled fondů a sbírek archivů ČR na Internetu
Iva Horová: Zpřístupňování eVŠKP Olomouc, SDRUK, IT Zpřístupňování eVŠKP současný stav a záměry.
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Virtuální lektor? Miroslava Dvořáková Jiří Votava.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Bohdana Stoklasová Národní knihovna ČR
Praha Jan Mach Vysoká škola ekonomická v Praze Příprava Národního registru VŠKP a Národního úložiště šedé literatury Ing. Jan Mach
>>. CONSULTECH Kritéria posuzovaná při zavádění e-learningu ve firmě Ing. Erik Dianiš ConsulTech s.r.o.
Portál autorit
Řešení problematiky standardizace archivních pomůcek v digitální podobě v českém archivnictví Michal Wanner odbor archivní správy a spisové služby MV.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Střednědobé uložení digitálních dokumentů a jejich autenticita (Miroslav Čejka, GORDIC spol. s r.o.)
Projekt WebArchiv „Získávání, archivace a zpřístupnění domácích webových zdrojů“
Záměry Knihovny Antonína Švehly v oblasti poskytovaných služeb pro knihovníky Knihovna Antonína Švehly 2014.
Národní archiv PhDr. Tomáš Kalina, Ing. Miroslav Kunt
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
Dlouhodobé uchovávání a zpřístupňování dokumentů v digitální podobě
Walter Schorge Archa – Open Source archivní informační systém v NTM Archivy, knihovny a muzea v digitálním světě
Národní digitální archiv Představení projektu Jiří Bernas, Miroslav Kunt, Národní archiv.
Systémové pojetí hospodářské organizace 1 ECM – Řízení podnikového obsahu (Zdroj: Gála, Pour, Toman: Podniková informatika. Praha: Grada 2006) řízení podnikového.
Podnikání na Internetu letní semestr 2004 Jana Holá VIII.
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
Aleš Chudý IW BG Lead Microsoft Corporation. Lidé jsou klíčové aktivum firem Nové trendy práce Software jako platforma Strategická iniciativa (horizont.
Informace o přípravě Integrovaného operačního programu  Ministerstvo kultury  Ministerstvo informatiky Vít Richter Národní knihovna ČR
Příprava novely autorského zákona Celostátní porada vysokoškolských knihoven Hradec Králové Vít Richter Národní knihovna ČR
Zpřístupnění elektronických zdrojů z digitálního archivu - jak a pro koho - Mgr. Ludmila Celbová Markéta Simonová Martina Tatranská.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
SU Aleph Repozitáře, archivy, a dlouhodobá ochrana digitálních informací Mgr. Eliška Pavlásková Ústav výpočetní techniky Univerzita Karlova.
Praktické zkušenosti s naplňováním směrnice rektora o závěrečných pracích na Ostravské univerzitě v Ostravě Mgr. Jarmila Krkošková Bc. Šárka Kostecká Univerzitní.
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
NÁRODNÍ DIGITÁLNÍ ARCHIV
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
WebArchiv – Archiv českého webu Adam Brokeš
Pracoviště pro dlouhodobé uchovávání a zpřístupňování dokumentů v digitální podobě (digitální archiv)‏
PLÁN DLOUHODOBÉ OCHRANY DIGITÁLNÍCH DOKUMENTŮ V PRAXI Mgr. Andrea Fojtu, Mgr. Eliška Pavlásková ÚVT UK, ÚISK UK
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Národní úložiště šedé literatury (NÚŠL) informace o projektu SKIP Klub vysokoškolských knihoven AMU, Iva Horová.
Systém DESA DŮVĚRYHODNÁ ELEKTRONICKÁ SPISOVNA A ARCHIV
Datovýsklad Datový sklad V budoucích službách státního archivu.
Nové standardy v českém archivnictví
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Krajská digitální spisovna Vazby mezi projekty 2 Vysvětlivky: TCK … Technologické centrum kraje eSpS … Elektronická spisová služba DUD …
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
Elektronické úřadování v archivní legislativě a spisových normách ústředních úřadů. Národní archiv Archivní Praha 4
ECM – Enterprise Content Management
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
EBooks on Demand – projekt evropské kooperace Věra Pospíšilíková – MZK, Kateřina Kamrádková – NTK AKM 2010.
Petr Žabička Moravská zemská knihovna v Brně Možnosti technického řešení.
Digitální knihovna, systém pro tvorbu, archivaci a zpřístupňování digitálních dokumentů Jiří Polišenský.
13.přednáška – Elektronické zásobování Ing. Jiří Zmatlík, Ph.D. ČVUT, Fakulta elektrotechnická Katedra ekonomiky, manažerství a humanitních věd.
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Odbor digitálních fondů Zuzana Kvašová,
Petr SUCHÁČEK, Gabriela ŠTEFANOVÁ. * Teoretická část  Instituce a ICT  Učitelé a ICT  Studenti a ICT * Empirická část  Dotazníkové šetření mezi spolužáky.
PRINCeGON – metodika řízení projektů Ministerstva vnitra
Zahájení úvodní slova představení projektu etapy projektu představení projektového týmu Národní digitální archiv.
 nejvíce využívaná služba internetu založená na www stránkách  poskytuje virtuální informační prostor, přístupný pomocí prohlížeče  výhodou www stránek.
Pilotní projekt NK ČR Dobrovolné uložení elektronických publikací Mgr. Martin Žížala Oddělení doplňování domácích dokumentů.
Práce s datovými úložiště Jan Málek. Cíl studia Získat přehled o základních životních fázích dokumentu, povinnostech původce při jeho uchování a typech.
Tzv. životní cyklus dokumentů u původce (Tematický blok č. 4)
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Souborný katalog ČR - včera, dnes a zítra
METODOLOGIE PROJEKTOVÁNÍ
Transkript prezentace:

Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv

Proč archivovat web? Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).

Základní problémy archivace webu Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. Nové technologie - fenomény WEB 2.0 a WEB 3.0.

Archivace webu - činnosti Výběr webu k dlouhodobému uložení Metody sběru dat Kontrola kvality a popis (metadata) Dlouhodobé uchovávání webu Zpřístupňování archivovaného webu Právní problematika Řízení životního cyklu archivovaného webu Kooperace, standardizace při archivaci webu

Vazby činností při archivaci web. stránek

Metody výběru dat k archivaci Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.

Výběr web. stránek k dlouhodobému uložení

Metody sběru dat (sklizně) Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.

Nástroje archivace webu Heritrix, HTTrack – software pro vzdálenou sklizeň. Web Curator – software pro selektivní vzdálenou archivaci DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML Xinq – nástroj pro zpřístupnění XML databáze PageVault, Vignette WebCapture – nástroje pro transakční archivaci NutchWAX – nástroj pro vyhledávání ve webovém archivu Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu

Kontrola kvality a popis dat Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). WARC – standardizovaný formát pro archivaci webu.

Dlouhodobé uchování webu Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. Základní strategie uchovávání MIGRACE a EMULACE. Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. Budování Národního digitálního archivu v ČR.

Zpřístupnění archivovaného webu Je prováděno pomocí speciálních softwarů. Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.

Právní problémy Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. Licence CREATIVE COMMONS. Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.

Programy a instituce The Internet Archive – od roku 1996, plošné sklizně Severské země – Nordic Web Archive PANDORA – program Australské národní knihovny NEDLIB – iniciativa zaštítěná Evropskou komisí Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru MINERVA – projekt Kongresové knihovny ve Washingtonu Národní knihovna ČR – projekt Webarchiv IIPC – mezinárodní konsorcium pro archivaci webu