Zpřístupnění digitálního archivu

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Souborný katalog ČR pod systémem ALEPH 500 Knihovny současnosti 2003 Národní knihovna ČR PhDr. Eva Svobodová – Mgr.Danuše Vyorálková Souborný katalog ČR.
Mgr. Ludmila Celbová Národní knihovna ČR
Překlad Bath profilu 2.0 Martin Vojnar
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Knihovny současnosti 2011, České Budějovice 13. – 15. září 2011
V ERZE 20 SYSTÉMU A LEPH ŠKOLENÍ KLIENTA. S TRUKTURA SYSTÉMU Typy bází: Bibliografická – obsahuje bibliografické záznamy  KNA01 ostrá báze Administrativní.
2005 Elektronické vysokoškolské kvalifikační práce.
Iva Horová: Zpřístupňování eVŠKP Olomouc, SDRUK, IT Zpřístupňování eVŠKP současný stav a záměry.
Aktuality. Novela knihovního zákona  Staré:  d) umožnění přístupu k vnějším informačním zdrojům, ke kterým má knihovna bezplatný přístup, pomocí telekomunikačního.
ANL+ Karolína Košťálová Komise pro služby
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Bc. Vladimíra Kováříková Ústřední knihovna VŠB-TU Ostrava 1. setkání českých uživatelů systému 24. dubna 2008 DSpace na VŠB-TU Ostrava.
Moravská zemská knihovna a zpřístupňování starých map.
BIBLIOGRAFICKÉ FORMÁTY MARC 21 – UNIMARC-úvod
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
PLÁNOVÁNÍ ROZVOJE SLUŽEB ICT VE ŠKOLE NÁLEŽITOSTI ICT PLÁNU ŠKOLY listopad 2006 (c) Radek Maca.
Bohdana Stoklasová Národní knihovna ČR
Systémy pro zpřístupňování eVŠKP 2008, Brno Ing. Jan Mach, CIKS Vysoká škola ekonomická v Praze Přenos VŠKP pomocí protokolu OAI-PMH.
Praha Jan Mach Vysoká škola ekonomická v Praze Příprava Národního registru VŠKP a Národního úložiště šedé literatury Ing. Jan Mach
, Elektronické služby knihoven prakticky, Praha Portál STM Lucie Hejná Státní technická knihovna
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Projekt WebArchiv „Získávání, archivace a zpřístupnění domácích webových zdrojů“
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Zpřístupnění plných textů vědeckých publikací v prostředí systému Medvik Helena Bouzková, Filip Kříž, Lenka Maixnerová, Eva Lesenková, Ondřej Horsák, Adéla.
REKS - Regionální knihovnický systém Školení pro dobrovolné knihovníky 4. března 2008.
1 Vít Richter ISSS 2005 – Hradec Králové Národní knihovna ČR Mobil: Archivy, knihovny, muzea a jejich úloha při.
Absolventská práce 2002 Aplikace XML rozhraní v prostředí krajského úřadu Autor : Marek Cop Vedoucí : Ing. Petr Pavlinec 2002.
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
Celní služby 2000 Radek Sedláček TranSoft a.s Radek Sedláček TranSoft a.s
Dlouhodobé uchovávání a zpřístupňování dokumentů v digitální podobě
Legislativní otázky týkající se problematiky online elektronických zdrojů Mgr. Iva Celbová
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
Zpřístupnění elektronických zdrojů z digitálního archivu - jak a pro koho - Mgr. Ludmila Celbová Markéta Simonová Martina Tatranská.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Informační zdroje v jednotném prostředí: SEN VŠECH KNIHOVNÍKŮ Jan Pokorný, Ústav výpočetní techniky UK.
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
NÁRODNÍ DIGITÁLNÍ ARCHIV
Informační kulturní portál
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
WebArchiv – Archiv českého webu Adam Brokeš
PLÁN DLOUHODOBÉ OCHRANY DIGITÁLNÍCH DOKUMENTŮ V PRAXI Mgr. Andrea Fojtu, Mgr. Eliška Pavlásková ÚVT UK, ÚISK UK
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , , , ,
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Projekt Digitální knihovna AV ČR a vývoj systému Kramerius Martin Lhoták, Knihovna AV ČR AMK v digitálním světě 2005, Praha.
Datovýsklad Datový sklad V budoucích službách státního archivu.
TŘI ROKY DIGITÁLNÍHO UNIVERZITNÍHO REPOZITÁŘE UNIVERZITY KARLOVY Eliška Pavlásková, Andrea Fojtu Archivy, knihovny a muzea v digitálním světě.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Elektronická podoba evidence, ochrany a zpřístupnění sbírky matrik SOA v Plzni PRAHA
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
EBooks on Demand – projekt evropské kooperace Věra Pospíšilíková – MZK, Kateřina Kamrádková – NTK AKM 2010.
Petr Žabička Moravská zemská knihovna v Brně Možnosti technického řešení.
Verze 22 systému Aleph školení klienta 1. Struktura systému Typy bází: Bibliografická – obsahuje bibliografické záznamy – KNA01 ostrá báze Administrativní.
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Pilotní projekt NK ČR Dobrovolné uložení elektronických publikací Mgr. Martin Žížala Oddělení doplňování domácích dokumentů.
Muzejní knihovny a Souborný katalog ČR 36. SEMINÁŘ KNIHOVNÍKŮ AMG ČR Slovácké muzeum v Uherském Hradišti PhDr. Eva Svobodová - Jana Militká,
Odbor doplňování a zpracování fondů
e-PK aktuální stav služeb DDS
Muzejní knihovny a Souborný katalog ČR
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Spolupráce se Souborným katalogem ČR
Paměťové instituce v CADR a SK ČR
MOŽNOSTI PORTÁLU KNIHOVNY.CZ NEJEN PRO KNIHOVNÍKY
Transkript prezentace:

Zpřístupnění digitálního archivu Ludmila Celbová Lenka Jelínková Jan Hutař Petr Žabička http://www.webarchiv.cz Informační setkání, 6. 12. 2005, NK ČR

Projekt WebArchiv: Informační setkání 6. 12. 2005 Důvod: zpřístupnění části webového archivu Pro koho: odborná veřejnost vydavatelé média http://www.webarchiv.cz

Projekt WebArchiv (*2000) Kdo řeší? Národní knihovna České republiky Moravská zemská knihovna v Brně Ústav výpočetní techniky Masarykovy univerzity v Brně (externí spolupráce) Co řeší? získávání, archivace a zpřístupnění domácích webových zdrojů Smysl řešení? dlouhodobé uchování této části kulturního dědictví Pro koho řeší? současné i budoucí generace http://www.webarchiv.cz

Role paměťových institucí Knihovny, archivy, muzea, galerie zájem trvale uchovat kulturní a informační dědictví společné problémy dlouhodobé uchování dat, migrace na nová média, konverze formátů vzájemná spolupráce rozdělení rolí, spolupráce při standardizaci postupů… http://www.webarchiv.cz

Role knihoven jako paměťových institucí Národní knihovny (příp. další) – funkce depozitních knihoven trvalé uchování kulturního a informačního dědictví (textové, obrazové, zvukové, elektronické či jiné záznamy v podobě analogové i digitální, včetně publikací zveřejněných v síti Internet) zajištění depozitní úlohy uchovávání dokumentů v konzervačním fondu registrace v národní bibliografii http://www.webarchiv.cz

Archivace webu – důvody? enormní nárůst elektronických zdrojů 90 % dokumentů existuje pouze v elektronické podobě prchavost elektronických zdrojů cenné dokumenty mohou být nenávratně ztraceny informační hodnota různá, dokonalejší možnosti vyjádření oproti tradičním dokumentům zachování národního kulturního dědictví  národní (depozitní) knihovny http://www.webarchiv.cz

Archivace webu – historie a současnost začátky v polovině 90. let 20. století v Evropě severské země, Kanada, Austrálie mezinárodní projekty počáteční experimenty přecházejí do praktického řešení na národní úrovni - nedílná součást národní kulturní produkce => národní kulturní dědictví na mezinárodní úrovni od r. 2003: International Internet Preservation Consortium => 11 národních knihoven & Internet Archive http://www.webarchiv.cz

Problematika archivace webu Získávání elektronických zdrojů Archivace a ochrana elektronických zdrojů 3. Zpřístupnění elektronických zdrojů http://www.webarchiv.cz

Získávání elektronických zdrojů pro archivaci Uchovat charakteristiku webu z hlediska obsahu zdroje odborné, umělecké a zpravodajsko-publicistické zaměření typu zdroje seriály, monografie, konferenční příspěvky, výzkumné a jiné zprávy, akademické práce aj. http://www.webarchiv.cz

Archivace a ochrana elektronických zdrojů v archivu Zajistit trvalou čitelnost zdrojů uložených v archivu uložení v archivačním formátu migrace dat v rámci vývoje informačních technologií (změny SW a HW - nekompatibilní s původní technologií) http://www.webarchiv.cz

Zpřístupnění elektronických zdrojů Zajistit přístup ke zdrojům v archivu, které již na webu nejsou dostupné vytvoření technických nástrojů pro vyhledávání zdrojů uložených v archivu zajištění přístupu v souladu s autorským právem http://www.webarchiv.cz

Archivace webu – komplexní problematika Aspekty technické aplikace a rozvoj HW i SW, rozšiřování kapacity paměťových médií Aspekty knihovnické výběr zdrojů, popis (aplikace formátů typu MARC, Dublin Core), registrace v ČNB Aspekty legislativní povinný výtisk autorské právo http://www.webarchiv.cz

Strategie vytváření digitálního archivu Kompletní archiv Výběrový archiv Tématické sbírky http://www.webarchiv.cz

Strategie vytváření digitálního archivu Kompletní archiv + automatizovaný sběr elektronických online zdrojů (tzv. harvesting) + při provozu vyžaduje minimum intelektuální práce - nerozlišuje se kvalita archivovaných zdrojů - větší právní rizika Implementace Švédsko (projekt Kulturarw3) Finsko (projekt EVA) USA (projekt Internet Archive) http://www.webarchiv.cz

Strategie vytváření digitálního archivu Výběrový archiv, tématické sbírky + vysoká kvalita zdrojů (předem stanovená obsahová a formální kritéria) + menší právní rizika + možnost archivace neviditelného webu - uzavírání smluv s vydavateli - náročné na čas a intelektuální práci Implementace Austrálie (projekt Pandora) - výběr USA (projekt Minerva) – téma voleb http://www.webarchiv.cz

Další možná alternativa v tvorbě digitálního archivu Kombinace obojího: Kompletní archiv + Výběrový archiv Implementace Dánsko (projekt Netarchive.dk) Česká republika (projekt WebArchiv) http://www.webarchiv.cz

WebArchiv a vydavatelé elektronických online zdrojů Jan Hutař http://www.webarchiv.cz Informační setkání, 6. 12. 2005 NK ČR

Vydavatelé online zdrojů „klasické“ vydavatelské firmy vydávají vedle tištěných i online zdroje (elektron. verze tištěného zdroje) nebo čistě v elektron. podobě jednotlivci kteří si vytvořili svůj web, který je informačně hodnotný a cenný firmy vydávající pouze online zdroje specializují se pouze na online publikace; většinou spojují více webů o různých tématech http://www.webarchiv.cz

Co a jak vybíráme? Je vůbec výběr zdrojů nutný, když probíhá sklizeň (harvest) celé domény .cz ?  ANO WebArchiv spojuje sklizeň (automatický proces) i výběr (intelektuální práce) Proč výběr? jedním z důvodů je zpřístupnění. Současná legislativa (AZ + zákon o PV) neumožňuje knihovnám zpřístupnit jimi „sklizené“ zdroje. Proto NK přistupuje k výběru zdrojů a oslovení vydavatele konkrétního zdroje. ČNB – Česká národní bibliografie, nasmlouvané zdroje jsou součástí ČNB  nutný výběr http://www.webarchiv.cz

Kritéria výběru množství dokumentů přístupných online je obrovské publikace zveřejněné na Internetu mají rozdílnou kvalitu  je třeba aplikovat určitá kritéria výběru tak, aby byly uchovávány dokumenty s určitou dokumentární hodnotou - tvoří tak národní kulturní bohatství http://www.webarchiv.cz

Kritéria výběru pokr. obsah - odborné, umělecké a zpravodajsko-publicist. zaměření typ zdroje - seriály, monografie, konferenční příspěvky, zprávy, akademické práce aj. původ - pouze zdroje, které jsou originálně zpřístupněné na webu přístup - volně přístupné webové zdroje, které lze považovat za samostatné publikační jednotky formát - formáty, které jsou interpretovány běžnými webovými prohlížeči bez nutnosti instalace plug-inu uložení - doména .cz, i .com apod. pokud jsou registrovány českou fyz. nebo práv. osobou nebo se k ČR vztahují – nejasné… komunikační protokoly - protokoly http, ftp http://www.webarchiv.cz

Co vydavatel získá? pokud vydavatel poskytne souhlas s archivací a zpřístupněním svého zdroje, získá: registraci zdroje v České národní bibliografii dlouhodobá přístupnost, tj. existenci zdroje v původní podobě i po jeho eventuálním zrušení/vymazání „viditelnost“ zdroje v katalogu Národní knihovny NK vytvoří pro zdroj metadata (DC) vydavatel vloží metadata do hlavičky HTML kódu zdroje a zajistí tak jeho lepší vyhledatelnost v prostředí Internetu prestiž? dobrý pocit? http://www.webarchiv.cz

Zákon o povinném výtisku Zákon č. 37/1995 Sb. o neperiodických publikacích „zahrnuje rozmnoženiny literárních, vědeckých a uměleckých děl určené k veřejnému šíření“ nosič zmíněn není vztahuje se pouze na monografické publikace Zákon č. 46/2000 Sb. tzv. tiskový zákon vztahuje se pouze na tištěné publikace celkem 19 paragrafů, povinnému výtisku věnován pouze §9 Novelizace NK ČR - naplnění funkce depozitní knihovny zachování národního kulturního dědictví registrace a archivace většího počtu zdrojů http://www.webarchiv.cz

Autorský zákon 121/2000 Sb. Vytváření digitálního archivu: ANO § 37(1) AZ: „Do práva autorského nezasahuje knihovna (…) zhotoví-li rozmnoženinu díla pro své archivní a konzervační účely.“ za předpokladu: nic nezpřístupňovat Zpřístupnění digitálního archivu: NE zpřístupnění pouze „vydaných děl“ § 38(1) AZ: „Do práva autorského nezasahuje osoba (…) půjčuje-li originály či rozmnoženiny vydaných děl (tj. dílo v hmotné podobě  online zdroj) Proto oslovujeme vydavatele  http://www.webarchiv.cz

Smlouva o poskytování elektronických online zdrojů vydavatel poskytne NK souhlas se zpřístupněním svého konkrétního online zdroje z WebArchivu uživatelům koncový uživatel má přístup k archivovaným dokumentům přes Internet koncový uživatel = kdokoli s přístupem na Internet http://www.webarchiv.cz

Smlouva o poskytování elektronických online zdrojů Práva a povinnosti Národní knihovny: vybrané elektronické online zdroje stahovat, ukládat, tvořit kopie, trvale uchovávat zajistit dlouhodobou životnost a použitelnost zdroje (migrace, emulace apod.) nést náklady spojené s vytvářením digitálního archivu katalogizovat vybrané zdroje (MARC 21) zahrnout vybrané zdroje do ČNB vytvořit metadata dle standardu Dublin Core http://www.webarchiv.cz

Smlouva o poskytování elektronických online zdrojů Práva a povinnosti vydavatele: souhlasí s činnostmi vykonávanými NK poskytuje své zdroje Národní knihovně zdarma zavazuje se vložit metadata vytvořená knihovnou do hlavičky svého zdroje http://www.webarchiv.cz

Postup oslovení vydavatelů inspirace z podobných projektů (PANDORA) veškerá korespondence probíhá pouze elektronicky (vyjma finální smlouvy) používáme systém emailů po rozhodnutí o zařazení zdroje  email „1. oslovení“- pokud je úspěšný  přijde vytištěná a vydavatelem podepsaná smlouva – viz dále pokud je odezva nulová  přesně za 1 měsíc posíláme 2. email „2. oslovení“ - upozorňuje na ten první a znovu obsahuje jeho znění pokud je odezva opět nulová  vydavatel se odloží jako „bez odezvy“ http://www.webarchiv.cz

Postup oslovení vydavatelů pokr. 1 spolupráce s českou agenturou ISSN pokud vydavatel souhlasí  stáhne si na stránkách WebArchivu smlouvu, podepíše a zašle do NK ve 2 kopiích jednu kopii obdrží poté podepsanou NK zpět vše se registruje v interní SQL databázi vydavatelů, zdrojů a smluv. Obsahuje mj.: název vydavatele, zdroje adresu a kontakty na vydavatele URL zdroje data 1. i 2. oslovení, případně data dotazů výsledek jednání – „v jednání“, „bez odezvy“, „smlouva“ http://www.webarchiv.cz

http://www.webarchiv.cz

Postup oslovení vydavatelů pokr. 2 celý proces oslovení je maximálně jednoduchý a transparentní přesto… většina oslovených je „bez odezvy“ proč? dohady… nestojí to vydavatelům za investovaný čas? žádný prospěch? nezájem? pocit nepotřebnosti takového projektu? nepochopení o co vlastně jde? strach ze závazků? žádné nejsou ;-) oslovujeme špatné lidi v organizační struktuře vydavatele? je překážkou zaslání tištěné smlouvy? nahradit pouze souhlasem formou emailu? http://www.webarchiv.cz

WebArchiv - stav konec roku 2005 odmítnuto NK 43 odmítl vydav. 36 bez odezvy 65 smlouva 50 v jednání 20 ---------------------- celkem 214 http://www.webarchiv.cz

nerozmyslíte si to? takže…? Děkuji za pozornost http://www.webarchiv.cz

Popis elektronických online zdrojů v rámci projektu WebArchiv Lenka Jelínková http://www.webarchiv.cz Informační setkání, 6. 12. 2005 NK ČR

Popis elektronických online zdrojů Metadatový popis tvorba metadat dle standardu Dublin Core Katalogizace tvorba katalogizačních záznamů dle mezinárodně platných pravidel (AACR2, ISBD, MARC 21) http://www.webarchiv.cz

Metadata obecně: strukturovaná data, která nesou informace o primárních datech v prostředí Internetu: data používaná pro identifikaci, popis a vyhledávání síťových elektronických zdrojů Dublin Core nejznámější a v současnosti nejrozšířenější standardizované metadatové schéma pro popis informačních zdrojů, zejména elektronických a internetových v současnosti používán ve 20 zemích Severní Ameriky, Evropy, Asie a Austrálie; počet zemí se postupně zvyšuje tvořen souborem patnácti základních prvků (Dublin Core Metadata Element Set) prvky lze specifikovat kvalifikátorem (kvalifikovaný Dublin Core) http://www.webarchiv.cz

Dublin Core - prvky Intelektuální vlastnictví: Obsah: Název Tvůrce Vydavatel Přispěvatel Práva Obsah: Název Předmět Popis Typ Zdroj Vztah Pokrytí Identifikační údaje: Datum Formát Identifikátor Jazyk http://www.webarchiv.cz

Tvorba metadat využíván Generátor metadat Dublin Core vytvořený v rámci projektu Nordic Metadata Project slouží ke generování záznamu metadat podle schématu Dublin Core (verze 1.1) dle bodu II/5 Smlouvy o poskytování elektronických online zdrojů se vydavatel zavazuje vložit námi vytvořená metadata do hlavičky zdrojového kódu jím vydávaného online zdroje http://www.webarchiv.cz

Ukázka DC metadat v hlavičce zdrojového kódu http://www.webarchiv.cz

Katalogizace popis webových zdrojů vybraných na základě selekčních kritérií WebArchivu samostatná báze v rámci elektronického katalogu Národní knihovny WEB = Katalog elektronických online zdrojů není součástí centrálního katalogu NK ČR – báze NKC s novou verzí Alephu (verze 16) by se mělo změnit http://www.webarchiv.cz

Záznamy v bázi WEB primární funkce bibliografická zkatalogizované zdroje vybrány na základě kritérií pro ČNB v současnosti uloženo cca 250 záznamů formát MARC 21 mezinárodně využívaný výměnný formát pro zápis a přenos bibliografických dat doplnění několika polí dle metadatového standardu Dublin Core pro účely kooperace oborových informačních bran http://www.webarchiv.cz

Záznamy v bázi WEB pokr. použitelnost v různých systémech konverze do UNIMARC konverze do Dublin Core konverze do Metalibu apod. prostřednictvím pole 856 (URL adresa) přístup k aktuální podobě zdroje na webu do digitálního archivu http://www.webarchiv.cz

Příklad záznamu v bázi WEB standardní záznam zdroje (na příkladu elektronického časopisu Ikaros) přístup k aktuální podobě zdroje na webu přístup do digitálního archivu http://www.webarchiv.cz

Báze WEB – standardní zobrazení záznamu http://www.webarchiv.cz

Aktuální podoba zdroje na webu http://www.webarchiv.cz

Upozornění na respektování autorských práv http://www.webarchiv.cz

Zobrazení zdroje v digitálním archivu http://www.webarchiv.cz

Infrastruktura projektu WebArchiv Ing. Petr Žabička http://www.webarchiv.cz Praha, NK, 6.12.2005

Obsah Hardwarové vybavení Softwarová infrastruktura Sklízení Archivace Zpřístupnění Prezentace http://www.webarchiv.cz

Hardwarové vybavení harvester war raptor ProLiant DL380, 2x PIII 933 MHz, 4GB RAM, SCSI, 2x Gbit LAN na páteři CESNETu, ÚVT MU připojeno SCSI diskové pole AXUS Demon RAID 16U4P 16x400 GB SATA HDD => 3x 1,6 TB war Athlon 2,4 GHz, 1 GB RAM v MZK raptor ProLiant DL360G4, Xeon 3 GHz, 1 GB RAM, 2x Gbit LAN nově instalován na ÚVT MU, čeká se na přidělení IP adresy a LAN portu CESNETem http://www.webarchiv.cz

Software volně dostupné open source produkty (s výjimkou Alephu) obecně využitelné produkty Apache, MySQL, TikiWiki, Nutch, … produkty vyvíjené speciálně pro účely archivace a zpřístupnění webových zdrojů knihovnami konsorcium IIPC (netpreserve.org) Heritrix, NutchWAX, WERA, … vlastní vývoj spolupráce s vývojáři IIPC (opravy chyb, nové funkce) komponenty propojující používané systémy (manipulace s daty) lokalizace (např. WERA) http://www.webarchiv.cz

Software – sklízení zdrojů server harvester systém Heritrix vyvinut Internet Archive a NK severských zemí v rámci IIPC robot, procházející webové stránky extrakce odkazů na další stránky implementuje množství filtrů v různých částech procesu stahování stránek možnost vložení vlastních filtrů správa přes www rozhraní Poslední „hotová“ verze 1.4 (duben 2005) Verze 1.6 zatím ve vývoji první vhodná i pro sklízení celých národních domén Stažená data i metadata ukládá do archivních souborů formátu arc snaha nepřekročit velikost 100 MB na soubor Objednán přístup k datům registru domény CZ donedávna nebylo možné Testování metody adaptive revisiting http://www.webarchiv.cz

Archivace dat Budoucnost: datové úložiště NK…? Vliv na: Uložení dat na diskovém poli (nyní zaplněno z cca 50% ~ > 2TB) Přechod od formátu tar.gz (NEDLIB Harvester) k formátu arc, resp. arc.gz (IIPC) Probíhá konverze, zároveň identifikována některá potenciálně problematická data (např. instalační CD, filmy) Snaha aby arc soubory nepřesáhly 100 MB 2005: návrh nové verze archivního formátu: WARC Web ARChive file format rozšiřuje možnosti formátu ARC (možnost uložení metadat odkazujících na jiný již uložený soubor v archivu, možnost uložení všech informací z harvester protokolu a další) Budoucnost: datové úložiště NK…? Vliv na: způsob uložení (arc vs. samostatné soubory) způsob přístupu (webové služby?) http://www.webarchiv.cz

Obsah archivu 3 celoplošné sklizně různého rozsahu (2001, 2002, 2004) 1,7 TB komprimovaných dat, 26 milionů souborů malé tematické sklizně (povodně 2002, Dalimilova kronika) sklizně smluvně zajištěných serverů (cca 4x ročně) http://www.webarchiv.cz

Formát arc vyvinutý firmou Alexa Internet, modifikace pro Heritrix základní struktura: série záznamů hlavička – metadata – data první záznam obsahuje vždy XML popis daného archivního souboru hlavička nese mj. údaje o původním URI, časové razítko, údaj o délce následujícího segmentu metadatová část obsahuje další údaje o průběhu získání dat následuje samotný soubor Do arc souboru se ukládají např i údaje získané z DNS Ale: neobsahuje mechanismy typu kontrolního součtu V praxi se používá gzip komprimovaný formát arc každý záznam komprimován samostatně a spojen s ostatními do jednoho souboru v hlavičce gzip speciální údaj ukazující na následující záznam není nutné načítat celý arc soubor kvůli přístupu k jeho části http://www.webarchiv.cz

Správa archivu Fulltextová indexace nezajišťuje možnost procházení archivu, statistiky apod. údaje o všech souborech v archivu ukládány do databáze (probíhá nyní v souvislosti s konverzí) původní URL MIME typ velikost souboru místo uložení (název arc souboru/pozice) příslušnost ke sklizni další údaje… optimalizováno na rychlost přístupu pravděpodobně přechod od MySQL k jinému typu databáze (MyIsam, InnoDB) co si od toho slibujeme možnost zpřístupnění pomocí OAI-PMH arc wayback – zpřístupnění ekvivalentní Wayback Machine od Internet Archive procházení obsahu archivu statistiky snadná manipulace s přístupovými právy http://www.webarchiv.cz

Software – zpřístupnění NutchWAX (Nutch - Web Archive Extension) původně fulltextový nástroj pro indexaci webu rozšířen díky IIPC o podporu různých časových verzí umožňuje fulltextové vyhledávání, nabízí RSS, neřeší přímo zpřístupnění dat WERA (Web Archive Access) založeno na NWA toolset, převzato IIPC interface pro veřejné zpřístupnění archivu, využívá index vytvořený NutchWAX podpora časové osy, přehledu časových verzí apod. použito pro zpřístupnění obsahu českého webového archivu http://www.webarchiv.cz

NutchWAX http://www.webarchiv.cz

www.webarchiv.cz http://www.webarchiv.cz

WERA – výsledky hledání http://www.webarchiv.cz

WERA – přehled verzí http://www.webarchiv.cz

WERA – časová osa http://www.webarchiv.cz

Software - prezentace www stránky projektu interní blog, wiki příprava přechodu na platformu TikiWiki integrované řešení pro web, blog, wiki, řízení projektu, … umožní diskusní fóra, komentáře veřejnosti, RSS mnoho dalších funkcí dostupných prostřednictvím zásuvných modulů http://www.webarchiv.cz

TikiWiki (v přípravě) http://www.webarchiv.cz

Děkujeme za pozornost webarchiv@nkp.cz http://www.webarchiv.cz Informační setkání, 6. 12. 2005, NK ČR