WebArchive – Archive of the Czech Web

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Support.ebsco.com EBSCO Discovery Service Statistiky Tutorial 10. února 2013.
UŽIVATELSKÉ STATISTIKY IEEE/IET ELECTRONIC LIBRARY A ACM DL Lenka Němečková Ústřední knihovna ČVUT v Praze.
Anglicky jsem se rozhodl učit před půl rokem. I took up English six months ago (decided to learn).
CSS a HTML 5. HTML 5 HTML5 je nová verze specifikace značkovacího jazyka HTML, která přináší podstatné změny v technologiích webových stránek. HTML5 umožňuje.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
PHP – vkládání souborů a html 5
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Životní cyklus EIZ POŘÍZENÍ PŘIZPŮSOBENÍ PŘÍSTUP OHODNOCENÍ SPRÁVA PROZKOUMÁNÍ OBNOVA? TRIAL.
XML, RDF a Dublin Core Petr Žabička
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Systémy pro zpřístupňování eVŠKP 2008, Brno Ing. Jan Mach, CIKS Vysoká škola ekonomická v Praze Přenos VŠKP pomocí protokolu OAI-PMH.
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
© 2007 Cisco Systems, Inc. All rights reserved.Cisco Public ITE PC v4.0 Chapter 1 1 Operating Systems Networking for Home and Small Businesses – Chapter.
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
EBSCOhost Collection Manager ~ Vytváření profilů Tutoriál support.ebsco.com.
Microsoft Office InfoPath 2003 Tomáš Kutěj Account Technology Specialist
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Evaluation of Performance Based on Information in Documents‘ Databases Hana Pessrová Tomáš Cahlík.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
ŠKOLA: Gymnázium, Tanvald, Školní 305, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.5.00/ NÁZEV PROJEKTU: Šablony – Gymnázium Tanvald ČÍSLO.
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
WebArchiv – Archiv českého webu Adam Brokeš
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , , , ,
Příležitost pro partnery s Windows 7 Lukáš Křovák Produktový manažer divize Windows
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Import záznamů diplomových prací nové řešení Antonín Vaishar, SUAleph, 26. –
Internet Explorer 8 Štěpán Bechynský Developer Evangelist Microsoft s.r.o.
Windows 7 & Internet Explorer 8 vývoj aplikací a kompatibilita Štěpán Bechynský, Ondřej Štrba Developer Evangelists
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
The world of work Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí.
Online piracy Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí.
ŠKOLA: Gymnázium, Tanvald, Školní 305, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.5.00/ NÁZEV PROJEKTU: Šablony – Gymnázium Tanvald ČÍSLO.
Základy práce s informačními zdroji pro bc. studenty SPSP Mgr. Dana Mazancová, DiS. Brno, 11. dubna 2013 Masarykova univerzita Fakulta sociálních studií.
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
READING – BRITISH LITERATURE
Computer visualization of relational database in www environment Radek Horáček Supervisor: ing. J. Blažej,Phd. Bachelor Thesis, Department of Physical.
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
Systémy pro zpřístupňování eVŠKP DSPACE CZ Speech about Czech DSpace User Group by Pavla Rygelová Central Library of VSB – Technical.
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Podpora rozvoje cizích jazyků pro Evropu 21. stol. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tento projekt je spolufinancován Evropským sociálním fondem a státním.
Internet publishing HTML documents writing basics Petr Zámostný room: A-72a phone.: 4222
FUTURE - GOING TO, FUTURE - USING PRESENT CONTINUOUS, FUTURE PLANS Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology.
CZECH STATISTICAL OFFICE Na padesátém 81, CZ Praha 10, Czech Republic Blind Friendly Website Helena Koláčková Czech Statistical Office.
Scanservice a.s. | Náchodská 2397/23 | Praha 9 | Česká republika | D O C U M E N T I M A G I N G
EU peníze středním školám Název vzdělávacího materiálu: Verbs about clothes I Číslo vzdělávacího materiálu: AJ2-4 Šablona: II/2 Inovace a zkvalitnění výuky.
INTEGRATED RESCUE SYSTEM Střední průmyslová škola Hranice Mgr. Radka Vorlová 02_Integrated Rescue System CZ.1.07/1.5.00/
 nejvíce využívaná služba internetu založená na www stránkách  poskytuje virtuální informační prostor, přístupný pomocí prohlížeče  výhodou www stránek.
Internet. je celosvětový systém navzájem propojených počítačových sítí („síť sítí“), ve kterých mezi sebou počítače komunikují pomocí rodiny protokolů.
Internet (služby Internetu, WWW) Služby Internetu WWW (World Wide Web) – dnes nejrozšířenější služba; spoustě lidí splývá s Internetem jako takovým WWW.
Anotace Materiál je určen pro 1. ročník studijního oboru M/01 PROVOZ A EKONOMIKA DOPRAVY, předmětu Informační a komunikační technologie, inovuje.
Driving around the USA Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblast Angličtina: The USA Datum vytvoření
Internet – pojmy, služby
DIGITÁLNÍ UČEBNÍ MATERIÁL
Going across the USA Tematická oblast Angličtina: The USA
Název vzdělávacího materiálu
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Elektronický archiv v ÚMV
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Minulý čas prostý pravidelných.
Přístupnost , univerzální design a přístupnost
Business intelligence shapes security
Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
DIGITÁLNÍ UČEBNÍ MATERIÁL
ŠKOLA: Gymnázium, Tanvald, Školní 305, příspěvková organizace
Transkript prezentace:

WebArchive – Archive of the Czech Web Mgr. Jan HUTAŘ http://www.webarchiv.cz

Why we started with WebArchiv? amount of documents published on the Internet is growing dramatically – average lifespan is 40 days --> if the documents are not archived a part of the national cultural heritage would disappear forever need to save and keep accessible the documents on the CZ web about 90% documents on the web exist only in electronic form trend around the world (Australia, Sweden, Internet Archive … etc.) NK ČR is suppose to do it – it is deposit library main mission of the NK is to collect, catalog, permanently preserve documents published in the territory and make them available to the general public http://www.webarchiv.cz

The beginning launched in 2000 – till 2002 – grant project R&D „Registration, preservation and access of national electronic resources in the Internet“ by Ministry of Culture cooperation with Moravian Library Brno and Institute of Computer Science at the Masaryk University Brno they are our „IT department“ ;-) only grants money we are still going on! množství online dokumentů je obrovské, jejich kvalita různá  je třeba uchovat dokumenty, které mají dokumentární hodnotu pro současné i budoucí generace  tj. aplikovat kritéria výběru Pro akvizici zdrojů se aplikují dva přístupy: výběrová archivace (intelektuální práce), kdy se „sklízejí“ a archivují pouze dokumenty vybrané podle určitých kritérií (viz dále) plošná archivace (automatický proces - harvesting) – sklízí se např. celá národní doména (.cz). Nutná pouze kritéria technické povahy a nastavení harvesteru (Heritrix). Může se jednat o omezení maximálního počtu dokumentů sklizených z jedné webové stránky, omezení maximální velikosti sklízeného dokumentu (např. 100 MB), podporované protokoly apod. V ČR (a projektu WebArchiv) se využívají oba přístupy. V jednotlivých zemích se pohledy na to, zda využívat výběr nebo celoplošnou sklizeň příslušného národního webu, liší. Můžeme ovšem říci, že tam kde se využíval pouze výběrový přístup, později také sáhli k celoplošné sklizni (např. Austrálie[2], Dánsko[3]) http://www.webarchiv.cz

Main Aims to implement best solution in the field of archiving of the national web, i.e. bohemical online-born documents prepare tools, methods and conditions for collecting, archiving and preserving web resources to provide long-term access to them large-scale automated harvesting of the entire national web and selective archiving are being carried out, including thematic „event-based“ collections to solve current legal issues (the legal deposit legislation, CA) Legal Deposit Act doesn‘t cover online-born documents and according to the Copyright Act, it is not possible to make archived data available to public. set selection criteria for selective approach / harvest to establish conditions for cooperation between libraries and publishers of electronic documents http://www.webarchiv.cz

Workflows Prague: Resource selection Cataloguing for the National Bibliography (MARC21) Providing Dublin Core metadata for interested publishers Making archive access agreements with publishers Brno: Running WebArchiv hardware Software localization, maintenance and development Pre-harvesting resource analysis Harvesting, indexing, access Results so far: 4 harvesting rounds of .cz domain (2001, 2002, 2004, 2006) 5 event-oriented harvests several times per year – harvests of sites under agreements 5.4 TB archive with 136 million files http://www.webarchiv.cz

Selection Criteria The amount of documents on the Internet is quite big – for selective approach we need to find the ones with „research value“ For acquisition (harvesting) 2 approaches: selective approach - only selected documents are harvested and archived – according to selec. criteria complete harvest – of the entire national domain for example .cz. We need only to set harvester… approaches are different in different countries trend is to do both (Australia, Denmark) http://www.webarchiv.cz

Criteria –selective approach to set selection criteria was very difficult we coordinated "Web Cultural Heritage„ project (in the frame of EU Culture 2000 program) Content Resource type Original form Access Format Domain National aspect Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit. 18.4.2006]. Přístup z WWW : <http://www.webarchiv.cz/culture-2000/>. [2] Podrobnosti o posledním vývoji selekčních kritérií viz http://www.webarchiv.cz/culture-2000-documents/ http://www.webarchiv.cz

Criteria –selective approach 1. Contents Web resources of art or research value, news stories and feature articles and resources as outputs of government and other offices. Promotion material of an individual or a corporation is omitted. 2. Resource Type Serials, monographs, conference proceedings, research and other reports, academic works etc. 3. Original form Only resources originally published in the web – it means they have no traditional/printed copy 4. Access Only freely accessed resources are collected Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit. 18.4.2006]. Přístup z WWW : <http://www.webarchiv.cz/culture-2000/>. [2] Podrobnosti o posledním vývoji selekčních kritérií viz http://www.webarchiv.cz/culture-2000-documents/ http://www.webarchiv.cz

Criteria –selective approach 5. Format Resources available in formats that are interpreted by common web browsers without necessity of installing plug-ins are collected. 6. Domain Resources accessible at servers under the top level domain .cz and at servers under the other domains … 7. National aspect Resources according to „authors nationality“, „national language“, „country or nation as a subject“ Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit. 18.4.2006]. Přístup z WWW : <http://www.webarchiv.cz/culture-2000/>. [2] Podrobnosti o posledním vývoji selekčních kritérií viz http://www.webarchiv.cz/culture-2000-documents/ http://www.webarchiv.cz

What we have done… continuous testing of: only open source SW SW tools applications for harvesting, archiving, indexing and accessing of the web pages only open source SW effort / push to change legislation international cooperation (activities in R&D within IIPC – even before we become a member) we have opened part of our archive for public (since autumn 2005) the whole archive archive should be open right now (only local access) Průběžné testování SW nástrojů s využitím HW pořízeného v rámci finančních možností. Aplikace pro stahování, archivaci a indexaci/zpřístupnění webových stránek . Oblast IT zajišťuje externě ÚVT MU v Brně. V rámci pilotního projektu proběhl v roce 2001 první pokus o testovací celoplošnou sklizeň (harvest) domény .cz. V tehdejších podmínkách s jedním strojem a jedním úložištěm v podobě páskového robota. Sklizeň nazvaná cz2001 obsahuje přes 3 miliony jedinečných URL a zabírá téměř 107 GB nekomprimovaných dat. Přestože sklízení domény nemohlo být z technických příčin dokončeno, získané zkušenosti umožnily připravit se lépe na další sklizeň, která následovala v roce 2002. Nedlib harvester po dobu několika měsíců sbíral data, až do té doby kdy byla sklizeň nuceně přerušena. Sklizeň nazvaná cz2002 obsahuje 315,5 GB nekomprimovaných dat. V jejím rámci bylo alespoň jednou navštíveno přes 33.000 domén druhé úrovně (zhruba jedna čtvrtina tehdejšího počtu v doméně .cz), z 10 263 855 URL bylo staženo přes 10 milionů dokumentů. Pro omezený výkon sklízecího serveru a také kvůli srpnovým záplavám nemohla být tato sklizeň dokončena. Na náhradním HW byla provedena alespoň malá tematická sklizeň zaměřená na povodňové zpravodajství. V rámci sklizně březen - říjen 2004 (v roce 2003 sklizeň neproběhla) bylo z 32 149 396 URL staženo 32,5 milionu souborů a byl tak vytvořen archiv o celkové velikosti 1,2 TB (po kompresi 611 GB). V témže roce byl zakoupen nový server a nové diskové pole pro uložení dat. Všechny tyto sklizně byly prováděny pomocí programu NEDLIB Harvester při hloubce zanoření až 25-50 odkazů. Od poloviny roku 2004 pak bylo provedeno několik sklizní hlavních stránek většiny českých domén pomocí nového harvesteru Heritrix (viz dále). http://www.webarchiv.cz

Harvest of the .cz domain 2001 first try of the whole domain harvest of the .cz domain, 1 PC + tape robot, cz2001 includes over 3 mil. of unique URLs (107 GB) – not completed 2002 harvest interrupted - lack of space on data storage and floods. cz2002 includes 315,5 GB, from 10 263 855 URLs harvested over 10 mil. docs in 2003 no harvest 2004 March- October, from 32 149 396 URLs harvested 32,5 million files = 1,2 TB september 2006 2nd harvest of .cz by Heritrix. Stoped – no data storage space. Limits: max. 5000 docs/server, max. file size 100 MB all harvest executed by the NEDLIB harvester, deep 25-50 links from 2004 new harvester HERITRIX 2001 první pokus o testovací celoplošnou sklizeň domény .cz, 1 stroj + páskový robot, cz2001 obsahuje přes 3 mil. jedinečných URL (107 GB) – nedokončena z tech. důvodů 2002 harvester sklízel několik měsíců  přerušeno pro omezený výkon serveru a záplavy. cz2002 obsahuje 315,5 GB, z 10 263 855 URL staženo přes 10 mil. dokumentů ( tematická sklizeň Povodně) 2004 03/10 (v r. 2003 neproběhla), z 32 149 396 URL staženo 32,5 milionu souborů a vznikl 1,2 TB archiv. Zakoupen nový server a nové diskové pole. všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů od roku 2004 nový harvester Heritrix - několik sklizní hlavních stránek většiny českých domén http://www.webarchiv.cz

Registrované domény v .cz http://www.webarchiv.cz

Harvests of .cz domain in quick view year Total downloaded documents Size – non comprimated [GB] Days of running Amount of second level domains % from all reg. domains 2001 3,015,057 104 21 41,322 38% 2002 10,249,302 307 93 79,022 69% 2004 32,141,575 1,034 204 101,378 75% 2005 9,336,123 247 12 4,795 2% 2006 72,378,019 3,416 40 196,880 74% http://www.webarchiv.cz

Present state of the project 4-6 times/year is harvested collection of selected resources (agreement with NK), about 350 servers. increase is around 10GB of data for each harvest  it is still rising harvest of „small“ amounts of data is successful analysis of the domain .cz was done  servers „suspicious“ from unrelevancy were rejected (mail, mysql apod.) as well as duplicates – number of URLs decreased from 540 to 378 thousands BUT … from 2004 we were not able to keep running the harvest of the whole .cz domain. – problem of Heritrix with memory using  new release solved this issue V současnosti se využívá crawler Heritrix 6x ročně se sklízí soubor zdrojů (asi 110 serverů), na které má NK smlouvu o zpřístupnění. Přírůstek dat je okolo 10GB kompr. dat  zvyšuje se sklízení omezených množin webových zdrojů je úspěšné ALE … od r. 2004 se nedaří dlouhodobě udržet v provozu souvislou sklizeň domény .cz - problém Heritrixu s využitím paměti po několika dnech spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal „navštívit“. Současná verze Heritrixu slibuje tento problém odstranit, takže se počítá se spuštěním celoplošné sklizně domény .cz již v tomto roce. K přípravě tzv. semínek (startovací URL pro Heritrix) pro celoplošnou sklizeň byla provedena analýza na doméně .cz, jejíž seznam byl zakoupen ze serveru nic.cz. Byly tak vyřazeny servery, které se zdály „podezřelé“ z nerelevantního obsahu (např. názvy začínající mail, mysql, user apod.) nebo byly duplicitní (např. http://www.centrum.cz a http://centrum.cz). Celkový počet URL tedy klesl na asi 378 tisíc z původních 540 tisíc. http://www.webarchiv.cz

Present state of the project main standards are used (MARC21, DC, ISSN and URN) selected docs are catalogued in an ALEPH library system which supports Z39.50 and OAI-PMH protocols selected resources (with agreements) at least 4 times a year at present we have in WebArchiv saved cca 5,5 TB of data (uncompressed) ≈ 158 milions of documents in the end of 2007  all data will be moved on the new data repository in 2008 archive of the project should become a part of prepared project of „National Digital Library“ at National Library (together with Kramerius and Manuscriptorium) V současné době je ve WebArchivu uloženo asi 1,7 TB dat, což představuje zhruba 50 milionů archivovaných unikátních dokumentů. Snahou je, aby sklizně celé domény .cz probíhaly pokud možno jednou ročně, zdroje na které máme uzavřeny s vydavateli smlouvy pro zpřístupňování jsou sklízeny přibližně čtyřikrát do roka. Počet sklizní je do jisté míry limitován výkonem serverů, kapacitou úložného prostoru a funkčností používaného softwaru, který se průběžně vyvíjí. Koncem letošního roku by všechna data měla být uložena na novém digitálním úložišti dat Národní knihovny ČR, které by mělo i do budoucna zaručovat dostatek úložného prostoru pro další rozšiřování archivu. Zároveň by se archiv projektu WebArchiv měl v roce 2007 stát součástí připravované „Digitální knihovny“ v Národní knihovně ČR. http://www.webarchiv.cz

Software changes 2004 development and support of NEDLIB harvester was canceled – we replaced it by Heritrix 2004-2005 consecutive change over to SW developed by IIPC (International Internet Preservation Consortium) archival file format nedlib replaced by ARC format (used by Heritrix) warc format in near future – then wayback Sklízení 2004 vývoj a podpora NEDLIB harvesteru definitivně zastavena 2004-2005 postupný přechod na SW HERITRIX vyvíjený konsorciem IIPC (International Internet Preservation Consortium) Zpřístupnění Webarchiv Indexer nástroj Webarchiv Indexer pro zpřístupnění dat v archivu, vznikl jako roční projekt studentů MFF UK a uveden do provozu byl v roce 2004, kdy zpřístupňoval část archivu (kolekci zvanou serials, tj. ty zdroje, na které měla NK s vydavateli uzavřeny smlouvy). Indexer obsahoval závažné chyby a jeho vývoj dále nepokračoval. nahrazen NWA toolsetem (využívá index vytvořený Apache Lucene). změna archivního souborového formátu z nedlib na ARC formát používaný Heritrixem  potřeba převést již uložená data na nový formát. Vytvořen nástroj NedlibToArc v rámci NWA, který taktéž obsahuje několik chyb (zvláště při převodu velkých souborů) http://www.webarchiv.cz

Harvester Heritrix – advantages system modularity, extensibility, continual development (v.1.8), very good and fast support from Internet Archive developers open source codes and modularity allow cooperation of third party on its development – good for us ;-) 2 parts – framework and add on modules Framework – basic control over harvests, user interface, process managemenst, harvest settings modules – used for specific harvest implementation, set up each harvest step by step Heritrix je open-source software vyvíjený společností Internet Archive hlavní výhody: modulárnost, rozšiřitelnost. open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji 2 základní části - framework a přípojné moduly. Framework zajišťuje základní kontrolu nad sklizněmi, uživatelské rozhraní, správu běžících procesů a nastavení sklizní. přípojné moduly použity pro konkrétní implementaci sklizní, určují každý krok sklizně. Heritrix obsahuje mnoho implementací těchto modulů, které umožňují spouštět velmi rozsáhlé sklizně. Další výhodou je, že Heritrix je v neustálém vývoji (nyní v. 1.6). Za zmínku stojí velmi kvalitní podpora vývojářů Internet Archive. Slabinou systému je nemožnost dlouhodobě sklízet web bez odborných zásahů. S rostoucím počtem zachycených URI Heritrix „padá“ na problémech s pamětí. Dalším problémem, který se momentálně usilovně řeší, je nemožnost inkrementálního indexování na celoplošných sklizních. http://www.webarchiv.cz

Harvester Heritrix - problems not possible to leave the whole process of harvesting without the control of experts trap detection extraction of links from websites (Java) memory problems (whole domain harvest) - solved incremental harvest and changes detection Pro akvizici (získání) obsahu Internetu se v současnosti v ČR používá systém Heritrix. Při používání tohoto nástroje se vyskytují určité nedokonalosti, které jsou ovšem řešeny v následujících verzích softwaru. Jedním ze zásadních problémů je získávání odkazů z webových stránek. Extrahování linků z entit href, src, img je poměrně snadné, avšak ne všechny linky se vyskytují v těchto HTML značkách[1]. Automatické sklizně se potýkají s problematikou tzv. detekce pastí. Jde o dynamicky generované dokumenty, které se navenek tváří jako zdroj velkého množství unikátních dokumentů, ačkoliv nejde o změnu informačního obsahu. Příkladem takového serveru, který je sklízen v rámci nasmlouvaných zdrojů, je militaria.cz. Zde dochází při generování stránek ke vkládání tzv. sessionID, což je speciální parametr, který označuje „sezení“ pro uživatele. Pro crawler je to problém, protože identifikuje URL s odlišným sessionID jako nové unikátní URL. Bohužel rozpoznání takových pastí je velmi obtížné, zvláště při celoplošných sklizních, kde se stahuje obrovské množství dat. Je tedy nutné individuálně ošetřit „problémové“ servery a nastavit filtry v Heritrixu, které eliminují toto nežádoucí chování. Heritrix se v současnosti při celoplošných sklizních potýká s problémy využití paměti. Vzhledem k tomu, že crawler musí projít velmi rozsáhlou frontu linků, které jsou odkazovány z tzv. „semínek“, dochází k přeplnění paměti. Prozatímní řešení je rozdělit počáteční semínka na skupiny (např. podle písmen abecedy) a sklízet tuto omezenou množinu jednou instancí Heritrixu. Toto má ovšem zásadní nevýhodu - není možné plně využít vzájemných odkazů mezi takto vzniklými částmi archivu. Uchování digitálního obsahu Internetu si vyžaduje poměrně často postřehnout změny na webových stránkách. Tuto otázku lze řešit inkrementálním sklízením. Díky obrovskému počtu zkoumaných stránek je velmi složité nějakým způsobem zajistit časté sledování změn v dokumentech a dle toho rozhodovat o jejich opětovném sklízení. Některé stránky se mění dynamicky velmi rychle, aniž by se podstatně změnil jejich obsah. Mezi další otázky patří zvolení optimální hloubky sklizně, počet sklízených dokumentů v rámci serveru, délka sklizně[2] apod. Je nutné hledat kompromisy, které napomohou k co možná nejvíce informačně hodnotné sklizni dokumentů z webu. [1] např. konstrukce linků pomocí JavaScriptu, nebo extrahovaní linků z jiných formátů jako PDF, MSWord, Flash [2] sklizeň může běžet až do vyčerpání HW prostředků, je tedy nutné ji nějak časově omezit http://www.webarchiv.cz

SW for access from IIPC (IA) fulltext document indexing - NutchWAX, extension/superstructure over search engine Nutch WERA (successor of NWA tools) – user interface for accessing documents on the web – it can deal with Czech diacritics (accents etc. – display it, search by it, sort) ARCWayback make index over whole archive, it allows access into archive by URL and time Wayback for only restricted on-site access from within the library is possible to all files in the archive výrazný kvalitativní posun fulltextové indexování dokumentů - systém NutchWAX, nástavba nad vyhledávacím rozhraním Nutch. WERA (následník NWA tools) - uživatelské rozhraní pro zobrazování dokumentů (vyhledávání v archivu přes www rozhraní) a využívá index NutchWAXe. Po společném úsilí spolu s vývojáři Internet Archive se podařilo odstranit chyby a v současnosti tyto nástroje dokáží dobře zacházet s českou diakritikou, vyhledávat v indexu a zobrazovat správně kódované dokumenty. Vytvořit fulltextový index nad celým archivem je velmi technicky a výpočetně náročné, bylo proto nutné sestrojit jiný index, který by umožňoval přístup do archivu podle URL a času. http://www.webarchiv.cz

Nutch a NutchWAX Nutch open source search engine, by IA comes from Apache Lucene architecture Nutch is able to: download and work up millions of sites in a month, manage and control their index and search in this index 1000times/second NutchWAX superstructure over SE Nutch made for indexing of documents archived by Heritrix set of indexing and query plug-in, which add some needed metadata to index Vývojáři Internet Archive se během roku 2004 rozhodli použít vyhledávací rozhraní Nutch pro potřeby indexování dokumentů archivovaných Heritrixem. Výsledkem tohoto snažení je nástavba Nutche – NutchWaX (NutchWeb Archive Extensions)[1]. Výhodou Nutche je jeho modulárnost, což znamená, že NutchWaX je soubor indexovacích a dotazovacích pluginů, které přidávají do indexu potřebná metadata. Tato speciální pole odpovídají potřebám indexování a dotazování archivních kolekcí dokumentů. Příkladem takových polí jsou jméno archivního souboru, ve kterém je dané URL uloženo, jméno kolekce apod. Dalším podstatným rysem je vlastní zpracování ARC souborů, které jsou pomocí modulu arc2seg konvertovány do nutch-segmentů, které jsou dále indexovány. V blízké době bude uvolněna nová verze programu, která bude plně distribuovat všechny kroky indexačního procesu a bude podporovat možnost indexovat data z několika různých datových úložišť. [1] http://archive-access.sourceforge.net/projects/nutch/ http://www.webarchiv.cz

WERA - WEb aRchive Access cooperation between IIPC, Internet Archive and NWA use some parts from NWA very easy navigation, nice user interface (time line with documents version in time) search hits in URL form are displayed very digestedly, each hit has link to the timeline to get differ. version of the same URL possibility to search by URL address (like Wayback M.) archived docs and WERA are linked by NutchWAX index Spoluprací konsorcia IIPC, Internet Archive a severských zemí vznikla WERA (Web aRchive Access). WERA je následníkem NWA projektu a využívá jeho hlavní části (prohlížeč archivních dokumentů na způsob Wayback Machine od Internet Archive). Předností tohoto systému je velmi snadná navigace a propracované uživatelské rozhraní (časová osa, která zobrazuje různé časové verze dokumentu ve zvoleném časovém rozlišení). Výsledky vyhledávání v podobě URL jsou zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL. U odkazu jsou také linky, které vyhledají dané slovo v rámci daného serveru. Zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy. Propojení mezi archivovanými dokumenty a WERA systémem zprostředkovává index Nutche. Kód využívá služeb Nutche, konkrétně XML výstupu servletu opensearchservlet. Lokalizace češtiny byla částečně převzata z předchozího nástroje NWA a upravena pro aktuální verzi 0.4.2. http://www.webarchiv.cz

How does it work actually? harvest of docs – by the Heritrix crawler, docs are saved to data storage in ARC format to make archived docs accessible we have to make index + interface, which display seach hits making of the fulltext index over the collection of selected resources v- for searching by the words- NutchWAX making of global index to provide access of the whole archive - ARCWayback displaying of docs from archive - WERA and Wayback http://www.webarchiv.cz

WebArchiv – Infrastructure A1 new crawl; A2 end crawl -> index; A3 update fulltext; A4 update host list http://www.webarchiv.cz

WERA - ukázka http://www.webarchiv.cz Spoluprací konsorcia IIPC, Internet Archive a severských zemí vznikla WERA (Web aRchive Access). WERA je následníkem NWA projektu a využívá jeho hlavní části (prohlížeč archivních dokumentů na způsob Wayback Machine od Internet Archive). Předností tohoto systému je velmi snadná navigace a propracované uživatelské rozhraní (časová osa, která zobrazuje různé časové verze dokumentu ve zvoleném časovém rozlišení). Výsledky vyhledávání v podobě URL jsou zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL. U odkazu jsou také linky, které vyhledají dané slovo v rámci daného serveru. Zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy. Propojení mezi archivovanými dokumenty a WERA systémem zprostředkovává index Nutche. Kód využívá služeb Nutche, konkrétně XML výstupu servletu opensearchservlet. Lokalizace češtiny byla částečně převzata z předchozího nástroje NWA a upravena pro aktuální verzi 0.4.2. http://www.webarchiv.cz

Our future main aim – finish 2006 harvest, >> keep in processing the whole .cz domain harvest every year go on with selective collection and increase the amount of resources in it provide legal access to the whole archive – localy-according to the new CA (searching by URL and by the time of harvest implemantation of incremental harvest (changes identification in repeatedly harvested docs) Harvesting of bohemical resourcs outside the .cz domain - some language recognition tool Adaptive incremental harvesting http://www.webarchiv.cz

Our future Identification of duplicate (or rather very similar) documents Incremental indexing - adding of new docs into already made index, not to make new one everytime Fulltext indexing of the whole archive Selective harvesting on demand Permanent linking into the archive Access limitations set by the new copyright law OAI-PMH implementation on top of the registration database Building METS structures on top of the archive integration of the archive into the proposed NDL 2007/08 tzv. inkrementální sklízení, což je vlastně problém identifikace změn v opakovaně sklízených dokumentech a následné optimální funkcionalitě crawleru duplicita dokumentů. Souvisí s inkrementálním sklízením. Budoucí verze crawleru by měla být schopná rozeznat změny v dokumentech a nesklízet duplicitní dokumenty, na kterých neproběhla žádná změna (např. aktualizace) inkrementální indexování. Počet sklízených dokumentů roste a opakované vytváření celého indexu je časově náročné, systém by měl zajistit přidávání nových dokumentů do již existujícího indexu identifikace domácích dokumentů mimo doménu .cz. Mimo národní doménu existuje podstatná množina dokumentů s českým obsahem. Řešením může být projít linky ze stažených stránek odkazující mimo doménu .cz a text těchto stránek porovnat nástrojem pro identifikaci jazyka fulltextové indexování celého archivu. Vytvořit index pro fulltextové vyhledávání je extrémně náročné na výpočetní čas i na HW. Celý proces je nutno distribuovat na několik strojů. Podporu pro distribuci výpočetních kroků v sobě bude v dalším releasu plně implementovat používaný nástroj NutchWAX zakázkové sklízení. Zajištění služby sklízení daných webových portálů a jejich následné zpřístupnění analýzy dat. Při převodu ze starého formátu do nového se „velké“ soubory odkládaly do koše. Jednou z analýz bude zjistit, co za data se nachází v těchto koších. Další analýzou může být např. zjišťování reklamních banerů dle velikosti souboru a rozměru obrázku apod. otázka trvalých odkazů. Každý dokument v archivu by měl být jednoznačný identifikátor. Pokud budeme na tento dokument odkazovat z nějaké stránky, měl by být tento odkaz perzistentní, tj. neměl by se změnit ani se změnou technologie OAI protokol. Archiv se chystá podporovat protokol OAI, který napomáhá komunikaci mezi elektronickými archivy[1] v roce 2007 se archiv projektu WebArchiv stane součástí připravované „Digitální knihovny ČR“ [1] http://www.openarchives.org/ http://www.webarchiv.cz

People Librarians, project management: National Library: 3.5 FTE IT management Moravian Library – 1 part-time IT Masaryk University – 6 part-time http://www.webarchiv.cz

Useful links – in english;-) WebArchiv homepage http://en.webarchiv.cz/ Petr Žabička Digital Cultural Heritage and the Cooperation of National Memory Institutes Archiving the Czech Web: Issues and Challenges this presentation http://www.webarchiv.cz/files/dokumenty/konference/hutarENG.ppt Petr ŽABIČKA: WebArchiv, Czech Web Archive http://www.webarchiv.cz/files/dokumenty/konference/iipc.ppt tzv. inkrementální sklízení, což je vlastně problém identifikace změn v opakovaně sklízených dokumentech a následné optimální funkcionalitě crawleru duplicita dokumentů. Souvisí s inkrementálním sklízením. Budoucí verze crawleru by měla být schopná rozeznat změny v dokumentech a nesklízet duplicitní dokumenty, na kterých neproběhla žádná změna (např. aktualizace) inkrementální indexování. Počet sklízených dokumentů roste a opakované vytváření celého indexu je časově náročné, systém by měl zajistit přidávání nových dokumentů do již existujícího indexu identifikace domácích dokumentů mimo doménu .cz. Mimo národní doménu existuje podstatná množina dokumentů s českým obsahem. Řešením může být projít linky ze stažených stránek odkazující mimo doménu .cz a text těchto stránek porovnat nástrojem pro identifikaci jazyka fulltextové indexování celého archivu. Vytvořit index pro fulltextové vyhledávání je extrémně náročné na výpočetní čas i na HW. Celý proces je nutno distribuovat na několik strojů. Podporu pro distribuci výpočetních kroků v sobě bude v dalším releasu plně implementovat používaný nástroj NutchWAX zakázkové sklízení. Zajištění služby sklízení daných webových portálů a jejich následné zpřístupnění analýzy dat. Při převodu ze starého formátu do nového se „velké“ soubory odkládaly do koše. Jednou z analýz bude zjistit, co za data se nachází v těchto koších. Další analýzou může být např. zjišťování reklamních banerů dle velikosti souboru a rozměru obrázku apod. otázka trvalých odkazů. Každý dokument v archivu by měl být jednoznačný identifikátor. Pokud budeme na tento dokument odkazovat z nějaké stránky, měl by být tento odkaz perzistentní, tj. neměl by se změnit ani se změnou technologie OAI protokol. Archiv se chystá podporovat protokol OAI, který napomáhá komunikaci mezi elektronickými archivy[1] v roce 2007 se archiv projektu WebArchiv stane součástí připravované „Digitální knihovny ČR“ [1] http://www.openarchives.org/ http://www.webarchiv.cz