Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
WebArchive – Archive of the Czech Web
Mgr. Jan HUTAŘ
2
Why we started with WebArchiv?
amount of documents published on the Internet is growing dramatically – average lifespan is 40 days --> if the documents are not archived a part of the national cultural heritage would disappear forever need to save and keep accessible the documents on the CZ web about 90% documents on the web exist only in electronic form trend around the world (Australia, Sweden, Internet Archive … etc.) NK ČR is suppose to do it – it is deposit library main mission of the NK is to collect, catalog, permanently preserve documents published in the territory and make them available to the general public
3
The beginning launched in 2000 – till 2002 – grant project R&D „Registration, preservation and access of national electronic resources in the Internet“ by Ministry of Culture cooperation with Moravian Library Brno and Institute of Computer Science at the Masaryk University Brno they are our „IT department“ ;-) only grants money we are still going on! množství online dokumentů je obrovské, jejich kvalita různá je třeba uchovat dokumenty, které mají dokumentární hodnotu pro současné i budoucí generace tj. aplikovat kritéria výběru Pro akvizici zdrojů se aplikují dva přístupy: výběrová archivace (intelektuální práce), kdy se „sklízejí“ a archivují pouze dokumenty vybrané podle určitých kritérií (viz dále) plošná archivace (automatický proces - harvesting) – sklízí se např. celá národní doména (.cz). Nutná pouze kritéria technické povahy a nastavení harvesteru (Heritrix). Může se jednat o omezení maximálního počtu dokumentů sklizených z jedné webové stránky, omezení maximální velikosti sklízeného dokumentu (např. 100 MB), podporované protokoly apod. V ČR (a projektu WebArchiv) se využívají oba přístupy. V jednotlivých zemích se pohledy na to, zda využívat výběr nebo celoplošnou sklizeň příslušného národního webu, liší. Můžeme ovšem říci, že tam kde se využíval pouze výběrový přístup, později také sáhli k celoplošné sklizni (např. Austrálie[2], Dánsko[3])
4
Main Aims to implement best solution in the field of archiving of the national web, i.e. bohemical online-born documents prepare tools, methods and conditions for collecting, archiving and preserving web resources to provide long-term access to them large-scale automated harvesting of the entire national web and selective archiving are being carried out, including thematic „event-based“ collections to solve current legal issues (the legal deposit legislation, CA) Legal Deposit Act doesn‘t cover online-born documents and according to the Copyright Act, it is not possible to make archived data available to public. set selection criteria for selective approach / harvest to establish conditions for cooperation between libraries and publishers of electronic documents
5
Workflows Prague: Resource selection
Cataloguing for the National Bibliography (MARC21) Providing Dublin Core metadata for interested publishers Making archive access agreements with publishers Brno: Running WebArchiv hardware Software localization, maintenance and development Pre-harvesting resource analysis Harvesting, indexing, access Results so far: 4 harvesting rounds of .cz domain (2001, 2002, 2004, 2006) 5 event-oriented harvests several times per year – harvests of sites under agreements 5.4 TB archive with 136 million files
6
Selection Criteria The amount of documents on the Internet is quite big – for selective approach we need to find the ones with „research value“ For acquisition (harvesting) 2 approaches: selective approach - only selected documents are harvested and archived – according to selec. criteria complete harvest – of the entire national domain for example .cz. We need only to set harvester… approaches are different in different countries trend is to do both (Australia, Denmark)
7
Criteria –selective approach
to set selection criteria was very difficult we coordinated "Web Cultural Heritage„ project (in the frame of EU Culture 2000 program) Content Resource type Original form Access Format Domain National aspect Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit ]. Přístup z WWW : < [2] Podrobnosti o posledním vývoji selekčních kritérií viz
8
Criteria –selective approach
1. Contents Web resources of art or research value, news stories and feature articles and resources as outputs of government and other offices. Promotion material of an individual or a corporation is omitted. 2. Resource Type Serials, monographs, conference proceedings, research and other reports, academic works etc. 3. Original form Only resources originally published in the web – it means they have no traditional/printed copy 4. Access Only freely accessed resources are collected Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit ]. Přístup z WWW : < [2] Podrobnosti o posledním vývoji selekčních kritérií viz
9
Criteria –selective approach
5. Format Resources available in formats that are interpreted by common web browsers without necessity of installing plug-ins are collected. 6. Domain Resources accessible at servers under the top level domain .cz and at servers under the other domains … 7. National aspect Resources according to „authors nationality“, „national language“, „country or nation as a subject“ Pro účely registrace v ČNB a souběžné uchování v digitálním archivu je důležité vybírat zdroje významné z hlediska kulturně historického. K tomu slouží kritéria výběru. Proces ustanovení těchto kritérii byl velmi komplikovaný a na jejich upřesnění se stále pracuje. Nejnověji pak v rámci projektu Web Cultural Heritage[1] (program EU Culture2000), jehož je Národní knihovna ČR koordinátorem. O kritériích by se dalo psát velmi obšírně, ovšem bylo by to mimo téma tohoto článku. Jedním z nejdůležitějších je kritérium „Obsah“. Mělo by jít o webové zdroje odborného, uměleckého či zpravodajsko-publicistického zaměření. Dále se jedná o „Národní aspekt“ dané země: „národnost autora“, „národní jazyk“, „země nebo národ jako téma“, což odpovídá kriteriím pro klasickou národní bibliografii. Dále jsou kriterii „Doména“ (cz, možno uvažovat i com, net apod.), „Přístup“ (zdroj volně přístupný nebo pod heslem), „Formát“ (zdroje ve formátech interpretovatelných běžným internetovým prohlížečem), „Původní forma zdroje“ (zdroje, které nemají tištěnou verzi, jsou tzv. digital born) a konečně „Typ zdroje“ (např. konferenční materiály, monografie, online seriály, akademické práce apod.). Nutno říci, že vždy záleží na výběru té které země a na rozhodnutí, jak bude „své“ zdroje do archivu vybírat. Podrobnosti viz [2]. [1] Web Cultural Heritage [online]. [cit ]. Přístup z WWW : < [2] Podrobnosti o posledním vývoji selekčních kritérií viz
10
What we have done… continuous testing of: only open source SW
SW tools applications for harvesting, archiving, indexing and accessing of the web pages only open source SW effort / push to change legislation international cooperation (activities in R&D within IIPC – even before we become a member) we have opened part of our archive for public (since autumn 2005) the whole archive archive should be open right now (only local access) Průběžné testování SW nástrojů s využitím HW pořízeného v rámci finančních možností. Aplikace pro stahování, archivaci a indexaci/zpřístupnění webových stránek . Oblast IT zajišťuje externě ÚVT MU v Brně. V rámci pilotního projektu proběhl v roce 2001 první pokus o testovací celoplošnou sklizeň (harvest) domény .cz. V tehdejších podmínkách s jedním strojem a jedním úložištěm v podobě páskového robota. Sklizeň nazvaná cz2001 obsahuje přes 3 miliony jedinečných URL a zabírá téměř 107 GB nekomprimovaných dat. Přestože sklízení domény nemohlo být z technických příčin dokončeno, získané zkušenosti umožnily připravit se lépe na další sklizeň, která následovala v roce Nedlib harvester po dobu několika měsíců sbíral data, až do té doby kdy byla sklizeň nuceně přerušena. Sklizeň nazvaná cz2002 obsahuje 315,5 GB nekomprimovaných dat. V jejím rámci bylo alespoň jednou navštíveno přes domén druhé úrovně (zhruba jedna čtvrtina tehdejšího počtu v doméně .cz), z URL bylo staženo přes 10 milionů dokumentů. Pro omezený výkon sklízecího serveru a také kvůli srpnovým záplavám nemohla být tato sklizeň dokončena. Na náhradním HW byla provedena alespoň malá tematická sklizeň zaměřená na povodňové zpravodajství. V rámci sklizně březen - říjen 2004 (v roce 2003 sklizeň neproběhla) bylo z URL staženo 32,5 milionu souborů a byl tak vytvořen archiv o celkové velikosti 1,2 TB (po kompresi 611 GB). V témže roce byl zakoupen nový server a nové diskové pole pro uložení dat. Všechny tyto sklizně byly prováděny pomocí programu NEDLIB Harvester při hloubce zanoření až odkazů. Od poloviny roku 2004 pak bylo provedeno několik sklizní hlavních stránek většiny českých domén pomocí nového harvesteru Heritrix (viz dále).
11
Harvest of the .cz domain
2001 first try of the whole domain harvest of the .cz domain, 1 PC + tape robot, cz2001 includes over 3 mil. of unique URLs (107 GB) – not completed 2002 harvest interrupted - lack of space on data storage and floods. cz2002 includes 315,5 GB, from URLs harvested over 10 mil. docs in 2003 no harvest 2004 March- October, from URLs harvested 32,5 million files = 1,2 TB september nd harvest of .cz by Heritrix. Stoped – no data storage space. Limits: max docs/server, max. file size 100 MB all harvest executed by the NEDLIB harvester, deep links from 2004 new harvester HERITRIX 2001 první pokus o testovací celoplošnou sklizeň domény .cz, 1 stroj + páskový robot, cz2001 obsahuje přes 3 mil. jedinečných URL (107 GB) – nedokončena z tech. důvodů 2002 harvester sklízel několik měsíců přerušeno pro omezený výkon serveru a záplavy. cz2002 obsahuje 315,5 GB, z URL staženo přes 10 mil. dokumentů ( tematická sklizeň Povodně) /10 (v r neproběhla), z URL staženo 32,5 milionu souborů a vznikl 1,2 TB archiv. Zakoupen nový server a nové diskové pole. všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů od roku 2004 nový harvester Heritrix - několik sklizní hlavních stránek většiny českých domén
12
Registrované domény v .cz
13
Harvests of .cz domain in quick view
year Total downloaded documents Size – non comprimated [GB] Days of running Amount of second level domains % from all reg. domains 2001 3,015,057 104 21 41,322 38% 2002 10,249,302 307 93 79,022 69% 2004 32,141,575 1,034 204 101,378 75% 2005 9,336,123 247 12 4,795 2% 2006 72,378,019 3,416 40 196,880 74%
14
Present state of the project
4-6 times/year is harvested collection of selected resources (agreement with NK), about 350 servers. increase is around 10GB of data for each harvest it is still rising harvest of „small“ amounts of data is successful analysis of the domain .cz was done servers „suspicious“ from unrelevancy were rejected (mail, mysql apod.) as well as duplicates – number of URLs decreased from 540 to 378 thousands BUT … from 2004 we were not able to keep running the harvest of the whole .cz domain. – problem of Heritrix with memory using new release solved this issue V současnosti se využívá crawler Heritrix 6x ročně se sklízí soubor zdrojů (asi 110 serverů), na které má NK smlouvu o zpřístupnění. Přírůstek dat je okolo 10GB kompr. dat zvyšuje se sklízení omezených množin webových zdrojů je úspěšné ALE … od r se nedaří dlouhodobě udržet v provozu souvislou sklizeň domény .cz - problém Heritrixu s využitím paměti po několika dnech spotřeboval všechnu dostupnou paměť díky velkému množství odkazů, které se chystal „navštívit“. Současná verze Heritrixu slibuje tento problém odstranit, takže se počítá se spuštěním celoplošné sklizně domény .cz již v tomto roce. K přípravě tzv. semínek (startovací URL pro Heritrix) pro celoplošnou sklizeň byla provedena analýza na doméně .cz, jejíž seznam byl zakoupen ze serveru nic.cz. Byly tak vyřazeny servery, které se zdály „podezřelé“ z nerelevantního obsahu (např. názvy začínající mail, mysql, user apod.) nebo byly duplicitní (např. a Celkový počet URL tedy klesl na asi 378 tisíc z původních 540 tisíc.
15
Present state of the project
main standards are used (MARC21, DC, ISSN and URN) selected docs are catalogued in an ALEPH library system which supports Z39.50 and OAI-PMH protocols selected resources (with agreements) at least 4 times a year at present we have in WebArchiv saved cca 5,5 TB of data (uncompressed) ≈ 158 milions of documents in the end of 2007 all data will be moved on the new data repository in 2008 archive of the project should become a part of prepared project of „National Digital Library“ at National Library (together with Kramerius and Manuscriptorium) V současné době je ve WebArchivu uloženo asi 1,7 TB dat, což představuje zhruba 50 milionů archivovaných unikátních dokumentů. Snahou je, aby sklizně celé domény .cz probíhaly pokud možno jednou ročně, zdroje na které máme uzavřeny s vydavateli smlouvy pro zpřístupňování jsou sklízeny přibližně čtyřikrát do roka. Počet sklizní je do jisté míry limitován výkonem serverů, kapacitou úložného prostoru a funkčností používaného softwaru, který se průběžně vyvíjí. Koncem letošního roku by všechna data měla být uložena na novém digitálním úložišti dat Národní knihovny ČR, které by mělo i do budoucna zaručovat dostatek úložného prostoru pro další rozšiřování archivu. Zároveň by se archiv projektu WebArchiv měl v roce 2007 stát součástí připravované „Digitální knihovny“ v Národní knihovně ČR.
16
Software changes 2004 development and support of NEDLIB harvester was canceled – we replaced it by Heritrix consecutive change over to SW developed by IIPC (International Internet Preservation Consortium) archival file format nedlib replaced by ARC format (used by Heritrix) warc format in near future – then wayback Sklízení 2004 vývoj a podpora NEDLIB harvesteru definitivně zastavena postupný přechod na SW HERITRIX vyvíjený konsorciem IIPC (International Internet Preservation Consortium) Zpřístupnění Webarchiv Indexer nástroj Webarchiv Indexer pro zpřístupnění dat v archivu, vznikl jako roční projekt studentů MFF UK a uveden do provozu byl v roce 2004, kdy zpřístupňoval část archivu (kolekci zvanou serials, tj. ty zdroje, na které měla NK s vydavateli uzavřeny smlouvy). Indexer obsahoval závažné chyby a jeho vývoj dále nepokračoval. nahrazen NWA toolsetem (využívá index vytvořený Apache Lucene). změna archivního souborového formátu z nedlib na ARC formát používaný Heritrixem potřeba převést již uložená data na nový formát. Vytvořen nástroj NedlibToArc v rámci NWA, který taktéž obsahuje několik chyb (zvláště při převodu velkých souborů)
17
Harvester Heritrix – advantages
system modularity, extensibility, continual development (v.1.8), very good and fast support from Internet Archive developers open source codes and modularity allow cooperation of third party on its development – good for us ;-) 2 parts – framework and add on modules Framework – basic control over harvests, user interface, process managemenst, harvest settings modules – used for specific harvest implementation, set up each harvest step by step Heritrix je open-source software vyvíjený společností Internet Archive hlavní výhody: modulárnost, rozšiřitelnost. open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji 2 základní části - framework a přípojné moduly. Framework zajišťuje základní kontrolu nad sklizněmi, uživatelské rozhraní, správu běžících procesů a nastavení sklizní. přípojné moduly použity pro konkrétní implementaci sklizní, určují každý krok sklizně. Heritrix obsahuje mnoho implementací těchto modulů, které umožňují spouštět velmi rozsáhlé sklizně. Další výhodou je, že Heritrix je v neustálém vývoji (nyní v. 1.6). Za zmínku stojí velmi kvalitní podpora vývojářů Internet Archive. Slabinou systému je nemožnost dlouhodobě sklízet web bez odborných zásahů. S rostoucím počtem zachycených URI Heritrix „padá“ na problémech s pamětí. Dalším problémem, který se momentálně usilovně řeší, je nemožnost inkrementálního indexování na celoplošných sklizních.
18
Harvester Heritrix - problems
not possible to leave the whole process of harvesting without the control of experts trap detection extraction of links from websites (Java) memory problems (whole domain harvest) - solved incremental harvest and changes detection Pro akvizici (získání) obsahu Internetu se v současnosti v ČR používá systém Heritrix. Při používání tohoto nástroje se vyskytují určité nedokonalosti, které jsou ovšem řešeny v následujících verzích softwaru. Jedním ze zásadních problémů je získávání odkazů z webových stránek. Extrahování linků z entit href, src, img je poměrně snadné, avšak ne všechny linky se vyskytují v těchto HTML značkách[1]. Automatické sklizně se potýkají s problematikou tzv. detekce pastí. Jde o dynamicky generované dokumenty, které se navenek tváří jako zdroj velkého množství unikátních dokumentů, ačkoliv nejde o změnu informačního obsahu. Příkladem takového serveru, který je sklízen v rámci nasmlouvaných zdrojů, je militaria.cz. Zde dochází při generování stránek ke vkládání tzv. sessionID, což je speciální parametr, který označuje „sezení“ pro uživatele. Pro crawler je to problém, protože identifikuje URL s odlišným sessionID jako nové unikátní URL. Bohužel rozpoznání takových pastí je velmi obtížné, zvláště při celoplošných sklizních, kde se stahuje obrovské množství dat. Je tedy nutné individuálně ošetřit „problémové“ servery a nastavit filtry v Heritrixu, které eliminují toto nežádoucí chování. Heritrix se v současnosti při celoplošných sklizních potýká s problémy využití paměti. Vzhledem k tomu, že crawler musí projít velmi rozsáhlou frontu linků, které jsou odkazovány z tzv. „semínek“, dochází k přeplnění paměti. Prozatímní řešení je rozdělit počáteční semínka na skupiny (např. podle písmen abecedy) a sklízet tuto omezenou množinu jednou instancí Heritrixu. Toto má ovšem zásadní nevýhodu - není možné plně využít vzájemných odkazů mezi takto vzniklými částmi archivu. Uchování digitálního obsahu Internetu si vyžaduje poměrně často postřehnout změny na webových stránkách. Tuto otázku lze řešit inkrementálním sklízením. Díky obrovskému počtu zkoumaných stránek je velmi složité nějakým způsobem zajistit časté sledování změn v dokumentech a dle toho rozhodovat o jejich opětovném sklízení. Některé stránky se mění dynamicky velmi rychle, aniž by se podstatně změnil jejich obsah. Mezi další otázky patří zvolení optimální hloubky sklizně, počet sklízených dokumentů v rámci serveru, délka sklizně[2] apod. Je nutné hledat kompromisy, které napomohou k co možná nejvíce informačně hodnotné sklizni dokumentů z webu. [1] např. konstrukce linků pomocí JavaScriptu, nebo extrahovaní linků z jiných formátů jako PDF, MSWord, Flash [2] sklizeň může běžet až do vyčerpání HW prostředků, je tedy nutné ji nějak časově omezit
19
SW for access from IIPC (IA)
fulltext document indexing - NutchWAX, extension/superstructure over search engine Nutch WERA (successor of NWA tools) – user interface for accessing documents on the web – it can deal with Czech diacritics (accents etc. – display it, search by it, sort) ARCWayback make index over whole archive, it allows access into archive by URL and time Wayback for only restricted on-site access from within the library is possible to all files in the archive výrazný kvalitativní posun fulltextové indexování dokumentů - systém NutchWAX, nástavba nad vyhledávacím rozhraním Nutch. WERA (následník NWA tools) - uživatelské rozhraní pro zobrazování dokumentů (vyhledávání v archivu přes www rozhraní) a využívá index NutchWAXe. Po společném úsilí spolu s vývojáři Internet Archive se podařilo odstranit chyby a v současnosti tyto nástroje dokáží dobře zacházet s českou diakritikou, vyhledávat v indexu a zobrazovat správně kódované dokumenty. Vytvořit fulltextový index nad celým archivem je velmi technicky a výpočetně náročné, bylo proto nutné sestrojit jiný index, který by umožňoval přístup do archivu podle URL a času.
20
Nutch a NutchWAX Nutch open source search engine, by IA
comes from Apache Lucene architecture Nutch is able to: download and work up millions of sites in a month, manage and control their index and search in this index 1000times/second NutchWAX superstructure over SE Nutch made for indexing of documents archived by Heritrix set of indexing and query plug-in, which add some needed metadata to index Vývojáři Internet Archive se během roku 2004 rozhodli použít vyhledávací rozhraní Nutch pro potřeby indexování dokumentů archivovaných Heritrixem. Výsledkem tohoto snažení je nástavba Nutche – NutchWaX (NutchWeb Archive Extensions)[1]. Výhodou Nutche je jeho modulárnost, což znamená, že NutchWaX je soubor indexovacích a dotazovacích pluginů, které přidávají do indexu potřebná metadata. Tato speciální pole odpovídají potřebám indexování a dotazování archivních kolekcí dokumentů. Příkladem takových polí jsou jméno archivního souboru, ve kterém je dané URL uloženo, jméno kolekce apod. Dalším podstatným rysem je vlastní zpracování ARC souborů, které jsou pomocí modulu arc2seg konvertovány do nutch-segmentů, které jsou dále indexovány. V blízké době bude uvolněna nová verze programu, která bude plně distribuovat všechny kroky indexačního procesu a bude podporovat možnost indexovat data z několika různých datových úložišť. [1]
21
WERA - WEb aRchive Access
cooperation between IIPC, Internet Archive and NWA use some parts from NWA very easy navigation, nice user interface (time line with documents version in time) search hits in URL form are displayed very digestedly, each hit has link to the timeline to get differ. version of the same URL possibility to search by URL address (like Wayback M.) archived docs and WERA are linked by NutchWAX index Spoluprací konsorcia IIPC, Internet Archive a severských zemí vznikla WERA (Web aRchive Access). WERA je následníkem NWA projektu a využívá jeho hlavní části (prohlížeč archivních dokumentů na způsob Wayback Machine od Internet Archive). Předností tohoto systému je velmi snadná navigace a propracované uživatelské rozhraní (časová osa, která zobrazuje různé časové verze dokumentu ve zvoleném časovém rozlišení). Výsledky vyhledávání v podobě URL jsou zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL. U odkazu jsou také linky, které vyhledají dané slovo v rámci daného serveru. Zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy. Propojení mezi archivovanými dokumenty a WERA systémem zprostředkovává index Nutche. Kód využívá služeb Nutche, konkrétně XML výstupu servletu opensearchservlet. Lokalizace češtiny byla částečně převzata z předchozího nástroje NWA a upravena pro aktuální verzi
22
How does it work actually?
harvest of docs – by the Heritrix crawler, docs are saved to data storage in ARC format to make archived docs accessible we have to make index + interface, which display seach hits making of the fulltext index over the collection of selected resources v- for searching by the words- NutchWAX making of global index to provide access of the whole archive - ARCWayback displaying of docs from archive - WERA and Wayback
23
WebArchiv – Infrastructure
A1 new crawl; A2 end crawl -> index; A3 update fulltext; A4 update host list
24
WERA - ukázka http://www.webarchiv.cz
Spoluprací konsorcia IIPC, Internet Archive a severských zemí vznikla WERA (Web aRchive Access). WERA je následníkem NWA projektu a využívá jeho hlavní části (prohlížeč archivních dokumentů na způsob Wayback Machine od Internet Archive). Předností tohoto systému je velmi snadná navigace a propracované uživatelské rozhraní (časová osa, která zobrazuje různé časové verze dokumentu ve zvoleném časovém rozlišení). Výsledky vyhledávání v podobě URL jsou zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL. U odkazu jsou také linky, které vyhledají dané slovo v rámci daného serveru. Zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy. Propojení mezi archivovanými dokumenty a WERA systémem zprostředkovává index Nutche. Kód využívá služeb Nutche, konkrétně XML výstupu servletu opensearchservlet. Lokalizace češtiny byla částečně převzata z předchozího nástroje NWA a upravena pro aktuální verzi
25
Our future main aim – finish 2006 harvest, >> keep in processing the whole .cz domain harvest every year go on with selective collection and increase the amount of resources in it provide legal access to the whole archive – localy-according to the new CA (searching by URL and by the time of harvest implemantation of incremental harvest (changes identification in repeatedly harvested docs) Harvesting of bohemical resourcs outside the .cz domain - some language recognition tool Adaptive incremental harvesting
26
Our future Identification of duplicate (or rather very similar) documents Incremental indexing - adding of new docs into already made index, not to make new one everytime Fulltext indexing of the whole archive Selective harvesting on demand Permanent linking into the archive Access limitations set by the new copyright law OAI-PMH implementation on top of the registration database Building METS structures on top of the archive integration of the archive into the proposed NDL 2007/08 tzv. inkrementální sklízení, což je vlastně problém identifikace změn v opakovaně sklízených dokumentech a následné optimální funkcionalitě crawleru duplicita dokumentů. Souvisí s inkrementálním sklízením. Budoucí verze crawleru by měla být schopná rozeznat změny v dokumentech a nesklízet duplicitní dokumenty, na kterých neproběhla žádná změna (např. aktualizace) inkrementální indexování. Počet sklízených dokumentů roste a opakované vytváření celého indexu je časově náročné, systém by měl zajistit přidávání nových dokumentů do již existujícího indexu identifikace domácích dokumentů mimo doménu .cz. Mimo národní doménu existuje podstatná množina dokumentů s českým obsahem. Řešením může být projít linky ze stažených stránek odkazující mimo doménu .cz a text těchto stránek porovnat nástrojem pro identifikaci jazyka fulltextové indexování celého archivu. Vytvořit index pro fulltextové vyhledávání je extrémně náročné na výpočetní čas i na HW. Celý proces je nutno distribuovat na několik strojů. Podporu pro distribuci výpočetních kroků v sobě bude v dalším releasu plně implementovat používaný nástroj NutchWAX zakázkové sklízení. Zajištění služby sklízení daných webových portálů a jejich následné zpřístupnění analýzy dat. Při převodu ze starého formátu do nového se „velké“ soubory odkládaly do koše. Jednou z analýz bude zjistit, co za data se nachází v těchto koších. Další analýzou může být např. zjišťování reklamních banerů dle velikosti souboru a rozměru obrázku apod. otázka trvalých odkazů. Každý dokument v archivu by měl být jednoznačný identifikátor. Pokud budeme na tento dokument odkazovat z nějaké stránky, měl by být tento odkaz perzistentní, tj. neměl by se změnit ani se změnou technologie OAI protokol. Archiv se chystá podporovat protokol OAI, který napomáhá komunikaci mezi elektronickými archivy[1] v roce 2007 se archiv projektu WebArchiv stane součástí připravované „Digitální knihovny ČR“ [1]
27
People Librarians, project management: National Library: 3.5 FTE
IT management Moravian Library – 1 part-time IT Masaryk University – 6 part-time
28
Useful links – in english;-)
WebArchiv homepage Petr Žabička Digital Cultural Heritage and the Cooperation of National Memory Institutes Archiving the Czech Web: Issues and Challenges this presentation Petr ŽABIČKA: WebArchiv, Czech Web Archive tzv. inkrementální sklízení, což je vlastně problém identifikace změn v opakovaně sklízených dokumentech a následné optimální funkcionalitě crawleru duplicita dokumentů. Souvisí s inkrementálním sklízením. Budoucí verze crawleru by měla být schopná rozeznat změny v dokumentech a nesklízet duplicitní dokumenty, na kterých neproběhla žádná změna (např. aktualizace) inkrementální indexování. Počet sklízených dokumentů roste a opakované vytváření celého indexu je časově náročné, systém by měl zajistit přidávání nových dokumentů do již existujícího indexu identifikace domácích dokumentů mimo doménu .cz. Mimo národní doménu existuje podstatná množina dokumentů s českým obsahem. Řešením může být projít linky ze stažených stránek odkazující mimo doménu .cz a text těchto stránek porovnat nástrojem pro identifikaci jazyka fulltextové indexování celého archivu. Vytvořit index pro fulltextové vyhledávání je extrémně náročné na výpočetní čas i na HW. Celý proces je nutno distribuovat na několik strojů. Podporu pro distribuci výpočetních kroků v sobě bude v dalším releasu plně implementovat používaný nástroj NutchWAX zakázkové sklízení. Zajištění služby sklízení daných webových portálů a jejich následné zpřístupnění analýzy dat. Při převodu ze starého formátu do nového se „velké“ soubory odkládaly do koše. Jednou z analýz bude zjistit, co za data se nachází v těchto koších. Další analýzou může být např. zjišťování reklamních banerů dle velikosti souboru a rozměru obrázku apod. otázka trvalých odkazů. Každý dokument v archivu by měl být jednoznačný identifikátor. Pokud budeme na tento dokument odkazovat z nějaké stránky, měl by být tento odkaz perzistentní, tj. neměl by se změnit ani se změnou technologie OAI protokol. Archiv se chystá podporovat protokol OAI, který napomáhá komunikaci mezi elektronickými archivy[1] v roce 2007 se archiv projektu WebArchiv stane součástí připravované „Digitální knihovny ČR“ [1]
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.