Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

WebArchiv – Archiv českého webu Adam Brokeš

Podobné prezentace


Prezentace na téma: "WebArchiv – Archiv českého webu Adam Brokeš"— Transkript prezentace:

1 http://www.webarchiv.cz WebArchiv – Archiv českého webu Adam Brokeš brokes@webarchiv.cz

2 http://www.webarchiv.cz Archivace webu potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

3 http://www.webarchiv.cz Internet Archive Zakladatel Brewster Kahle (Amazon, AOL) Celosvětový neziskový archiv Internetu a multimedií fungující od 1996 Hlavní cíl – dlouhodobě uchovat obsah celého Internetu 2PB dat s přírustkem 20TB za měsíc Vlastní software, který je vyvíjen jako open-source Do 2000 využíval komerční služby Alexa, posléze využívá jako robota Heritrix Nezohledňují legislativy – pouze vyjímky (Scientisti,..)

4 http://www.webarchiv.cz WebArchiv – workflow Praha: výběr zdrojů, katalogizace, Dublin Core Metadata, dohody s autory Brno: provoz WebArchive HW, lokalizace SW, správa, vývoj, sklízení dat, zpřístupnění

5 http://www.webarchiv.cz Současný stav ● 4-6x ročně ● 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). ● právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. ● příležitostné tematické sklizně (letos sklizeň volby) ● čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén. WebArchivu ● v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů. ● legislativa

6 http://www.webarchiv.cz Kritéria výběru Množství online dokumentů je obrovské, kvalita různá je tedy nutno aplikovat kritéria výběru a uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií (dnes 300 zdrojů) plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. tematické sklizně – např. volby, povodně apod.

7 http://www.webarchiv.cz Celoplošné sklizně ● 2001 1. pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů ● 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ● 2004 zastavena po zaplnění dostupného úložného prostoru. ● >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25- 50 odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25- 50 odkazů << ● 2005 1. pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu ● září 2006 2. sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB

8 http://www.webarchiv.cz Celoplošné sklizně Celkový počet dokumentů v archivu: cca 140 miliónů Nekomprimovaný obsah: 5,6 TB 74%196,880403,41672,378,0192006 2%4,795122479,336,1232005 75%101,3782041,03432,141,5752004 69%79,0229330710,249,3022002 38%41,322211043,015,0572001 % z reg. domén Počet domén druhé úrovně Doba stahování [dny] Nekomprimovaná velikost [GB] Počet stažených souborů Rok

9 http://www.webarchiv.cz Registrované domény.cz

10 http://www.webarchiv.cz WebArchiv - Infrastruktura Software Heritrix NutchWAX WERA Wayback WA-CZ Web Based Dublin Core Hardware: 3 HP ProLiant Servers 5.8 TB SATA diskové pole Diskové pole NK 25TB, zrcadleno

11 http://www.webarchiv.cz Infrastruktura

12 http://www.webarchiv.cz Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.1) zkvalitňování systému zvýšení bezpečnosti platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

13 http://www.webarchiv.cz DeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

14 http://www.webarchiv.cz WERA – Web aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA vyvíjen v PHP velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy archivované dokumenty a WERA propojeny skrz index NutchWAXe Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback

15 http://www.webarchiv.cz Wayback Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do archivu) Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální Připravuje se podpora fulltextového vyhledávání a lokalizace

16 http://www.webarchiv.cz Indexace Nutch volně dostupný modulární vyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) tato verze je zatím nestabilní

17 http://www.webarchiv.cz WebCurator nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). nekonzistentní konfigurace

18 http://www.webarchiv.cz Web Culture Heritage V rámci evropského projektu Culture 2000 + partneři Estonsko, Slovinsko, Slovensko Mimo jiné -> analýza archivu, srovnání crawlerů (Heritrix, HTTrack, WebBird) Které soubory jsou relevantní pro archivaci digitálního obsahu Internetu? Výběr strategie a doporučení pro rozsáhlé sklizně, co sklízet a za jakou cenu Rozslišení na základě typů dokumentů a druhu sklizně (časové rozlišení) Významné mimetypy a pět skupin: text, image, applicaition, audio, video (nepostačující - pokusy se skupinami např. MS doc jako text apod.)

19 http://www.webarchiv.cz Demo Archive.org Heritrix Wayback WERA Webarchiv.cz

20 http://www.webarchiv.cz Budoucnost Další cíle Implementace OAI protokolu Apel na legislativu Automatizace výběrových sklizní, přenesení procedury sklizení na knihovníky, kteří jsou v kontaktu se zdrojem (WebCurator) Zdokonalení celoplošných sklizní


Stáhnout ppt "WebArchiv – Archiv českého webu Adam Brokeš"

Podobné prezentace


Reklamy Google