Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

WebArchiv – Archiv českého webu Adam Brokeš

Podobné prezentace


Prezentace na téma: "WebArchiv – Archiv českého webu Adam Brokeš"— Transkript prezentace:

1 WebArchiv – Archiv českého webu Adam Brokeš

2 Archivace webu potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

3 Internet Archive Zakladatel Brewster Kahle (Amazon, AOL) Celosvětový neziskový archiv Internetu a multimedií fungující od 1996 Hlavní cíl – dlouhodobě uchovat obsah celého Internetu 2PB dat s přírustkem 20TB za měsíc Vlastní software, který je vyvíjen jako open-source Do 2000 využíval komerční služby Alexa, posléze využívá jako robota Heritrix Nezohledňují legislativy – pouze vyjímky (Scientisti,..)

4 WebArchiv – workflow Praha: výběr zdrojů, katalogizace, Dublin Core Metadata, dohody s autory Brno: provoz WebArchive HW, lokalizace SW, správa, vývoj, sklízení dat, zpřístupnění

5 Současný stav ● 4-6x ročně ● 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). ● právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. ● příležitostné tematické sklizně (letos sklizeň volby) ● čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca domén. WebArchivu ● v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů. ● legislativa

6 Kritéria výběru Množství online dokumentů je obrovské, kvalita různá je tedy nutno aplikovat kritéria výběru a uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií (dnes 300 zdrojů) plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. tematické sklizně – např. volby, povodně apod.

7 Celoplošné sklizně ● pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů ● 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ● 2004 zastavena po zaplnění dostupného úložného prostoru. ● >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů << ● pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu ● září sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max dokumentů na server, max. velikost souboru 100 MB

8 Celoplošné sklizně Celkový počet dokumentů v archivu: cca 140 miliónů Nekomprimovaný obsah: 5,6 TB 74%196,880403,41672,378, %4, ,336, %101, ,03432,141, %79, ,249, %41, ,015, % z reg. domén Počet domén druhé úrovně Doba stahování [dny] Nekomprimovaná velikost [GB] Počet stažených souborů Rok

9 Registrované domény.cz

10 WebArchiv - Infrastruktura Software Heritrix NutchWAX WERA Wayback WA-CZ Web Based Dublin Core Hardware: 3 HP ProLiant Servers 5.8 TB SATA diskové pole Diskové pole NK 25TB, zrcadleno

11 Infrastruktura

12 Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze ) zkvalitňování systému zvýšení bezpečnosti platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

13 DeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

14 WERA – Web aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA vyvíjen v PHP velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy archivované dokumenty a WERA propojeny skrz index NutchWAXe Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback

15 Wayback Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do archivu) Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální Připravuje se podpora fulltextového vyhledávání a lokalizace

16 Indexace Nutch volně dostupný modulární vyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) tato verze je zatím nestabilní

17 WebCurator nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). nekonzistentní konfigurace

18 Web Culture Heritage V rámci evropského projektu Culture partneři Estonsko, Slovinsko, Slovensko Mimo jiné -> analýza archivu, srovnání crawlerů (Heritrix, HTTrack, WebBird) Které soubory jsou relevantní pro archivaci digitálního obsahu Internetu? Výběr strategie a doporučení pro rozsáhlé sklizně, co sklízet a za jakou cenu Rozslišení na základě typů dokumentů a druhu sklizně (časové rozlišení) Významné mimetypy a pět skupin: text, image, applicaition, audio, video (nepostačující - pokusy se skupinami např. MS doc jako text apod.)

19 Demo Archive.org Heritrix Wayback WERA Webarchiv.cz

20 Budoucnost Další cíle Implementace OAI protokolu Apel na legislativu Automatizace výběrových sklizní, přenesení procedury sklizení na knihovníky, kteří jsou v kontaktu se zdrojem (WebCurator) Zdokonalení celoplošných sklizní


Stáhnout ppt "WebArchiv – Archiv českého webu Adam Brokeš"

Podobné prezentace


Reklamy Google