SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK
SDRUK-IT Registrované domény v.cz
SDRUK-IT Počet dokumentů sklizených za den
SDRUK-IT Počet souborů a objem dat
SDRUK-IT Fakta Počet sklizených souborů ke dni je 134,5 miliónů Objem sklizených dat je GB První dokument byl archivován
SDRUK-IT Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů
SDRUK-IT Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze ) zkvalitňování systému zvýšení bezpečnosti platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně HDFS Writer Processor – zápis do Hadoop filesystému
SDRUK-IT Akvizice - DeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC
SDRUK-IT Akvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). nekonzistentní konfigurace, částečně odlišný workflow
SDRUK-IT
SDRUK-IT Akvizice – deep web - DeepArc
SDRUK-IT Indexace – Nutch, NutchWAX Nutch vyhledávací engine, podpora A9 search volně dostupný modulární vyhledávací engine, podpora A9 search umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)
SDRUK-IT WERA - WEb aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy archivované dokumenty a WERA propojeny skrz index NutchWAXe Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback
SDRUK-IT WAYBACK Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do archivu) Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální Připravuje se podpora fulltextového vyhledávání a lokalizace
SDRUK-IT WAXToolbar Plugin pro firefox (do verze 1.9) Spolupracuje s Wayback v proxy režimu
SDRUK-IT XInq XML INQuiry Search and browse tool for accessing an XML database
SDRUK-IT Děkuji za pozornost!