Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

SDRUK-IT 14.2.2007 Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.

Podobné prezentace


Prezentace na téma: "SDRUK-IT 14.2.2007 Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK."— Transkript prezentace:

1 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK

2 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Registrované domény v.cz

3 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Počet dokumentů sklizených za den

4 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Počet souborů a objem dat

5 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Fakta  Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů  Objem sklizených dat je 5 465 GB  První dokument byl archivován 3.9.2001

6 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů

7 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Akvizice - Heritrix  modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.2)  zkvalitňování systému  zvýšení bezpečnosti  platformě nezávislý (java aplikace)  kvalitní a rychlá podpora vývojářů z Internet Archive  open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji  v nejnovější verzi vylepšena ochrana před pádem do pastí  nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně  HDFS Writer Processor – zápis do Hadoop filesystému

8 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Akvizice - DeDuplicator  Modul pro Heritrix  Snaží se detekovat duplikáty ještě před jejich stažením  Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).  formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

9 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Akvizice – WEB CURATOR TOOL  nástroj pro správu sklízení  první verze uvolněna v září 2006  vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu.  umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní  výborná podpora uživatelských oprávnění  nepodporuje inkrementální sklízení  multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).  nekonzistentní konfigurace, částečně odlišný workflow

10 http://www.webarchiv.cz SDRUK-IT 14.2.2007

11 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Akvizice – deep web - DeepArc

12 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Indexace – Nutch, NutchWAX Nutch vyhledávací engine, podpora A9 search  volně dostupný modulární vyhledávací engine, podpora A9 search  umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX  nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko  Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)

13 http://www.webarchiv.cz SDRUK-IT 14.2.2007 WERA - WEb aRchive Access  spolupráce konsorcia IIPC, Internet Archive a NWA  využívá hlavní části NWA Toolset  velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu)  výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL  zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy  archivované dokumenty a WERA propojeny skrz index NutchWAXe  Problémy s javascriptem v některých stránkách  Vývoj ukončen, přechod na Wayback

14 http://www.webarchiv.cz SDRUK-IT 14.2.2007 WAYBACK  Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu  Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci  Režimy zpřístupnění:  Archival URL = úprava odkazů na stránce (link zpět do archivu)  Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox)  Timeline = časová osa, zatím experimentální  Připravuje se podpora fulltextového vyhledávání a lokalizace

15 http://www.webarchiv.cz SDRUK-IT 14.2.2007 WAXToolbar Plugin pro firefox (do verze 1.9) Spolupracuje s Wayback v proxy režimu

16 http://www.webarchiv.cz SDRUK-IT 14.2.2007 XInq XML INQuiry Search and browse tool for accessing an XML database

17 http://www.webarchiv.cz SDRUK-IT 14.2.2007 Děkuji za pozornost! webarchiv@nkp.cz webarchiv@nkp.cz


Stáhnout ppt "SDRUK-IT 14.2.2007 Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK."

Podobné prezentace


Reklamy Google