AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.

Podobné prezentace


Prezentace na téma: "AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK."— Transkript prezentace:

1 http://www.webarchiv.cz AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK

2 http://www.webarchiv.cz AKM'06 Praha NA WebArchiv – kdo a proč?  potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace  až 90% webových dokumentů existuje pouze v elektronické podobě  NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví  WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet"  řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

3 http://www.webarchiv.cz AKM'06 Praha NA Cíle WebArchivu  zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet   připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů   zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo   stanovit kritéria výběru zdrojů pro národní bibliografii 

4 http://www.webarchiv.cz AKM'06 Praha NA Kritéria výběru webových zdrojů    množství online dokumentů je obrovské, kvalita různá  nutno aplikovat kritéria výběru  uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: 1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií 2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. 3. tematické sklizně – např. volby, povodně apod.  trend – oba přístupy najednou (např. Austrálie, Dánsko)

5 http://www.webarchiv.cz AKM'06 Praha NA Co máme za sebou  průběžné testování:  SW nástrojů s využitím HW pořízeného v rámci finančních možností  tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek  SW výhradně open source  snaha o změnu zákonů  mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007)  zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005  zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback

6 http://www.webarchiv.cz AKM'06 Praha NA Registrované domény v.cz

7 http://www.webarchiv.cz AKM'06 Praha NA Provedené sklizně domény.cz  2001 1. pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů   2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy (  tematická sklizeň Povodně)  2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů <<  2005 1. pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu  září 2006 2. sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB

8 http://www.webarchiv.cz AKM'06 Praha NA Sklizně domény.cz v číslech RokPočet stažených souborů Nekomprimovaná velikost [GB] Doba stahování [dny] Počet domén druhé úrovně % z reg. domén 20013,015,0571042141,32238% 200210,249,3023079379,02269% 200432,141,5751,034204101,37875% 20059,336,123247124,7952% 200672,378,0193,41640196,88074%

9 http://www.webarchiv.cz AKM'06 Praha NA Současný stav projektu  4-6x ročně  4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány).  právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru.  příležitostné tematické sklizně (letos sklizeň volby)  čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén. WebArchivu  v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.

10 http://www.webarchiv.cz AKM'06 Praha NA Počet dokumentů sklizených za den

11 http://www.webarchiv.cz AKM'06 Praha NA Počet souborů a objem dat

12 http://www.webarchiv.cz AKM'06 Praha NA Změny softwarového vybavení  2004-2005 postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium – www.netpreserve.org)  vývoj softwarového vybavení v rámci IIPC stále probíhá ARC   archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC)  bylo nutno převést již uložená data do nového formátu.  připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti.  podpora komprese dat a správy jejich integrity  schopnost ukládat jedinečné identifikátory záznamů  schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu  podpora pro zpracování velmi rozsáhlých záznamů

13 http://www.webarchiv.cz AKM'06 Praha NA Budoucnost projektu pokračování  maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění  legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007  vylepšení indexace (inkrementální indexování, distribuovaný index?)  pokus o automatizované sklízení bohemikálních zdrojů mimo doménu.cz  podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů)  2008 integrace do připravované „Digitální knihovny ČR”

14 http://www.webarchiv.cz AKM'06 Praha NA Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů

15 http://www.webarchiv.cz AKM'06 Praha NA Akvizice - Heritrix  modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.1)  zkvalitňování systému  zvýšení bezpečnosti  platformě nezávislý (java aplikace)  kvalitní a rychlá podpora vývojářů z Internet Archive  open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji  v nejnovější verzi vylepšena ochrana před pádem do pastí  nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

16 http://www.webarchiv.cz AKM'06 Praha NA Akvizice - DeDuplicator  Modul pro Heritrix  Snaží se detekovat duplikáty ještě před jejich stažením  Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).  formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

17 http://www.webarchiv.cz AKM'06 Praha NA Akvizice – WEB CURATOR TOOL  nástroj pro správu sklízení  první verze uvolněna v září 2006  vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu.  umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní  výborná podpora uživatelských oprávnění  nepodporuje inkrementální sklízení  multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).  nekonzistentní konfigurace

18 http://www.webarchiv.cz AKM'06 Praha NA Indexace – Nutch, NutchWAX Nutch vyhledávací engine  volně dostupný modulární vyhledávací engine  umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX  nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko  Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)  tato verze je zatím nestabilní

19 http://www.webarchiv.cz AKM'06 Praha NA WERA - WEb aRchive Access  spolupráce konsorcia IIPC, Internet Archive a NWA  využívá hlavní části NWA Toolset  velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu)  výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL  zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy  archivované dokumenty a WERA propojeny skrz index NutchWAXe  Problémy s javascriptem v některých stránkách  Vývoj ukončen, přechod na Wayback

20 http://www.webarchiv.cz AKM'06 Praha NA WAYBACK  Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu  Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci  Režimy zpřístupnění:  Archival URL = úprava odkazů na stránce (link zpět do archivu)  Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox)  Timeline = časová osa, zatím experimentální  Připravuje se podpora fulltextového vyhledávání a lokalizace

21 http://www.webarchiv.cz AKM'06 Praha NA Zkusíte to také??  dejte nám tipy na zdroje  převezměte naše zkušenosti  začněte sklízet sami  minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor  realizovaná spolupráce:  Univerzitná knižnica Bratislava  v budoucnu maďarská NK?  po dohodě sklizeň na požádání

22 http://www.webarchiv.cz AKM'06 Praha NA Děkujeme za pozornost a těšíme se na budoucí spolupráci! webarchiv@nkp.cz webarchiv@nkp.cz


Stáhnout ppt "AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK."

Podobné prezentace


Reklamy Google