Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.

Podobné prezentace


Prezentace na téma: "AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK."— Transkript prezentace:

1 AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK

2 AKM'06 Praha NA WebArchiv – kdo a proč?  potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace  až 90% webových dokumentů existuje pouze v elektronické podobě  NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví  WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet"  řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

3 AKM'06 Praha NA Cíle WebArchivu  zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet   připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů   zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo   stanovit kritéria výběru zdrojů pro národní bibliografii 

4 AKM'06 Praha NA Kritéria výběru webových zdrojů    množství online dokumentů je obrovské, kvalita různá  nutno aplikovat kritéria výběru  uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: 1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií 2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. 3. tematické sklizně – např. volby, povodně apod.  trend – oba přístupy najednou (např. Austrálie, Dánsko)

5 AKM'06 Praha NA Co máme za sebou  průběžné testování:  SW nástrojů s využitím HW pořízeného v rámci finančních možností  tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek  SW výhradně open source  snaha o změnu zákonů  mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007)  zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005  zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback

6 AKM'06 Praha NA Registrované domény v.cz

7 AKM'06 Praha NA Provedené sklizně domény.cz  pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů   2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy (  tematická sklizeň Povodně)  2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů <<  pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu  září sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max dokumentů na server, max. velikost souboru 100 MB

8 AKM'06 Praha NA Sklizně domény.cz v číslech RokPočet stažených souborů Nekomprimovaná velikost [GB] Doba stahování [dny] Počet domén druhé úrovně % z reg. domén 20013,015, ,32238% ,249, ,02269% ,141,5751, ,37875% 20059,336, ,7952% ,378,0193, ,88074%

9 AKM'06 Praha NA Současný stav projektu  4-6x ročně  4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány).  právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru.  příležitostné tematické sklizně (letos sklizeň volby)  čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca domén. WebArchivu  v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.

10 AKM'06 Praha NA Počet dokumentů sklizených za den

11 AKM'06 Praha NA Počet souborů a objem dat

12 AKM'06 Praha NA Změny softwarového vybavení  postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium –  vývoj softwarového vybavení v rámci IIPC stále probíhá ARC   archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC)  bylo nutno převést již uložená data do nového formátu.  připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti.  podpora komprese dat a správy jejich integrity  schopnost ukládat jedinečné identifikátory záznamů  schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu  podpora pro zpracování velmi rozsáhlých záznamů

13 AKM'06 Praha NA Budoucnost projektu pokračování  maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění  legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007  vylepšení indexace (inkrementální indexování, distribuovaný index?)  pokus o automatizované sklízení bohemikálních zdrojů mimo doménu.cz  podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů)  2008 integrace do připravované „Digitální knihovny ČR”

14 AKM'06 Praha NA Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů

15 AKM'06 Praha NA Akvizice - Heritrix  modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze )  zkvalitňování systému  zvýšení bezpečnosti  platformě nezávislý (java aplikace)  kvalitní a rychlá podpora vývojářů z Internet Archive  open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji  v nejnovější verzi vylepšena ochrana před pádem do pastí  nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

16 AKM'06 Praha NA Akvizice - DeDuplicator  Modul pro Heritrix  Snaží se detekovat duplikáty ještě před jejich stažením  Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).  formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

17 AKM'06 Praha NA Akvizice – WEB CURATOR TOOL  nástroj pro správu sklízení  první verze uvolněna v září 2006  vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu.  umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní  výborná podpora uživatelských oprávnění  nepodporuje inkrementální sklízení  multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).  nekonzistentní konfigurace

18 AKM'06 Praha NA Indexace – Nutch, NutchWAX Nutch vyhledávací engine  volně dostupný modulární vyhledávací engine  umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX  nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko  Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)  tato verze je zatím nestabilní

19 AKM'06 Praha NA WERA - WEb aRchive Access  spolupráce konsorcia IIPC, Internet Archive a NWA  využívá hlavní části NWA Toolset  velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu)  výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL  zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy  archivované dokumenty a WERA propojeny skrz index NutchWAXe  Problémy s javascriptem v některých stránkách  Vývoj ukončen, přechod na Wayback

20 AKM'06 Praha NA WAYBACK  Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu  Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci  Režimy zpřístupnění:  Archival URL = úprava odkazů na stránce (link zpět do archivu)  Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox)  Timeline = časová osa, zatím experimentální  Připravuje se podpora fulltextového vyhledávání a lokalizace

21 AKM'06 Praha NA Zkusíte to také??  dejte nám tipy na zdroje  převezměte naše zkušenosti  začněte sklízet sami  minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor  realizovaná spolupráce:  Univerzitná knižnica Bratislava  v budoucnu maďarská NK?  po dohodě sklizeň na požádání

22 AKM'06 Praha NA Děkujeme za pozornost a těšíme se na budoucí spolupráci!


Stáhnout ppt "AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK."

Podobné prezentace


Reklamy Google