Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilMarkéta Tomanová
1
http://www.webarchiv.cz AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK
2
http://www.webarchiv.cz AKM'06 Praha NA WebArchiv – kdo a proč? potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně
3
http://www.webarchiv.cz AKM'06 Praha NA Cíle WebArchivu zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo stanovit kritéria výběru zdrojů pro národní bibliografii
4
http://www.webarchiv.cz AKM'06 Praha NA Kritéria výběru webových zdrojů množství online dokumentů je obrovské, kvalita různá nutno aplikovat kritéria výběru uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: 1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií 2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. 3. tematické sklizně – např. volby, povodně apod. trend – oba přístupy najednou (např. Austrálie, Dánsko)
5
http://www.webarchiv.cz AKM'06 Praha NA Co máme za sebou průběžné testování: SW nástrojů s využitím HW pořízeného v rámci finančních možností tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek SW výhradně open source snaha o změnu zákonů mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007) zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005 zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback
6
http://www.webarchiv.cz AKM'06 Praha NA Registrované domény v.cz
7
http://www.webarchiv.cz AKM'06 Praha NA Provedené sklizně domény.cz 2001 1. pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ( tematická sklizeň Povodně) 2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů << 2005 1. pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu září 2006 2. sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB
8
http://www.webarchiv.cz AKM'06 Praha NA Sklizně domény.cz v číslech RokPočet stažených souborů Nekomprimovaná velikost [GB] Doba stahování [dny] Počet domén druhé úrovně % z reg. domén 20013,015,0571042141,32238% 200210,249,3023079379,02269% 200432,141,5751,034204101,37875% 20059,336,123247124,7952% 200672,378,0193,41640196,88074%
9
http://www.webarchiv.cz AKM'06 Praha NA Současný stav projektu 4-6x ročně 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. příležitostné tematické sklizně (letos sklizeň volby) čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén. WebArchivu v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.
10
http://www.webarchiv.cz AKM'06 Praha NA Počet dokumentů sklizených za den
11
http://www.webarchiv.cz AKM'06 Praha NA Počet souborů a objem dat
12
http://www.webarchiv.cz AKM'06 Praha NA Změny softwarového vybavení 2004-2005 postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium – www.netpreserve.org) vývoj softwarového vybavení v rámci IIPC stále probíhá ARC archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC) bylo nutno převést již uložená data do nového formátu. připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti. podpora komprese dat a správy jejich integrity schopnost ukládat jedinečné identifikátory záznamů schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu podpora pro zpracování velmi rozsáhlých záznamů
13
http://www.webarchiv.cz AKM'06 Praha NA Budoucnost projektu pokračování maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007 vylepšení indexace (inkrementální indexování, distribuovaný index?) pokus o automatizované sklízení bohemikálních zdrojů mimo doménu.cz podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů) 2008 integrace do připravované „Digitální knihovny ČR”
14
http://www.webarchiv.cz AKM'06 Praha NA Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů
15
http://www.webarchiv.cz AKM'06 Praha NA Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.1) zkvalitňování systému zvýšení bezpečnosti platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně
16
http://www.webarchiv.cz AKM'06 Praha NA Akvizice - DeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC
17
http://www.webarchiv.cz AKM'06 Praha NA Akvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). nekonzistentní konfigurace
18
http://www.webarchiv.cz AKM'06 Praha NA Indexace – Nutch, NutchWAX Nutch vyhledávací engine volně dostupný modulární vyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) tato verze je zatím nestabilní
19
http://www.webarchiv.cz AKM'06 Praha NA WERA - WEb aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy archivované dokumenty a WERA propojeny skrz index NutchWAXe Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback
20
http://www.webarchiv.cz AKM'06 Praha NA WAYBACK Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do archivu) Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální Připravuje se podpora fulltextového vyhledávání a lokalizace
21
http://www.webarchiv.cz AKM'06 Praha NA Zkusíte to také?? dejte nám tipy na zdroje převezměte naše zkušenosti začněte sklízet sami minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor realizovaná spolupráce: Univerzitná knižnica Bratislava v budoucnu maďarská NK? po dohodě sklizeň na požádání
22
http://www.webarchiv.cz AKM'06 Praha NA Děkujeme za pozornost a těšíme se na budoucí spolupráci! webarchiv@nkp.cz webarchiv@nkp.cz
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.