WebArchiv – Archiv českého webu Adam Brokeš

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Mgr. Ludmila Celbová Národní knihovna ČR
Webové rozhraní pro datové úložiště
Zpřístupnění digitálního archivu
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Iva Horová: Zpřístupňování eVŠKP Olomouc, SDRUK, IT Zpřístupňování eVŠKP současný stav a záměry.
Systémy pro zpřístupňování eVŠKP DSPACE CZ Zpráva o české komunitě DSpace Zpracovala Mgr. Pavla Rygelová Ústřední knihovna VŠB-TUO.
IISPP ■ pojem definován v letech v rámci přípravy výzkumných záměrů NPÚ na roky ■ dlouhodobý projekt na vybudování nového komplexního.
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Bc. Vladimíra Kováříková Ústřední knihovna VŠB-TU Ostrava 1. setkání českých uživatelů systému 24. dubna 2008 DSpace na VŠB-TU Ostrava.
Oborová brána KIV Knihovnický institut Národní knihovna Knihovnictví a Informační věda.
Moravská zemská knihovna a zpřístupňování starých map.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Praha Jan Mach Vysoká škola ekonomická v Praze Příprava Národního registru VŠKP a Národního úložiště šedé literatury Ing. Jan Mach
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
DSPACE na ZČU v Plzni 5. setkání uživatelů Dspace, Ostrava Ing. Radka Tichá Mgr. Anna Andrlová.
Projekt WebArchiv „Získávání, archivace a zpřístupnění domácích webových zdrojů“
ESTUP – Elektronické STUdentské Práce, Martin Pešava 2006, Brno Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby... Systém pro eVŠKP.
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Záměry Knihovny Antonína Švehly v oblasti poskytovaných služeb pro knihovníky Knihovna Antonína Švehly 2014.
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
Systém pro budování e-archivů a malých digitálních sbírek NESSOS systém pro budování e-archivů a malých digitálních sbírek Jan Pokorný, MULTIDATA Praha.
Mgr. Rostislav Krušinský VĚDECKÁ KNIHOVNA V OLOMOUCI Služba EOD - Elektronické knihy na objednávku.
Internetový prohlížeč
Internet.  Celosvětový systém propojených počítačů  Funkce  Sdílení dat  Elektronická pošta.
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Úvod mapy pro orientační běh cíle práce stav řešené problematiky očekávané výsledky výsledky ukázka aplikace budoucnost aplikace.
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Zpřístupnění elektronických zdrojů z digitálního archivu - jak a pro koho - Mgr. Ludmila Celbová Markéta Simonová Martina Tatranská.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
2 Fučíková Sylvie HR/Win – moderní technologie pro osvědčené aplikace.
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , , , ,
Dana Sigmundová Metalib aneb jak vyhledávat (skoro) ve všech (multi)oborových databázích současně? ÚK FSS MU, Ústřední knihovna FSS MU.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Projekt Digitální knihovna AV ČR a vývoj systému Kramerius Martin Lhoták, Knihovna AV ČR AMK v digitálním světě 2005, Praha.
Systém DESA DŮVĚRYHODNÁ ELEKTRONICKÁ SPISOVNA A ARCHIV
Datovýsklad Datový sklad V budoucích službách státního archivu.
TŘI ROKY DIGITÁLNÍHO UNIVERZITNÍHO REPOZITÁŘE UNIVERZITY KARLOVY Eliška Pavlásková, Andrea Fojtu Archivy, knihovny a muzea v digitálním světě.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Projekt Perfull Personifikovaný fulltextový vyhledavač Vedoucí: RNDr. Leo Galamboš, Ph.D. Řešitelé: Ondrej Bechera Vojtěch Kulvait Eva Kustrová Ondřej.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Možnosti spolupráce při vytváření digitálních sbírek Ing. Martin Lhoták Knihovna AV ČR.
Kramerius 4 – nová generace systému pro digitální knihovnu Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě ,
Základy práce s informačními zdroji pro bc. studenty SPSP Mgr. Dana Mazancová, DiS. Brno, 11. dubna 2013 Masarykova univerzita Fakulta sociálních studií.
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
OBÁLKY KNIH.cz Jiří Nechvátal Jihočeská vědecká knihovna v Českých Budějovicích
Národní digitální knihovna
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
Petr Žabička Moravská zemská knihovna v Brně Možnosti technického řešení.
Odbor digitálních fondů Zuzana Kvašová,
 nejvíce využívaná služba internetu založená na www stránkách  poskytuje virtuální informační prostor, přístupný pomocí prohlížeče  výhodou www stránek.
Jak fungují webové stránky Úvod do HTML (1). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická.
Pilotní projekt NK ČR Dobrovolné uložení elektronických publikací Mgr. Martin Žížala Oddělení doplňování domácích dokumentů.
EU peníze školám Registrační číslo projektu CZ.1.07/1.4.00/ Název projektu Inovace školství Šablona - název Inovace a zkvalitnění výuky prostřednictvím.
ODBOR SLUŽEB Seminář pro vedoucí pracovníky infrastrukturních útvarů NK ČR 13. ledna 2016.
Možnosti spolupráce: e-VŠKP v rámci systému šedé literatury
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
MOŽNOSTI PORTÁLU KNIHOVNY.CZ NEJEN PRO KNIHOVNÍKY
Transkript prezentace:

WebArchiv – Archiv českého webu Adam Brokeš

Archivace webu potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

Internet Archive Zakladatel Brewster Kahle (Amazon, AOL) Celosvětový neziskový archiv Internetu a multimedií fungující od 1996 Hlavní cíl – dlouhodobě uchovat obsah celého Internetu 2PB dat s přírustkem 20TB za měsíc Vlastní software, který je vyvíjen jako open-source Do 2000 využíval komerční služby Alexa, posléze využívá jako robota Heritrix Nezohledňují legislativy – pouze vyjímky (Scientisti,..)

WebArchiv – workflow Praha: výběr zdrojů, katalogizace, Dublin Core Metadata, dohody s autory Brno: provoz WebArchive HW, lokalizace SW, správa, vývoj, sklízení dat, zpřístupnění

Současný stav ● 4-6x ročně ● 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). ● právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. ● příležitostné tematické sklizně (letos sklizeň volby) ● čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca domén. WebArchivu ● v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů. ● legislativa

Kritéria výběru Množství online dokumentů je obrovské, kvalita různá je tedy nutno aplikovat kritéria výběru a uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií (dnes 300 zdrojů) plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. tematické sklizně – např. volby, povodně apod.

Celoplošné sklizně ● pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů ● 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ● 2004 zastavena po zaplnění dostupného úložného prostoru. ● >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů << ● pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu ● září sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max dokumentů na server, max. velikost souboru 100 MB

Celoplošné sklizně Celkový počet dokumentů v archivu: cca 140 miliónů Nekomprimovaný obsah: 5,6 TB 74%196,880403,41672,378, %4, ,336, %101, ,03432,141, %79, ,249, %41, ,015, % z reg. domén Počet domén druhé úrovně Doba stahování [dny] Nekomprimovaná velikost [GB] Počet stažených souborů Rok

Registrované domény.cz

WebArchiv - Infrastruktura Software Heritrix NutchWAX WERA Wayback WA-CZ Web Based Dublin Core Hardware: 3 HP ProLiant Servers 5.8 TB SATA diskové pole Diskové pole NK 25TB, zrcadleno

Infrastruktura

Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze ) zkvalitňování systému zvýšení bezpečnosti platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

DeDuplicator Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

WERA – Web aRchive Access spolupráce konsorcia IIPC, Internet Archive a NWA vyvíjen v PHP velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy archivované dokumenty a WERA propojeny skrz index NutchWAXe Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback

Wayback Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do archivu) Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální Připravuje se podpora fulltextového vyhledávání a lokalizace

Indexace Nutch volně dostupný modulární vyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) tato verze je zatím nestabilní

WebCurator nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). nekonzistentní konfigurace

Web Culture Heritage V rámci evropského projektu Culture partneři Estonsko, Slovinsko, Slovensko Mimo jiné -> analýza archivu, srovnání crawlerů (Heritrix, HTTrack, WebBird) Které soubory jsou relevantní pro archivaci digitálního obsahu Internetu? Výběr strategie a doporučení pro rozsáhlé sklizně, co sklízet a za jakou cenu Rozslišení na základě typů dokumentů a druhu sklizně (časové rozlišení) Významné mimetypy a pět skupin: text, image, applicaition, audio, video (nepostačující - pokusy se skupinami např. MS doc jako text apod.)

Demo Archive.org Heritrix Wayback WERA Webarchiv.cz

Budoucnost Další cíle Implementace OAI protokolu Apel na legislativu Automatizace výběrových sklizní, přenesení procedury sklizení na knihovníky, kteří jsou v kontaktu se zdrojem (WebCurator) Zdokonalení celoplošných sklizní