AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Mgr. Ludmila Celbová Národní knihovna ČR
Zpřístupnění digitálního archivu
Přehled fondů a sbírek archivů ČR na Internetu
Systémy pro zpřístupňování eVŠKP DSPACE CZ Zpráva o české komunitě DSpace Zpracovala Mgr. Pavla Rygelová Ústřední knihovna VŠB-TUO.
AUTORSKÝ ZÁKON A ZPŘÍSTUPŇOVÁNÍ DIGITÁLNÍCH DOKUMENTŮ
Velké infrastruktury pro výzkum, vývoj a inovace
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Oborová brána KIV Knihovnický institut Národní knihovna Knihovnictví a Informační věda.
Moravská zemská knihovna a zpřístupňování starých map.
Digitální zemědělská knihovna on-line. ÚVOD ČZU SIC a KBFR – dlouhodobá koncepce rozvoje „snadného“ přístupu k informacím podpora FRVŠ –616/ Digitalizace,
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Praha Jan Mach Vysoká škola ekonomická v Praze Příprava Národního registru VŠKP a Národního úložiště šedé literatury Ing. Jan Mach
Mechanismy evaluace kulturních služeb
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Informatizace veřejných knihoven Internet a veřejné knihovny jako informační centra měst a obcí PhDr. Ivana Štrossová Okresní knihovna Havlíčkův Brod.
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Možnosti celoživotního vzdělávání pro knihovníky
Projekt WebArchiv „Získávání, archivace a zpřístupnění domácích webových zdrojů“
Záměry Knihovny Antonína Švehly v oblasti poskytovaných služeb pro knihovníky Knihovna Antonína Švehly 2014.
1 Vít Richter ISSS 2005 – Hradec Králové Národní knihovna ČR Mobil: Archivy, knihovny, muzea a jejich úloha při.
Informace z Konference Archivy, knihovny, muzea v digitálním světě 2005 v Praze se zaměřením na příspěvek Zpracování a zpřístupnění historických dokumentů.
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.
Dlouhodobé uchovávání a zpřístupňování dokumentů v digitální podobě
Bohdana Stoklasová Národní knihovna ČR
Šedá literatura Zuzana Janušová.
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
Informace o přípravě Integrovaného operačního programu  Ministerstvo kultury  Ministerstvo informatiky Vít Richter Národní knihovna ČR
Příprava novely autorského zákona Celostátní porada vysokoškolských knihoven Hradec Králové Vít Richter Národní knihovna ČR
110 let služby české historické obci Projekt Bibliografie dějin Českých zemí Věra Hanelová INFORUM ročník mezinárodní konference o profesionálních.
Zpřístupnění elektronických zdrojů z digitálního archivu - jak a pro koho - Mgr. Ludmila Celbová Markéta Simonová Martina Tatranská.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
Uchovávání diplomových prací na českých vysokých školách Ivo Brožek.
Elektronický registr oznámení Zpracoval(a): Mgr. František Rudecký
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
WebArchiv – Archiv českého webu Adam Brokeš
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Šedá literatura (Gray literature) Martina Machátová Tel.: Aktualizace:
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , , , ,
Digitalizace a ukládání Zpracoval: Jiří Hošek Datum:
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Využití NUŠL pro ukládání a zveřejňování výsledků výzkumu a vývoje V ČR Open Access: otevřený přístup k vědeckým informacím v EU a ČR Technologické centrum.
Digitální strategie krajů Zpracoval: Ing. Tomáš Vašica 1 Datum: Digitální strategie krajů Datum:
Rody Unifikované názvy Personální jména Konference Edice Akce Rodiny Korporace Geografická jména National Authority Files/ Names Soubory národních autorit.
Šedá literatura (Gray literature) Martina Machátová Tel.: Aktualizace:
Zvýšení vědeckovýzkumného potenciálu pracovníků a studentů technických vysokých škol v oblasti dopravy a nových dopravních technologií Registrační číslo:
Krajská digitální spisovna Vazby mezi projekty 2 Vysvětlivky: TCK … Technologické centrum kraje eSpS … Elektronická spisová služba DUD …
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
Digitalizace a zpřístupňování dokumentů na AMU Iva Horová: Digitalizované primární dokumenty zpřístupněné prostřednictvím prvků informačního systému školy.
OBÁLKY KNIH.cz Jiří Nechvátal Jihočeská vědecká knihovna v Českých Budějovicích
Databáze Bibliografie dějin českých zemí jako cesta k plným textům v domácích i zahraničních knihovnách Václava Horčáková Elektronické služby knihoven.
Digitální autoarchiv Národní lékařské knihovny Mgr. Lenka Maixnerová Národní lékařská knihovna.
EBooks on Demand – projekt evropské kooperace Věra Pospíšilíková – MZK, Kateřina Kamrádková – NTK AKM 2010.
Petr Žabička Moravská zemská knihovna v Brně Možnosti technického řešení.
PACS Picture Archiving and Communication System
Odbor digitálních fondů Zuzana Kvašová,
Pilotní projekt NK ČR Dobrovolné uložení elektronických publikací Mgr. Martin Žížala Oddělení doplňování domácích dokumentů.
ELRC Seminář, Praha, Jan Hajič (MFF UK) Jak je možno se zapojit? 1.
Výzkum a vývoj A NĚKTERÉ DALŠÍ SOUVISLOSTI…. Výzkum a vývoj v ČR  Rada vlády pro výzkum, vývoj a inovace  Zákony, týkající se VaV  Informační systém,
ODBOR SLUŽEB Seminář pro vedoucí pracovníky infrastrukturních útvarů NK ČR 13. ledna 2016.
Práce s datovými úložiště Jan Málek. Cíl studia Získat přehled o základních životních fázích dokumentu, povinnostech původce při jeho uchování a typech.
Svět e-zdrojů na FSV UK Mgr. Daniela Uhrová
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Jak jsme na Slovensku prováděli “audit” Centrálneho dátového archívu podle ISO Zdeněk Hruška Moravská zemská knihovna v Brně.
Výukový materiál zpracovaný v rámci projektu
MOŽNOSTI PORTÁLU KNIHOVNY.CZ NEJEN PRO KNIHOVNÍKY
Transkript prezentace:

AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK

AKM'06 Praha NA WebArchiv – kdo a proč?  potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace  až 90% webových dokumentů existuje pouze v elektronické podobě  NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví  WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet"  řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

AKM'06 Praha NA Cíle WebArchivu  zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet   připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů   zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo   stanovit kritéria výběru zdrojů pro národní bibliografii 

AKM'06 Praha NA Kritéria výběru webových zdrojů    množství online dokumentů je obrovské, kvalita různá  nutno aplikovat kritéria výběru  uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting) zdrojů se aplikují dva přístupy: 1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií 2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. 3. tematické sklizně – např. volby, povodně apod.  trend – oba přístupy najednou (např. Austrálie, Dánsko)

AKM'06 Praha NA Co máme za sebou  průběžné testování:  SW nástrojů s využitím HW pořízeného v rámci finančních možností  tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek  SW výhradně open source  snaha o změnu zákonů  mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007)  zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005  zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback

AKM'06 Praha NA Registrované domény v.cz

AKM'06 Praha NA Provedené sklizně domény.cz  pokus o plošnou sklizeň domény.cz, 1 stroj + páskový robot, nedokončena z tech. důvodů   2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy (  tematická sklizeň Povodně)  2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů > všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření odkazů <<  pokus o sklizení domény.cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu  září sklizeň domény.cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max dokumentů na server, max. velikost souboru 100 MB

AKM'06 Praha NA Sklizně domény.cz v číslech RokPočet stažených souborů Nekomprimovaná velikost [GB] Doba stahování [dny] Počet domén druhé úrovně % z reg. domén 20013,015, ,32238% ,249, ,02269% ,141,5751, ,37875% 20059,336, ,7952% ,378,0193, ,88074%

AKM'06 Praha NA Současný stav projektu  4-6x ročně  4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány).  právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru.  příležitostné tematické sklizně (letos sklizeň volby)  čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca domén. WebArchivu  v současné době je ve WebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.

AKM'06 Praha NA Počet dokumentů sklizených za den

AKM'06 Praha NA Počet souborů a objem dat

AKM'06 Praha NA Změny softwarového vybavení  postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium –  vývoj softwarového vybavení v rámci IIPC stále probíhá ARC   archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC)  bylo nutno převést již uložená data do nového formátu.  připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti.  podpora komprese dat a správy jejich integrity  schopnost ukládat jedinečné identifikátory záznamů  schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu  podpora pro zpracování velmi rozsáhlých záznamů

AKM'06 Praha NA Budoucnost projektu pokračování  maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění  legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007  vylepšení indexace (inkrementální indexování, distribuovaný index?)  pokus o automatizované sklízení bohemikálních zdrojů mimo doménu.cz  podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů)  2008 integrace do připravované „Digitální knihovny ČR”

AKM'06 Praha NA Webarchiv – jak to funguje A1 nová sklizeňA2 konec sklízení -> indexovat A3 aktualizovat fulltextA4 aktualizovat seznam souborů

AKM'06 Praha NA Akvizice - Heritrix  modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze )  zkvalitňování systému  zvýšení bezpečnosti  platformě nezávislý (java aplikace)  kvalitní a rychlá podpora vývojářů z Internet Archive  open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji  v nejnovější verzi vylepšena ochrana před pádem do pastí  nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně

AKM'06 Praha NA Akvizice - DeDuplicator  Modul pro Heritrix  Snaží se detekovat duplikáty ještě před jejich stažením  Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).  formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

AKM'06 Praha NA Akvizice – WEB CURATOR TOOL  nástroj pro správu sklízení  první verze uvolněna v září 2006  vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu.  umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní  výborná podpora uživatelských oprávnění  nepodporuje inkrementální sklízení  multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).  nekonzistentní konfigurace

AKM'06 Praha NA Indexace – Nutch, NutchWAX Nutch vyhledávací engine  volně dostupný modulární vyhledávací engine  umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX  nástavba vyhledávacího rozhraní Nutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko  Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)  tato verze je zatím nestabilní

AKM'06 Praha NA WERA - WEb aRchive Access  spolupráce konsorcia IIPC, Internet Archive a NWA  využívá hlavní části NWA Toolset  velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu)  výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL  zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy  archivované dokumenty a WERA propojeny skrz index NutchWAXe  Problémy s javascriptem v některých stránkách  Vývoj ukončen, přechod na Wayback

AKM'06 Praha NA WAYBACK  Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu  Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci  Režimy zpřístupnění:  Archival URL = úprava odkazů na stránce (link zpět do archivu)  Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox)  Timeline = časová osa, zatím experimentální  Připravuje se podpora fulltextového vyhledávání a lokalizace

AKM'06 Praha NA Zkusíte to také??  dejte nám tipy na zdroje  převezměte naše zkušenosti  začněte sklízet sami  minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor  realizovaná spolupráce:  Univerzitná knižnica Bratislava  v budoucnu maďarská NK?  po dohodě sklizeň na požádání

AKM'06 Praha NA Děkujeme za pozornost a těšíme se na budoucí spolupráci!