WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002.

Slides:



Advertisements
Podobné prezentace
Internet ve službách archivu a archivace webu
Advertisements

Mgr. Ludmila Celbová Národní knihovna ČR
Zpřístupnění digitálního archivu
Překlad Bath profilu 2.0 Martin Vojnar
VISK 7 J. Polišenský. Historie ochrany knihovních fondů v NK ČR •1994 vznik odboru ochrany knihovních fondů •1995 dokončení Centrálního depozitáře v Hostivaři.
Mgr. Pavla Rygelová Ústřední knihovna VŠB-TU Ostrava
Knihovny současnosti 2011, České Budějovice 13. – 15. září 2011
Vyhledávání v archivu českých webových zdrojů Mgr. Jan HUTAŘ Bc. Lukáš MATĚJKA Mgr. Ludmila CELBOVÁ.
Bc. Vladimíra Kováříková Ústřední knihovna VŠB-TU Ostrava 1. setkání českých uživatelů systému 24. dubna 2008 DSpace na VŠB-TU Ostrava.
XML, RDF a Dublin Core Petr Žabička
Centrální elektronická podatelna a úřední deska Městský rok informatiky.
Global network of innovation e-government – Užití IT v sociálním pojištění E-government Užití informačních technologií v sociálním pojištění.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Bohdana Stoklasová Národní knihovna ČR
Nové trendy a možnosti v oblasti digitalizace Jiří Polišenský.
CPVŠK, Hradec Králové, Digitální archivy vysokoškolských prací na vysokých školách v ČR : východiska, současný stav jejich budování a.
SLDK Zvolen, 12. září 2007 Boj s plagiáty Milan Šorm
Chceme mít také v ČR snadný přístup k vysokoškolským kvalifikačním pracím? (a co je pro to třeba udělat) Asociace knihoven vysokých škol ČR výroční konference.
Systémy pro zpřístupňování VŠKP: zkušenosti, možnosti, nabídky, potřeby … Seminář Brno,
Jak používat systém Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. 32. seminář knihovníků muzeí a galerií při AMG Plzeň.
13. února 2007Systém Kramerius, Martin Lhoták, KNAV1 Systém Kramerius aktuální stav a vývoj v roce 2007 Martin Lhoták, Knihovna AV ČR, v.v.i. SDRUK – IT,
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
DSPACE na ZČU v Plzni 5. setkání uživatelů Dspace, Ostrava Ing. Radka Tichá Mgr. Anna Andrlová.
Projekt WebArchiv „Získávání, archivace a zpřístupnění domácích webových zdrojů“
Digitální knihovna AV ČR a vývoj nové verze systému Kramerius Martin Lhoták Knihovna AV ČR, v. v. i. Archivy, knihovny, muzea v digitálním světě
Zpřístupnění plných textů vědeckých publikací v prostředí systému Medvik Helena Bouzková, Filip Kříž, Lenka Maixnerová, Eva Lesenková, Ondřej Horsák, Adéla.
Projekt MEMORIA MEMORIAE MUNDI SERIES BOHEMICA databáze MANUSCRIPTORIUM Národní knihovna ČR AiP Beroun s.r.o.
Architektura systému e-deposit Jiří Dobrovolný, Jiří Pavlík E-KNIHY 3, NTK,
1 Vít Richter ISSS 2005 – Hradec Králové Národní knihovna ČR Mobil: Archivy, knihovny, muzea a jejich úloha při.
SDRUK-IT Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK.
Uchování a trvalé zpřístupnění webových dokumentů zkušenosti z WebArchivu.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Dlouhodobé uchovávání a zpřístupňování dokumentů v digitální podobě
Sherpa/ RoMEO Iva Burešová + rozšířený kolektiv ASEP.
Identifikátory v digitálních knihovnách Martin Vojnar Vědecká knihovna v Olomouci.
Legislativní otázky týkající se problematiky online elektronických zdrojů Mgr. Iva Celbová
Bohdana Stoklasová Národní knihovna ČR
Některé digitální knihovny Martina Machátová Moravská zemská knihovna v Brně Tel.: Poslední aktualizace:
Generátor DC a URN Petr Žabička
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
Příprava novely autorského zákona Celostátní porada vysokoškolských knihoven Hradec Králové Vít Richter Národní knihovna ČR
Zpřístupnění elektronických zdrojů z digitálního archivu - jak a pro koho - Mgr. Ludmila Celbová Markéta Simonová Martina Tatranská.
Co po nás zbyde… ISSS 2005 WebArchiv digitální archiv českého webu Markéta Škodová, Národní knihovna ČR.
SU Aleph Repozitáře, archivy, a dlouhodobá ochrana digitálních informací Mgr. Eliška Pavlásková Ústav výpočetní techniky Univerzita Karlova.
Budoucnost současných internetových zdrojů Mgr. Ludmila Celbová
NÁRODNÍ DIGITÁLNÍ ARCHIV
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
WebArchiv – Archiv českého webu Adam Brokeš
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Přístup k národnímu webovému archivu Tomáš Síbek a Lukáš Gruber.
Národní úložiště šedé literatury (NÚŠL) informace o projektu SKIP Klub vysokoškolských knihoven AMU, Iva Horová.
Projekt Digitální knihovna AV ČR a vývoj systému Kramerius Martin Lhoták, Knihovna AV ČR AMK v digitálním světě 2005, Praha.
ISSS 2003 Koncept využitelných stávajících datových zdrojů pro Portál veřejné správy ISSS 2003 Krajský úřad Plzeňského kraje Odbor informatiky Václav Koudele.
Datovýsklad Datový sklad V budoucích službách státního archivu.
Elektronická podoba evidence, ochrany a zpřístupnění sbírky matrik SOA v Plzni PRAHA
Archiv českého webu Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně Ludmila Celbová, Národní knihovna ČR.
Centrální elektronická podatelna a úřední deska ISSS 2006.
Národní digitální knihovna
EBooks on Demand – projekt evropské kooperace Věra Pospíšilíková – MZK, Kateřina Kamrádková – NTK AKM 2010.
Petr Žabička Moravská zemská knihovna v Brně Možnosti technického řešení.
Odbor digitálních fondů Zuzana Kvašová,
Pilotní projekt NK ČR Dobrovolné uložení elektronických publikací Mgr. Martin Žížala Oddělení doplňování domácích dokumentů.
ELRC Seminář, Praha, Jan Hajič (MFF UK) Jak je možno se zapojit? 1.
Odbor doplňování a zpracování fondů
ODBOR SLUŽEB Seminář pro vedoucí pracovníky infrastrukturních útvarů NK ČR 13. ledna 2016.
Co chceme od technologie pro dlouhodobou archivaci?
Informační den ÚVIS MZLU, Brno
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
MOŽNOSTI PORTÁLU KNIHOVNY.CZ NEJEN PRO KNIHOVNÍKY
Transkript prezentace:

WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně Rufis 2002

Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) Zadavatel projektu: Ministerstvo kultury ČR Nositel projektu: Národní knihovna ČR Spolupráce na řešení: ÚVT MU, Brno

Vzdáleně přístupné elektronické zdroje nedílná součást národní kulturní produkce => národní kulturní dědictví obrovské množství publikací různé kvality nehmotné dokumenty dynamické povahy – nestálé

Zajištění trvalého/dlouhodobého přístupu role depozitních knihoven význam archivace na národní úrovni Problémy:  trvanlivost a morální zastarávání médií  morální zastarávání formátů souborů Řešení:  migrace na nová média  emulace vs. konverze

Další aspekty knihovnické  popis archivovaných zdrojů vs. automatická indexace legislativní  oprávnění akvizice (povinný výtisk ?)  autorská práva  možnosti zpřístupňování

Výsledky projektu server webarchiv.nkp.cz: Informace o projektu Odkazy na zdroje a zahraniční/ mezinárodní projekty Vyvinuté/lokalizované nástroje pro podporu využívání metadat  generátor/extraktor metadat Dublin Core  generátor jednoznačného identifikátoru dokumentu URN  kalkulátor kontrolního součtu dokumentu MD5 Nedlib Harvester

Generátor URN (NBN) Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele. NK zaručuje při jeho vydání jeho jednoznačnost Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …) Syntaxe: URN:NBN:cz-nkRRRRnnnn Variantně lze použít místo čísla kontrolní součet dokumentu MD5 Připravuje se přepracování systému přidělování URN jako služby integrovatelné do webových publikačních systémů

Dublin Core metadata generator Analýza existujícího dokumentu a extrakce metadat Tvorba nebo úprava metadat Dublin Core Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení Podpora kvalifikátorů DC Možnost přidělení URN

Nedlib Harvester 1/2 Programový systém pro archivaci webových informačních zdrojů Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů Podporuje protokoly http a ftp Může procházet i dynamicky generované stránky (URL s parametrem) V HTML souborech hledá odkazy na další dokumenty Nepodporuje javascript, flash, … Navržen tak, aby nepřetěžoval jednotlivé sklízené servery dodržuje pravidla v souboru robots.txt

Nedlib Harvester (2/2) Vývoj podporován především Finskou Národní knihovnou Volně dostupný Sám o sobě neřeší indexaci a zpřístupnění archivu Archivované soubory ukládá v tar.gz balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění

Sklizeň domény.cz (1/2) probíhá s přestávkami (opravy chyb, povodně,…) od doposud staženo 10.4 milionu unikátních dokumentů z cca domén 2. úrovně v současné době registrováno v doméně.cz cca domén 2. úrovně zatím sklizeno 250 GB (nekomprimovaných) dat průměrná velikost souboru 17 kB

Sklizeň domény.cz (2/2) kompresní poměr při ukládání průměrně 85% denní přírůstek archivu cca 5,5 GB komprimovaných dat průměrný datový tok pouze 640 kb/s  rychlost sklízení není limitována rychlostí připojení k Internetu, ale výpočetním výkonem serveru. (Nyní PC server / Linux)

Relativní četnost souborů v archivu podle typů

Zastoupení hlavních typů souborů v archivu podle objemu dat

Zpřístupnění archivu nutno ošetřit legislativní aspekty zpřístupnění archivu závislost na kapacitě a výkonu hardwaru severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu (Lucene ?) pro projekt NWA zakoupena technologie norské firmy Fast (prohledávač AllTheWeb) u nás – využití NWA toolsetu v kombinaci s  Convera RetrievalWare (podpora velkého množství formátů, fuzzy search)  studentský projekt na MFF UK (dokončení 1.pol. 2003) může být využit přinejmenším pro zkušební provoz (požadované funkce: vyhledávání pomocí URL, času, metadat i fulltextu)

Spolupráce Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) Účast na přípravě mezinárodního projektu "European Web Archive" v rámci 6. rámcového programu EU (podání "Expression of Interest") V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. spolupráce s týmen JIB) Nutnost spolupráce s vydavateli

Nordic Web Archive – výsledky hledání

Nordic Web Archive – časová osa

Nordic Web Archive – časová osa

Internet Archive – Wayback Machine

Internet Archive – časová osa

Internet Archive - VUT v roce 0 (1997)

Internet Archive – VUT (téměř) aktuálně

Internet archive – rozsah archivace

Děkuji za pozornost  WebArchiv  Petr Žabička Rufis září 2002