Digitální knihovny Miroslav Bartošek Ústav výpočetní techniky MU, Brno
M.Bartošek, Digitální knihovny EurOpen Obsah přednášky 1. DL – co to je? 2. Oblasti a technologie DL 2.1 Metadata 2.2 Identifikátory 2.3 Interoperabilita 3. SW pro tvorbu DL 4. DML-CZ: příklad DL
DL – co to je?
M.Bartošek, Digitální knihovny EurOpen DL – obecné vymezení Digitální knihovna je spravovaná sbírka informací spolu s odpovídajícími službami, přičemž informace jsou uloženy v digitální podobě a jsou dostupné prostřednictvím sítě. W.Y.Arms, systematicky budovaná digitální sbírka - výběr materiálu, důraz na kvalitu - zaměření na určitou komunitu uživatelů - služby - efektivní přístup - komplexní infrastruktura - garantovaná dlouhodobá dostupnost
M.Bartošek, Digitální knihovny EurOpen DL - landscape Digitalizace knihovny - American Memory (LoC), Kramerius (NK) historické fondy - Manuscriptorium (NK ČR) nakladatelé - Elsevier ScienceDirect, SpringerLink, DL IEEE, DL ACM, … agregátoři - ProQuest, EBSCO služby - JSTOR, Google Books
M.Bartošek, Digitální knihovny EurOpen DL - landscape Harvesting Sklízení dokumentů z webu (archivace) Internet Archive WebArchiv (NK ČR) Sklízení metadat (služby) OAIster Agregace (integrace DL) NSDL (National Science Digital Library, STEM)
M.Bartošek, Digitální knihovny EurOpen DL - landscape Born-digital preprintové repozitáře (komunikace) arXiv.org institucionální repozitáře (open access) šedá literatura (kvalifikační práce) vědecký výstup instituce oborové repozitáře (oborové pokrytí) specializované repozitáře (data z experimentů, …)
Oblasti a technologie DL
M.Bartošek, Digitální knihovny EurOpen obecný rámec a architektura DL intelektuální vlastnictví & ekonomika vícejazyčný přístup k informacím metadata interoperabilita (globální) vyhledávání zobecněný model dokumenu dlouhodobé uchovávání digitální informace budování sbírek digitalizaceborn digitalharvesting
M.Bartošek, Digitální knihovny EurOpen Oblasti 1.Metadata 2.Identifikátory 3.Interoperabilita & vyhledávání - základní standardy/technologie
M.Bartošek, Digitální knihovny EurOpen Metadata Džungle aplikačních/oborových/… metadat Metadata popisná, strukturální, administrativní, … Poptávka po formátu, který by byl jednoduchý univerzální flexibilní široce rozšířený …
M.Bartošek, Digitální knihovny EurOpen Metadata MARC klasická knihovnická metadata velmi podrobná, příliš složitá, tištěné dokumenty Dublin Core minimalistický přístup (core), popisná metadata 15 prvků, jednoduchý x kvalifikovaný DC MODS kompromis mezi DC a MARC modernizovaný MARC v XML kabátě
M.Bartošek, Digitální knihovny EurOpen Příklad: řádkový UNIMARC 001 CASLIN $a $a d1996####k##y0czey0103####ba 101 0# $acze 102 $aCZ 200 1# $aZáznam pro souborný katalog$eUNIMARC$iTištěné monografie $fPracovní skupina CASLIN pro standardizaci a jmenné $a1. vyd. 210 $aPraha$cNárodní knihovna České republiky$d $a31 s # $aStandardizace$vč $a025.3$9v $aCASLIN$bPracovní skupina pro standardizaci a #0 $aCZ$bABA001$c $gAACR2$ #3 $aCZ$bABA001$c $aABA001
M.Bartošek, Digitální knihovny EurOpen Příklad: DC v hlavičce HTML Guidance on expressing the Dublin Core within the RDF …
M.Bartošek, Digitální knihovny EurOpen Metadata METS Metadata Encoding and Transmission Standard (LoC) kontejner (XML schéma) pro složité digitální objekty struktura všechny typy metadat (popisná, administrat, technická, …) zdrojové soubory TEI Text Encoding Initiative značkovací schéma pro zápis embedded metadat nejrůznější typy e-textů (knihy, slovníky, bibliografie, …) vědecké práce v oblasti humanitních a sociálních věd teixlite
M.Bartošek, Digitální knihovny EurOpen Identifikátory globálně jednoznačné decentralizované univerzální (granularita) persistentní akční „If there is one thing that distinquishes a digital library from a mere web site, it is that libraries do their best to provide reliable, persistent access through durable links.“ (J.A.Kunze, California Digital Library)
M.Bartošek, Digitální knihovny EurOpen „Klasické“ knihovnické id Potřeba vícevrstvé propojené identifikace organizace (knihovna) ISIL Intl Standard Identifier for Libraries and Related Organizations sbírka, služba ISCI Intl Standard Collection Identifier autor/korporace ISPI Intl Standard Party Identifier dílo ISTC Intl Standard Textual Code ISWC Intl Standard Musical Work Code projev ISBN Intl Standard Book Number ISSN Intl Standard Seriál Number ISMN Intl Standard Music Number komponenta SICI Seriál Item and Contribution Identifier již existuje návrh standardu v diskusi
M.Bartošek, Digitální knihovny EurOpen „Digitální“ id PURL – persistentní URL purl.oclc.org URL s nepřímou adresací Handle CNRI – Corporation for National Research Initiatives non-TCP/IP, vlastní resoluční systém nezávislý na DNS – i násobná resoluce přímá resoluce přes handle protokol (plug-in pro web-prohlížeč) URL-resoluce přes proxy DOI – Digital Object Identifier aplikace nad handle (Asociace amerických nakladatelů) samofinancující systém (IDF + registrační agentury) velmi úspěšný, CrossRef
M.Bartošek, Digitální knihovny EurOpen Interoperabilita The common vision is one of tens of thousands of repositories of digital information that are autonomously managed yet integrated into what users view as a coherent digital library system. C.Lynch, H.García-Molina, IITA DL Workshop, 1995 Různé úrovně (syntaktická, sémantická, …) Oblasti interoperability data komunikace/vyhledávání prezentace řízení/přístup
M.Bartošek, Digitální knihovny EurOpen Interoperabilita Z39.50 Klasická knihovnická interoperabilita – search/retrieval Spolupráce mezi heterogenními knihovními systémy Meta-vyhledávání Těžkotonážní „dinosaurus“ (před webem) Mimo oblast klasických knihoven se nevyužívá (složitý) SRU/SRW silně zjednodušená Z39.50 na webových technologiích SRW – protokol nad SOAP (HTTP post + XML) SRU – protokol nad URL (HTTP get) CQL – Common Query Language
M.Bartošek, Digitální knihovny EurOpen Interoperabilita OAI Open Archive Initiative – nízkoprahová interoperabilita Cross-repository search sklízení MD + federativní vyhledávání Metadatový standard (nekvalifikovaný DC) globální identifikační schéma OAI-PMH – Protocol for Metadata Harvesting Agregace webových zdrojů Komunikace a využití složených objektů v e-science OAI-ORE – Object Reuse and Exchange ORE Primer
M.Bartošek, Digitální knihovny EurOpen Interoperabilita Linkovací služby dynamické kontextově citlivé vazby na webu appropriate copy problem OpenURL Standard pro kódování metadat zdroje do jeho URL Příklad: citace článku v databázi Medline nakladatele Ebsco Publishing: Moll, JR. Attractive electrostatic interactions. J Biol Chem Nov 3, 275(44): doi: /jbc.M &auinit=JR&date= &stitle=J%20Biol%20Chem&volume= 275&issue=44&spage=34826
M.Bartošek, Digitální knihovny EurOpen Kontextově citlivé vazby Linkovací služby - aplikační rámec nad OpenURL princip: oddělení popisu zdroje od poskytování vazeb klasická vazba: kontextově citlivá vazba: kooperační rámec: linkovací služby (link resolvers) poskytují (dynamicky) vazby (Knowledge Base o zdrojích každého zákazníka) producenti inf.zdrojů poskytující OpenURL-enabled zdroje uživatelé se registrují u svých linkovacích služeb výchozí zdroj (např. citace článku) cílový zdroj (např. plný text) výchozí zdroj cílový zdroj (kontextový !) Link server cílový zdroj (kontextový !) cílový zdroj (kontextový !)
SW pro tvorbu DL
M.Bartošek, Digitální knihovny EurOpen Open Source SW Greenstone University of Waikato, Nový Zéland jednoduchý, snadná instalace EPrints University of Southampton pre-/post-print repozitář DSpace MIT + HP Labs Institucionální repozitář FEDORA Cornel University + University of Virginia Flexibilní univerzální robustní repozitář
M.Bartošek, Digitální knihovny EurOpen Open Source SW CDS Invenio - CERN
DML-CZ: příklad DL
M.Bartošek, Digitální knihovny EurOpen Co je DML-CZ 1. Projekt pokročilá digitalizace grant - Informační společnost, AV ČR Digitální knihovna prestižní česká matematická literatura fulltexty + metadata - volně dostupné listopad 2009 – finální verze
M.Bartošek, Digitální knihovny EurOpen časopisů sborníkové řady, monografie stran článků autorů
M.Bartošek, Digitální knihovny EurOpen Projekt: cíle 1. zkoumání/vývoj technologií OCR matematiky nástroje pro tvorbu metadat – metadatový editor, DL 2. digitalizace časopisy, monografie, sborníky článkově orientovaná národní DML 3. začlenění do světové WDML mezinárodní standardy interoperabilita
M.Bartošek, Digitální knihovny EurOpen Projekt: partneři AV – Matematický ústav vedení, autorsko-právní aspekty, uživatelské požadavky MFF UK matematika, metadata AV – Knihovna digitalizace (Sirius, Kramerius) MU – FI OCR + vyhledávání matematiky MU – ÚVT integrace, implementace digitální knihovny (DSpace)
M.Bartošek, Digitální knihovny EurOpen Knihovna: obsah tištěné dokumenty 19.století – 1990 předlohy pouze v tištěné podobě klasická digitalizace retro-born-digital 1991 – 2007 předlohy v (částečně) digitální formě různé formáty - konverze digital-online 2008 – automatizované přebírání nových čísel do DML-CZ
M.Bartošek, Digitální knihovny EurOpen Příprava materiálů 2.Digitalizace 3.OCR 4.Referenční metadata (MR, ZBL) 5.Integrace -> články 6.Digitální knihovna 4.5 DML-CZ Workflow MR – Mathematical Reviews ZBL – Zentralblatt MATH
M.Bartošek, Digitální knihovny EurOpen