Digitální knihovny Aktuální oblasti výzkumu Miroslav Bartošek MU Brno, Ústav výpočetní techniky
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Krátce z historie 1945Vannevar Bush („As We May Think“, Memex) 1965J.C.R. Licklieder („Libraries of the Future“) 60. létaMARC, OPAC (LoC, OCLC) 80. létafulltexty poč. 90 C omputing + C ommunications + C ontents (nízká cena, vysoký výkon, široká dostupnost) 1994 Digital Library Initiative, www nyní od experimentování k budování infrastruktury
Digitální knihovny = ?
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Definice DL (1) počítačnický pohled: Digitální knihovna je spravovaná sbírka informací spolu s odpovídajícími službami, přičemž informace jsou uloženy v digitální podobě a jsou dostupné prostřednictvím sítě. W.Y.Arms, udržovaná, spravovaná dig. sbírka (maintained) - služby - vzdálený přístup
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Definice DL (2) knihovnický pohled: Digitální knihovny jsou organizace, které poskytují zdroje (včetně specializovaného personálu) umožňující provádět výběr, strukturování a zpřístupnění sbírek digitálních prací, tyto práce dále distribuovat, udržovat jejich integritu a dlouhodobě uchovávat – a to vše s ohledem na snadné a ekonomické využití určitou komunitou nebo množinou komunit uživatelů. US Digital Library Federation, DL jako „instituce“ (např. knihovna) - důraz na systematickou organizaci a služby - cílenost DL (využívání určitou komunitou)
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Obecné znaky DLs organizace digitální sbírky – klíčový problém DL není jedna uzavřená entita (DLs) heterogenní, dynamické a multimediální inf. zdroje propojení autonomních inf. celků transparentní propojení koherentní přístup bez ohledu na formu, formát, způsob a místo uložení informací
Oblasti výzkumu DLs
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS obecná architektura DL intelektuální vlastnictví & ekonomika vícejazyčný přístup k informacím metadata interoperabilita globální vyhledávání zdrojů zobecněný model dokumenu dlouhodobé uchovávání digitální informace budování sbírek digitalizaceborn digitalharvesting
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Oblasti výzkumu DLs 1.Budování sbírek 2.Obecná architektura 3.Identifikace DO 4.Metadata 5.Interoperabilita, škálovatelnost 6.Vyhledávání zdrojů 7.IPR a ekonomika 8.Dlouhodobé uchovávání
1. Budování digitálních sbírek
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Budování sbírek Digitalizace – rutinní záležitost Born digital pre-print archivy (ArXiv.org) Sklízené DLs ResearchIndex WebBase OAI Archivace webu (Internet Archive, WebArchive)
2. Obecná architektura DLs
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Obecná architektura - význam Referenční model důležitý pro: ustanovení jednotného slovníku formalizaci představ o funkcích a fungování DL komponent služeb vztahů identifikaci potřebného middleware (underlying global infrastructure)
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Obecná architektura - přístupy Kahn-Willensky Framework for distrib. DO Services DO, repozitář, RAP, identifikační systém, komponenty DL FEDORA Flexible Extensible DO Repository Architecture 5S-model Societies, Scenarios, Spaces, Structures, Streams Open Digital Libraries Extended PMH
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS KWF: komponenty DL => obraz DOUser interface4. display => digital object=> Repository - RAPUser interface => repository ID=> Handle systemUser interface3. retrieve => handle=> ItemUser interface2. select => list of items=> Search systemUser interface1. search
3. Identifikátory
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Jména a identifikátory Hierarchie intelekt. děl (IFLA model) Klasické knihovnické identifikátory ISBN, ISSN, SICI, BICI, ISTC, … URN PURL - persistentní URL Systém „handles“ DOI - Digital Object Identifier
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Klasické knihovnické identif. ISBN, ISSN, ISMN, … používány již cca 30 let většinou jen pro „projev díla“ (viz IFLA model) potřeba vícevrstvé identifikace : autor ISADNIntl. Standard Authority Data Number dílo ISTCIntl. Standard Textual Work Code ISANIntl. Standard Audiovisual Number ISWCIntl. Standard Musical Work Code (2001/11) projev ISBNIntl. Standard Book Number ISSNIntl. Standard Serial Number komponenta SICISeriál Item and Contribution Identifier BICIBook Item and Component Identifier již existuje návrh standardu v diskusi
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Koncept URN nevhodnost URL (identifikuje lokaci, nikoliv obsah) URN - Uniform Resource Name globálnost a nezávislost na lokaci jednoznačnost (1 URN – 1 zdroj, ale 1 zdroj – x URN) persistence („na věky“ – i po zániku zdroje) škálovatelnost (granularita pro jakoukoliv „velikost“ zdroje) legacy support (začlenění již existujících systémů) rozšiřitelnost (na jakékoliv budoucí systémy) resolvovatelnost (jak nalézt aktuální URL, metadata, …) identifikace obsahu bez ohledu na lokaci: resoluční mechanismus ( URN –resoluce URL/metadata/…)
4. Metadata
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Metadata Klasická (knihovnická) metadata vznik jednotný, centralizovaný velký podíl ruční práce komplexní popis „síťová“ metadata specializovaná, různé komunity/určení propojování do složitějších struktur (XML, RDF, METS) nová metadatová schémata Dublin Core, INDECS, ONIX, … „teorie“ metadat požadavky na „dobře utvořená“ md-schémata
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Metadata - typologie a) z hlediska určení: popisná (vyhledání, identifikace, selekce) strukturální (uložení a zobrazování) administrativní (řízení přístupu, archivace, …) b) dle oblasti nasazení: popis/vyhledávání zdrojů (Dublin Core, MARC, RFC 1807, TEI) identifikace (DOI metadata, BibTeX) dlouhodobá archivace (OAIS model, OCLC-RLG) IPR, e-commerce (INDECS, ONIX, MPEG-21) hodnocení obsahu (PICS) interoperabilita (METS, RDF) formátově specializovaná (MPEG-7, TIFF) oborově specializovaná (fyzika, CSDGM – GIS, medicína…)
5. Interoperabilita
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Interoperabilita ? DL <> monolitický produkt = dynamický systém spolupracujících komponent „ The common vision is one of tens of thousands of repositories of digital information that are autonomously managed yet integrated into what users view as a coherent digital library system “ C.Lynch, H.García-Molina, IITA DL Workshop, 1995 interoperabilita : schopnost spolupráce mezi technicky různorodými a organizačně nezávislými komponentami různé úrovně interoperability povrchní sjednocení syntaktická hluboká sémantická
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Kritéria interoperability kritéria míry interoperability: vysoký stupeň autonomie komponent nízká cena infrastruktury snadnost přidání nové komponenty snadnost používání komponenty celková složitost škálovatelnost v počtu komponent optimalizace jednoho -> zhoršení jiného
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Metody interoperability žádná (explicitní) spolupráce webovské vyhledávače, ResearchIndex silné standardy a federace Z39.50, NCSTRL, … lehkotonážní přístupy OAI, OpenDL, OpenURL, SFX, … nové nástroje/metodologie ontologie, web-services, …
6. Vyhledávání zdrojů
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Vyhledávání - oblasti výzkumu organizace při distribuovaném vyhledávání má každé řešení svůj organizační aspekt; vždy musí existovat určitá forma koordinace – má-li být vyhledávání efektivní systémy systémová infrastruktura podporující vyhledávání (routing dotazů, mezirepozitářové protokoly, bezpečnost, soukromí, autentifikace, placení) digitální obsah logický výběr inf.bází, dotazování netextových zdrojů, ratings, filtrace, přechod od vyhledávání explicitní informace k získávání implicitních poznatků (knowledge discovery, sémantický web) rozhraní HCI: konstrukce dotazů, prezentace/vizualizace výsledků, task understanding, proces exposure metriky taxonomie pro vyhodnocování různých řešení, testbeds
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Současné pokroky nejlepší výsledky : hrubá síla ! vyhledávání infomací - webovské vyhledávače porozumění sémantice dokumentů - Deliver vyhodnocování výsledků - Google archivace digitálního dědictví - Internet Archive citační analýza - ReserchIndex reference linking - SFX extrakce m-dat z multimediálních zdrojů - Informedia budoucnost: Sémantický web ! (?)
7. IPR a ekonomika
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Klíčové aspekty nasazení DL „Technický rámec DL působí vždy v určitém legislativním, ekonomickém a sociálním kontextu“ ekonomika a legislativa (IPR) – úzce spolu souvisí Základní otázky : 1. funkce copyrightu u digitálních knihoven (jak vybalancovat veřejné právo na přístup k informacím s ekonomickými zájmy tvůrců a vydavatelů) 2. jak pokrýt různé nákladové položky v procesu vzniku, organizace, zpřístupňování, údržby, archivace dig.informace a dalších value added služeb (closed x open access) 3. technologie pro ochranu digitální-info před zneužitím (částečné zpřístupnění, HW zámky, steganografie, kryptologie, …)
8. Dlouhodobá archivace
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Archivace digitální info „Digital information is forever. It doesn’t deteriorate and requires little in the way of material media”. Andy Grove, Intel Corp. „Digital information lasts forever – or five years, whichever comes first.“ Jeff Rothenberg, RAND, 1995
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Hrozby pro dig. informaci Informace: obsah a formátování Technologické provedení (nosič) Změna obsahu Smazání obsahu Neplatný formát Nefungující software Destrukce fyzického nosiče Nedostupné čtecí zařízení hw/sw Degradace fyzického nosiče
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Digitální arch. strategie replikace a refreshing technické museum migrace emulace POP – persistent object preservation konverze do permanentní analogové formy Referenční model OAIS (Open Archival Inf. Systém) Rosetta Disk: 2“ niklová deska, litograf. nano-technologií vyrytý analogový text a obrázky ( stran, 2K-10K let) Digitální archeologie
Zdroje informací
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Další zdroje info (1) časopisy D-Lib spec.čísla CACM 95/4, 98/4, 01/5 RLG DigiNews ICSTI forum projekty na Inetu obrovské množství info (musím ale vědět, co hledám)
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Další zdroje info (2) Konference (sborníky – viz LNCS-online) Advances in DLs (IEEE) ACM Conference on DLs Joint Conference on DLs od 2001 European Conference on Research and Advanced Technologies for DLs od 1997
M.Bartošek: Digitální knihovny – oblasti výzkumu INFOS Děkuji za pozornost