ZNALOSTI 2004 Zpřístupňování textových informací z profesionálních zdrojů. Databázová centra, databáze a digitální knihovny. Richard Papík – Martin Souček Ústav informačních studií a knihovnictví, Filozofická fakulta,Univerzita Karlova, Praha
Současná paradigmata Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Digitální svět Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Vytěžování informačních zdrojů Databázová centra a databáze ZNALOSTI 2004 Vytěžování informačních zdrojů Ústav informačních studií a knihovnictví, FF UK, Praha
Současné přístupy k problematice vyhledávání informací Databázová centra a databáze ZNALOSTI 2004 Současné přístupy k problematice vyhledávání informací Na problematiku vyhledávání lze pohlížet mnohostranně a jako na mezioborovou disciplínu. Informační a knihovní věda se velmi intenzívně zabývá problematikou vyhledávání informací. T. SARACEVIC (1997) • interakce s informačními systémy (BELKIN, VICKERY) • informační potřeby a užití informací (DERVIN, NILES) • psychologický výzkum v oboru human-computer interaction (BORGMAN) • projektování systémů, např. založených na řízených menu (SHNEIDERMAN) • online vyhledávání v databázích (FENICHEL, BELLARDO) Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 „Viditelný“ versus „neviditelný“ web, volný internet versus profesionální zdroje Ústav informačních studií a knihovnictví, FF UK, Praha
Přístup k dialogovým systémům všeobecně Databázová centra a databáze ZNALOSTI 2004 Přístup k dialogovým systémům všeobecně Ústav informačních studií a knihovnictví, FF UK, Praha
Druhy dokumentů, druhy bází dat, „moment zpoždění“ Databázová centra a databáze ZNALOSTI 2004 Druhy dokumentů, druhy bází dat, „moment zpoždění“ Ústav informačních studií a knihovnictví, FF UK, Praha
Informační zóny Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databáze NTIS jako příklad textové databáze Databázová centra a databáze ZNALOSTI 2004 Databáze NTIS jako příklad textové databáze Ústav informačních studií a knihovnictví, FF UK, Praha
Rešeršní strategie Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Pojem digitální knihovna Pojem digitální knihovna (DL – digital library) používá se frekventovaně, ale není vždy úplně jasné, co je tímto pojmem přesně myšleno pojem pokrývající celou řadu činností, které směřují k moderním způsobům práce s digitálními fondy dva základní přístupy: spravované sbírce informací organizace poskytující informace v digitální formě.
Společné vlastnosti DL v rámci různých přístupů klíčovou úlohu hraje organizace datové sbírky, nikoliv vlastní digitalizace klade se důraz na interoperabilitu a spolupráci s dalšími subjekty obsah DL je přirozeně různorodý, heterogenní, multimediální jednotné uživatelské rozhraní pro všechny druhy a libovolné umístění dokumentů
Kahn-Wilenského architektura DL bylo třeba vytvořit infrastrukturu DL, která by umožňovala: kooperaci digitálních knihoven formalizaci představ o funkcích jednotlivých prvků DL vznikl model, který podali Kahn a Wilensky prosadil se dnes jako standard jedna z prvních implementací tohoto modelu byla např. v projektu National Digital Library
Schéma digitálního objektu Elementárním stavebním kamenem modelu je digitální objekt, kterým se rozumí datová struktura pro samostatně použitelnou elementární informační jednotku. identifikátor (handle) metadata transakční log obsah signatura
Uložení digitálních objektů DO jsou uloženy v úložištích - repozitářích, které mají přiřazeno jednoznačné globální jméno. každý repozitář komunikuje s okolím prostřednictvím jednoduchého repozitářového přístupového protokolu RAP (Repository Access Protocol), umožňujícího ukládání a pozdější zpřístupnění digitálních objektů. dalším prvkem architektury je tzv. handle-systém, sloužící jako globální resoluční mechanismus (pro digitální objekt určený svým identifikátorem vrátí seznam repozitářů, které tento objekt udržují)
Globální identifikace digitálních objektů V rámci DL je třeba mít identifikační systém, který musí být: jednoznačný (celosvětově), trvalý, škálovatelný, resolvovatelný klasické knihovnické: ISBN, ISSN, ISADN, ISTC ... URN .. identifikuje objekt v rámci registrovaného identifikačního systému PURL .. využít url ale odstranit závislost na lokaci (OCLC) systém „Handels“ .. distribuovaný glob. systém s centrální administrací DOI .. systém pro identifikaci prací chráněných copyrightem
Metainformace, metadata DC – Dublin Core Metadadata Kongresové knihovny MARC RDF
Interoperabilita, kooperace DL Schopnost spolupráce mezi technicky různorodými a organizačně nezávislými celky. používané standardy: Z39.50 OAI - Open Archive Initiative: sklízecí protokol OpenURL - propojování zdrojů od různých producentů
Právní a ekonomické prostředí Hlavní problémy a úkoly lze shrnout do několika bodů: vyvážení ekonomických a autorskoprávních hledisek DL optimalizace zájmů : autor, nakladatel, prodejce, zákazník problém s národní legislativou – internet je bez hranic pro tiskové dokumenty komplikovaná situace s copyrightem
Case study: ArXiv.org unikátní repozitář digitálních plných textů články, vědecko-výzkumných a technických zpráv, disertací založen jako automatizovaný systém pro ukládání a distribuci dokumentů v roce 1991 v rámci Národní laboratoře v Los Alamos v současné době je vlastněn, provozován a financován v rámci Cornell University, (částečná finanční podpora jde také z National Science Foundation) zahrnuje 5 vědních oblastí fyziku matematiku nelineární vědy počítačovou vědu kvantitativní biologii
Case study: ArXiv.org otevřený archiv splňuje požadavek svobodného publikování a volného přístupu k vědeckým informacím nabízí možnost jak rychle publikovat a efektivně sdílet čerstvé vědecké poznatky umožňuje publikovat rozsáhlé práce jako disertační práce, výzkumné zprávy řeší autorskoprávní problémy tím že poskytuje nástroj, který využívají sami autoři
Case study: ArXiv.org dokumenty přijímány ve formátech TeX/LaTeX, případně HTML+PNG/GIF, PDF a PS, vkládání přes WWW, FTP i E-mail; zhruba 300.000 elektronických dokumentů a 60.000 registrovaných uživatelů přímé vyhledávání přes WWW rozhraní podle předmětové oblasti, názvu, autora a slov z referátu; zobrazování a download dokumentu ve zvoleném formátu jednoduchý citační index v testovacím provozu SDI servis pro zájemce k dispozici pres e-mail vyhledávání probíhá v názvech a anotacích (využívá booleovské operátory); je iniciátorem a hlavním účastníkem Iniciativy pro propojování elektronických archívu OAI - "The Open Archives Initiative"
Case study: ArXiv.org
Etapy vyhledávacího procesu Databázová centra a databáze ZNALOSTI 2004 Etapy vyhledávacího procesu Rešeršní (vyhledávací) proces může být složen z následujících kroků (GOLDMANN, 1992, s.75): • připojení (spolu s „logon“ procedurou) • výběr báze dat • provedení rešerše • tisk (resp. download) výsledků • odpojení se od systému („logoff“ procedura) Ústav informačních studií a knihovnictví, FF UK, Praha
Průběh relace s dialogovým systémem (Budil – Kastl, 1989) Databázová centra a databáze ZNALOSTI 2004 Průběh relace s dialogovým systémem (Budil – Kastl, 1989) Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Simpler and Easier Are Better than More Powerful and Complex Systems Databázová centra a databáze ZNALOSTI 2004 Simpler and Easier Are Better than More Powerful and Complex Systems So: Arnold, S.A., Online Information 1999, London Ústav informačních studií a knihovnictví, FF UK, Praha
So: Arnold, S.A., Online Information 1999, London Databázová centra a databáze ZNALOSTI 2004 So: Arnold, S.A., Online Information 1999, London Ústav informačních studií a knihovnictví, FF UK, Praha
Operátory proto. Operátory a další elementy je obecně možno rozdělit: Databázová centra a databáze ZNALOSTI 2004 Operátory proto. Operátory a další elementy je obecně možno rozdělit: AND OR NOT (w), (n), (l), (a), (s), near, with, adj - proximitní ( ) - závorky Ústav informačních studií a knihovnictví, FF UK, Praha
Marchionini 1995 / klíčové procesy Databázová centra a databáze ZNALOSTI 2004 Marchionini 1995 / klíčové procesy Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Hodnocení systémů Problematikou vyhledávání se prolíná „čtveřice“ pojmů: • relevance • pertinence • úplnost • přesnost Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha
Databázová centra a databáze ZNALOSTI 2004 Ústav informačních studií a knihovnictví, FF UK, Praha