Kooperační systém článkové bibliografie a báze ANL, ANL FULL INFOS´ 2003 Knižnice - mosty informačnej spoločnosti Stará Lesná, Ivana Anděrová, oddělení analytického zpracování NKČR KOSABI, ANOPRESS
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -1 Nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části. Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting). Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -2 Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků, kvalifikované atributem či nekvalifikované. Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy). Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě. XML/RDF: popis systému značek DTD (Document Type Description) tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky. Identifikace plných textů: URL, PURL (databáze, PURL je přiřazeno danému URL), URN, SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv). Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 3 Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML, XHTML, XML/RDF. Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny). Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE). Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 4 Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny. Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí. Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně. Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla.
Článková bibliografie a zpřístupnění plných textů - některé projekty řešené v NKČR Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, ). Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, ).
Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a „širší“ (plus oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem. Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL. Kooperace po linii regionální a oborové. Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR. Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty. Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI. Bibliografické zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL. SKAT (Lanius)
ANL, ANL FULL NKČR KOSABI MZK ???? krajská knihovna odborná knihovna SKAT (LANIUS) městské/okresní knihovny
Excerpční základna KOSABI Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost: A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR C: noviny (ústřední, regionální) a kulturně politické časopisy D: populárně naučné časopisy Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti event. mládež
Úplnost excerpce a kategorie titulů A: 1 ( %) B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) ( %) C: 2, 3 (80-25, někdy méně) %) D: 3 (25 – méně %)
Výběr typů článků Faktograficky přínosné články. Články odborné, články s dokumentární a uměleckou hodnotou. Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení). Zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích). Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky). Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné). Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.
Profil ANL a ANL FULL Výběrové článkové databáze. Obory: všechny (lékařství a sport okrajově, technika posílila). Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím převažuje kategorie C. Úplnost excerpce (výběr článků vzhledem k typům seriálů). Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML. ANL/ALEPH (cca záznamů, 537 titulů, r ). ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC ( plných textů s metadaty, 16 titulů, r ). Aplikace pro periodikum Národní knihovna (r ), do r v bázi ANL FULL, v budoucnu společné interface
Akvizice dokumentů - ANL Lokální pracovní stanice systémů servery (lokální) Aplikační, datové ANL OPAC Web servery (lokální) OPAC Web server – báze ANL ALEPH MNG KOSABI (Oracle, Linux) Server ANL MNG KOSABI – bibliografická báze ANL, plnotextová báze ANL FULL (Dell, TOPIC, WinNT), ANL FULL Server full.nkp.cz Akvizice plných textů (pro ANL FULL z báze TamTam ) Internet Information Server – báze ANL FULL Linka TTDE
Management báze ANL Aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace: upload předávání dat od kooperujících institucí do KOSABI; import dat na server ANL, export dat do báze ANL- ALEPH); kontrola na duplicity vně ALEPHu - klíče; báze titulů.
Management ANL FULL Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam). Báze ANL FULL v systému TOPIC. Strukturovaný portál Periodika na WWW.
Linka zpracování bibliografických záznamů z plných textů - lokální stanice TamTam dokumenty TTSNK TamTam Data Extractor
Vyhledání příslušného zdroje
Označení článků a jejich stáhnutí
Doplnění dat do formuláře – 1. strana ze 3. Po doplnění dat odeslání dat do ANL a ANL FULL
Bibliografická báze ANL. Zobrazení plného textu přes bibliografický záznam ANL
Plnotextová báze ANL FULL. Systém TOPIC - principy Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky. Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy. Kvantifikace obsahu dokumentů. Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization). Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).
Topik=dotaz Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi. Topik - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání. Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy). Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu. Topik je konceptuální popis znalosti o dané problematice ve formě znalostního stromu. Definice topiků tvoří tzv. znalostní bázi.
Detail topiku ekologie, životní prostředí
Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků. Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz. Tři druhy formulářů: základní, rozšířený, rozšířený s tématy. Seznam výsledků: jednoduchý, se souhrnem, seskupený. Třídění seznamu: skóre, výsl./str., vlastní třídění. Zobrazení metadat: uživatelské formáty, pracovní formáty. Rejstříky - nadefinováno 17 rejstříků.
Dotaz v rozšířeném formuláři s tématy - topik ekologie, životní prostředí, dotaz krajina
Vyhledaný článek na základě topiku ekologie, životní prostředí
Metadata v XML
Označení článků ke stažení
Stažení plných textů - TTSNK Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Zpracování plných textů - TTDE Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NK P.CZ Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Export metadat, plných textů Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Majitel plného textu/vlastní k autorských práv (nakladatel, vydavatel, inf. agentura aj.) --- Budoucnost linky?
Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně. Přerozdělení titulů, kde bude potřeba KOSABI a SKAT - koordinace zpracování titulů v budoucnu. Spolupráce s dalšími knihovnami a informačními institucemi. Spolupráce se společností Anopress, event. navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.). Perspektivy KOSABI Organizace
Doladit převod z některých systémů do standardního UNIMARCu a báze ANL. Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu). Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu. Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI. Napojení linky zpracování na autority Spolupráce s projektem Webarchiv? Metody zpracování, standardizace
KOSABI a jeho výstupy Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj. Báze ANL FULL zpřístupněna v JIB jako odkaz. Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi. Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.
Některé paralely a odlišnosti na Slovensku a v Česku Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku. Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB. Súborný katalog knižníc SR, Souborný katalog ČR, Caslin. Systém ALEPH v obou národních knihovnách. Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza regionálnej bibliografie Košice, Rožňava, Trebišov. Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius). Česko - fy Anopress, Slovensko fy Slovakia Online a Siac. Slovensko - poskytování povinných kopií elektronických publikací UK v Bratislavě a SNK, Česko - nikoli ?
Prezentované informace včetně použité literatury jsou přístupné na adresách: (periodikum Národní knihovna) (z Katalogy a databáze, báze ANL aj.) (báze TamTam) Ivana Anděrová, NKČR, oddělení analytického zpracování