Oddělení analytického zpracování NKČR Kooperační systém článkové bibliografie - KOSABI Knihovny současnosti 2002 Seč, 24.-26.9. Ivana Anděrová, NKČR Oddělení analytického zpracování NKČR KOSABI Anopress
Vývoj článkové bibliografie - r. 1953-2002 Článková bibliografie v tradičních podmínkách - 50.-80. léta (měsíční tištěné sešity, VPK, MDT, rejstříky, retrospektiva 1945-52) Příprava automatizovaného zpracování článkové bibliografie - 80. léta (ASNBČ, Výměnný formát pro bibliografický (dokumentační) a katalogizační záznam, MAKS a postupně v následujících letech prováděcí projekty pro jednotlivé typy dokumentů včetně článků) Poslední tištěné číslo - r. 1990, r. 1991 převeden z lístkových záznamů do počítačové formy Návod pro tvorbu a využívání báze záznamů dokumentů, specifikace údajů a pravidla pro analytický popis - r. 1991-1992 Kooperační systém článkové bibliografie - r. 1992-2002 (r. 1992 - ověřovací provoz, od r. 1993 plný provoz, báze ANAL, později ANL, koordinace, standardizace a metodika - postupně VF a ISIS, ISBD/CP, AACR2R, UNIMARC a různé systémy, vybrané znaky MDT a MDT/MRF, klíčová slova, předmětová hesla, předmětové kategorie, od r. 2000 zpracování bibliografických záznamů z plných textů v NKČR a moderní metody zpřístupnění - DC, XHTML, XML, projekty – báze ANL FULL)
Zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL Systém zpracování článků v ČR - rozsáhlý co do zdrojů i typů institucí (např. Národní lékařská knihovna aj.) Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a „širší“ (plus oborové, resp. specializované knihovny) - NKČR, 8 krajských knihoven, MZK, STK, SPKK-ÚIV, ÚZPI Kooperace po linii regionální a oborové Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR Souborná bibliografická databáze KOSABI - ANL a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty
KOSABI, zpřístupnění českých plných textů a některé projekty Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003) Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004)
KOSABI odborná knihovna krajská knihovna INTERNET MZK ???? NKČR
KOSABI - databáze ANL souborná bibliografická lokální KOSABI - databáze lokální ANL souborná bibliografická lokální lokální lokální lokální ANL FULL metadata plné texty
Excerpční základna KOSABI Výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost: A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR C: noviny (ústřední, regionální) a kulturně politické časopisy D: populárně naučné časopisy Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti event. mládež
Úplnost excerpce a kategorie titulů B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) C: 2, 3 D: 3
Výběr typů článků Faktograficky přínosné články Články odborné, články s dokumentární a uměleckou hodnotou Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení) Zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích) Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky) Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné) Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.
Obsah báze ANL, ANL FULL (září 2002) Počet záznamů: ANL cca 730 000 bibliografických záznamů, ANL FULL 95 000 plných textů s metadaty počet zpracovávaných titulů: ANL - cca 212 v NKČR, 217 v regionech, 108 v odborných knihovnách, celkem cca 537 titulů; ANL FULL 30 titulů, běžně zpracovávaných zatím 16 v NKČR Časové pokrytí: ANL 1990/91 -, ANL FULL 1997-
Podíl knihoven KOSABI v ANL
Profil ANL a ANL FULL Výběrové článkové databáze Obory: všechny (lékařství a sport okrajově, technika posílila) Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím kategorie C Úplnost excerpce (výběr článků vzhledem k typům seriálů) Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL navíc DC, XHTML, XML ANL/ALEPH ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC Typy titulů: A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR C: noviny (ústřední i regionální) a kulturně-politické časopisy D: populárně-naučné časopisy 1=excerpce je prováděna v úplnosti (100-80 % počtu článků) 2=excerpce je prováděna částečně (80-25 % článků) 3=excerpce je prováděna výběrově (25%- článků) A: 1 B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) C: 2,3 D: 3 ANL : všechny kategorie ANL FULL: zatím kategorie C
Báze ANL FULL. Architektura systému zpracování a zpřístupnění plných textů V současné době ANL FULL vzniká on-line v NKČR v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze TamTam (Anopress)
server – TamTam Lokální TTSNK pracovní stanice - TTDE Aplikační, Internet Information Server Aplikační, datový server – TOPIC, DELL, Win NT ALEPH OPAC Web server
Linka zpracování, lokální stanice TamTam dokumenty TTSNK
Linka zpracování. Výstupy pro ANL/ALEPH a ANL FULL/TOPIC v praxi
Systém TOPIC - principy Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců) Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy Kvantifikace obsahu dokumentů Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization) Interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)
Topic=dotaz Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi Topic - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání Topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy) Pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu Topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu Definice topiců tvoří tzv. znalostní bázi
Konkrétní dotaz (topic) - stromová struktura
http:/full.nkp.cz http:/full.nkp.cz/nkkr/NKKR/html Charakteristika Báze ANL FULL v systému TOPIC Periodika na WWW (portál) Jak se zaregistrovat (pro přístup k plným textům) Jak vyhledávat … http:/full.nkp.cz/nkkr/NKKR/html Národní knihovna (periodikum) – zatím samostatná aplikace, v budoucnu propojena na plné texty v ANL FULL
Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiců, resp. témat (předem strukturovaných dotazů), pomocí rejstříků Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz Tři druhy formulářů: základní, rozšířený, rozšířený s tématy Seznam výsledků: jednoduchý, se souhrnem, seskupený Třídění seznamu: skóre, výsl./str., vlastní třídění Zobrazení metadat: uživatelské formáty, pracovní formáty Rejstříky - nadefinováno 17 rejstříků
Spolupráce s nakladateli a vydavateli, autory Začlenění linky zpracování do předpokládaného možného vývoje Předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu
Konverze do Dublin Core v HTML <META name="DC.Title" content="Název"> <META name="DC.Creator.personalName" content="Hlavní autor"> <META name="DC.Contributor.personalName" content="Další autor"> <META name="DC.Source" content="Název zdroje, roč. X , č. X (datum), s. X"> <META name="DC.Publisher" content="Vydavatel"> <META name="DC.Date.issued" scheme="W3C-DTF" content="Datum vydání"> <META name="DC.Subject" content="klíčové slovo"> <META name="DC.Description.abstract" content="Abstrakt"> <META name="DC.Rights" content="Práva"> <META name="DC.Source" scheme="ISSN" content="ISSN"> <META name="DC.Identifier"content="Identifikátor">
Linka automatické indexace zabudovaná do předpokládaného možného vývoje
Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Stažení plných textů - TTSNK Zpracování plných textů - TTDE Majitel plného textu/vlastník autorských práv (nakladatel, vydavatel, inf. agentura aj.) Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Export metadat, plných textů
Perspektivy KOSABI a jeho další možný vývoj (organizace, metody zpracování, standardizace, možné subsystémy zpracování a cíl, výstupy) - systémový pohled na zpřístupnění českých plných textů
Organizace Začlenění krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně Přerozdělení titulů, kde bude potřeba KOSABI a Lanius – koordinace zpracování titulů v budoucnu Spolupráce s dalšími knihovnami a informačními institucemi Spolupráce se společností Anopress, event. navázání spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.)
Metody zpracování, standardizace Doladit převod z některých systémů do standardního UNIMARCu a báze ANL Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu) Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI Spolupráce s projektem Webarchiv?
KOSABI a jeho hypotetické subsystémy z hlediska typů a formy titulů I. Zpracování sborníků a nepravých periodik (zatím nedostupných v elektronické formě) ručně v tradičních systémech II. Zpracování deníků a časopisů a dalších seriálů (v elektronické formě, na www) v rámci linky zpracování bibliografických záznamů z plných textů se spolehlivým napojením na plné texty automaticky či poloautomaticky III. Zpracování plných textů volně přístupných na www na základě automatického sběru dat - pouze vytypované spolehlivé seriálové zdroje - za spolupráce s Webarchivem? Předpoklad: dodržování zásad výběru článků a titulů Cíl (II.+III.): automatické či poloautomatické zpracování bibliografických záznamů z plných textů - pouze výběr titulů ke zpracování a korekce dat
KOSABI a jeho výstupy Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj Báze ANL FULL zpřístupněna v JIB jako odkaz Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele na 7 dnů Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících
KOSABI a zpřístupnění českých plných textů, perspektivy Řada členů KOSABI přístup k plným textům v rámci konzorcia Anopress - báze TamTam (původně založeného v roce 2000 a iniciováno v rámci řešených projektů) Září 2002 – multilicenční zpřístupnění databází TamTam a ČTK v rámci VISK 8 Analogicky vyplývá: v budoucnu podobné zpřístupnění báze ANL FULL a licence resp. multilicence pro přístup do báze TamTam pro linku zpracování bibliografických záznamů z plných textů Předpoklad: dohoda mezi zainteresovanými subjekty, legislativně právní otázky
KOSABI moderně ? Respekt k tradici, domácímu terénu i světovým trendům, transparentní řešení a schopnost kompromisů Transformace systému po stránce koncepční, technické i technologické Personální zázemí (silné redukce oddělení analytického zpracování v posledních letech) Finanční zázemí do r. 2004 (dotace MKČR), návazný projekt? GILS – služba a nástroj pro řízení informačních zdrojů z oblasti státní správy: inspirace pro KOSABI a systém knihoven v ČR?
Prezentované informace jsou přístupné na adresách: http://full.nkp.cz, (TOPIC a ANL FULL, portál, rubrika Co je nového … prezentace přednášky) http://full.nkp.cz/nkkr/NKKR.html (periodikum Národní knihovna) http:// www.nkp.cz (z Katalogy a databáze, báze ANL, KOSABI, projekty, metodika) http://www.anopress.cz (báze TamTam) Ivana Anděrová, NKČR, oddělení analytického zpracování ivana.anderova@nkp.cz