Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002

Podobné prezentace


Prezentace na téma: "Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002"— Transkript prezentace:

1 Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002
Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress

2 Relevance - relevantní
závažnost významnost důležitost adekvátnost závažný významný důležitý adekvátní, odpovídající

3 Pertinence - pertinentní
příslušnost potřebnost využitelnost příslušný potřebný využitelný

4 Relevance, pertinence? relevance je určitý stupeň shody mezi entitami, oblastmi, prvky, jevy může být formální a obsahová má relativní charakter v závislosti na čase a místě relevance odpovídající konkrétní potřebě koncového uživatele se nazývá pertinence

5 Komunikační proces - komplexní pohled na relevanci
relevance systému tvorby a potřeby informací relevance informačního systému vzhledem k jeho funkci a postavení v komunikačním procesu relevance z hlediska funkcí a procesů probíhajících v informačním systému

6 Relevance a vyhledávání
relevance vyhledávání je závislá na poměru mezi úplností a přesností vyhledávání úplnost výsledku vyhledávání (recall) - poměr mezi nalezenými dokumenty a všemi relevantními dokumenty v databázi přesnost výsledku vyhledávání (precision) - poměr mezi nalezenými relevantními dokumenty a mezi všemi nalezenými dokumenty úplnost a přesnost vyhledávání se měří koeficientem úplnosti a přesnosti optimálně: hodnota koeficientu přesnosti a úplnosti se rovná jedné

7 Selekční jazyk, zpracování a vyhledávání
selekční jazyk je nástroj určený k formulaci identifikačních a obsahových údajů o dokumentu (selekčního obrazu) a k formulaci dotazu uživatele (selekčního předpisu) kvalita vyhledávání závisí na tom, do jaké míry selekční jazyk odráží a vystihuje obsah a strukturu dokumentu a dotazu kvalita výsledku vyhledávání je určena mírou shody selekčního obrazu a selekčního předpisu a do jaké míry vyhovuje uživatelově informační potřebě

8 Sémiotika – tři úrovně sdělování a jazyka
syntaktická úroveň (formální přenos zpráv, elementy jazyka a jejich vzájemné vazby, formální uspořádání) sémantická úroveň (přenos zpráv z hlediska obsahu, vztah elementů k mimojazykovým entitám, vztah mezi znaky a objekty) pragmatická úroveň (soustavy, mezi nimiž dochází ke komunikaci - účinky komunikace na vysílajícího a příjemce)

9 Richardsonův trojúhelník reference – znázornění znakové situace
reference (myšlenka) vztahuje se k symbolizuje referent (denotát, věc) symbol vložený vztah prostřednictvím myšlení

10 Richardsonův trojúhelník - aplikace na selekční jazyk
sémantická úroveň - věcný obsah deskriptorů pragmatická úroveň - užití deskriptorů ve sdělení syntaktická úroveň - pravidla psaní a řazení deskriptorů

11 Tři úrovně analýzy relevance z hlediska poskytnuté informace
formální relevance (formální vztah poskytnuté informace k obsahu dotazu) - vztah syntaxe věcná relevance ( vztah obsahu poskytnuté informace k obsahu dotazu) - sémantický vztah pertinence (vztah poskytnuté informace k informační potřebě) - pragmatický charakter

12 Trojúhelník reference a tři úrovně analýzy relevance
věcná relevance pertinence formální relevance

13 Vztah relevance (formální, věcné) a pertinence
relevance=pertinence

14 Vztah množin formálně, věcně relevantních a pertinentních dokumentů a informačního fondu
formálně relevantní nalezené dokumenty věcně relevantní dokumenty dotaz informační fond pertinentní dokumenty nalezené pertinentní dokumenty

15 Efektivnost informačního systému - kritéria
ekonomická efektivnost (zisk, náklady, rentabilita) selekční efektivnost (vyhledání a poskytnutí relevantních, resp. pertinentních informací) flexibilita (kritéria časová a schopnost přizpůsobit se změnám)

16 Zpřístupnění českých plných textů a některé projekty
Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, ) Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, )

17 Rámec zpřístupnění plných textů a ANL FULL
zdroje plných textů získávání plných textů zpracování záznamů a plných textů identifikace plných textů propojení záznamů s plnými texty uložení plných textů vyhledání a zpřístupnění plných textů výstupy uživatelé služby a platby volně přístupné na WWW (elektronické časopisy, vydavatelství/nakladatelství/informační agentury – archivy a databáze); plné texty získané od autora/vydavatele/nakladatele/distributora ruční stahování, v rámci linky zpracování bibliografických záznamů z plných textů, automatický sběr dat 3) tradiční v integrovaném knihovnickém systému, v lince zpracování bibliografických záznamů z plných textů (extrakce, automatická indexace doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML, XML/RDF a/nebo pomocí webovského formuláře 4) URL, URN, SICI, DOI 5) archivy, databáze (servery nakladatelů, vydavatelů, informační agentury, knihovny, virtuální digitální knihovny) 6)“subject gateways“, témata, předmětové kategorie, OPAC – bibliografické záznamy (UNIMARC/MARC 21) s URL, pojmové a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, metadaty DC, jazyky XHTML a XML/RDF, protokoly – HTTP, Z 39.50, SFX, internetové vyhledávače 7) seznam názvů článků (řazení dle relevance, do skupin – clustering), formáty (citace, DC, abstrakt, plný text, formáty – UNIMARC/MARC 21, XHTML, XML/RDF), tisk, export metadat a plných textů 8) lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace 9)služby - neplacené, placené v rámci konzorcia nebo mimo, přes IP, login, heslo nebo volně 10) platby – mikroplatby, paušál, předplatné

18 Zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL
zpracování článků v ČR - rozsáhlé co do zdrojů i typů institucí Kooperační systém článkové bibliografie - „užší“ a „širší“ kooperace po linii regionální a oborové souborná bibliografická databáze KOSABI - ANL a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty

19 ANL souborná bibliografická
lokální KOSABI lokální ANL FULL plnotextová, metadata ANL souborná bibliografická lokální lokální lokální

20 Obsah báze ANL, ANL FULL (duben 2002)
počet : ANL bibliografických záznamů, ANL FULL plných textů s metadaty počet zpracovávaných titulů: ANL 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL 30 titulů, běžně zpracovávaných zatím 14 časové pokrytí: ANL 1990/91 -, ANL FULL 1997-

21 Charakteristika obou bází
výběrové článkové databáze obory: všechny (lékařství a sport okrajově, technika posílila) typy seriálů (časopisy, sborníky, ročenky vydávané AVČR, vysokými školami aj. institucemi, noviny a kulturně politické časopisy, populárně-naučné časopisy omezeně) úplnost excerpce (výběr článků vzhledem k typům seriálů) typy článků (faktograficky přínosné, odborné, s dokumentární a uměleckou hodnotou, recenze, biografické články, akce, rozhovory, komentáře..) popis (UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova) Typy titulů: A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR C: noviny (ústřední i regionální) a kulturně-politické časopisy D: populárně-naučné časopisy 1=excerpce je prováděna v úplnosti ( % počtu článků) 2=excerpce je prováděna částečně (80-25 % článků) 3=excerpce je prováděna výběrově (25%- článků) A: 1 B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) C: 2,3 D: 3 ANL : všechny kategorie ANL FULL: zatím kategorie C

22 Srovnání bází ANL a ANL FULL
ANL zpracovávána v sytému ALEPH+lince zpracování TTDE a zpřístupněna v ALEPHu, ANL FULL vzniká v lince zpracování TTDE a zpřístupněna v systému TOPIC ANL obsahuje bibliografické záznamy, ANL FULL plné texty s metadaty ANL obsahuje všechny typy stanovených seriálů ANL FULL obsahuje zatím deníky a některé časopisy záznamy ANL jsou propojeny s plnými texty ANL FULL, ANL FULL doplňuje ANL ANL FULL je doplněna portálem volně přístupných textů na internetu a samostatnou aplikací pro zpřístupnění periodika Národní knihovna ANL propojena na vybrané volně přístupné www tituly

23 Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR, zpracování v KOSABI
báze ANL - přírůstek NKČR záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho: zpracování v ALEPHu záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně zpracování v ALEPHu záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc

24 Báze ANL FULL. Architektura systému zpracování a zpřístupnění plných textů
v současné době ANL FULL vzniká on-line v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze Tam Tam (Anopress) plné texty získány též v rámci konzorcia Anopress, retrospektiva - nákup báze je provozována v systému TOPIC

25 server – TamTam Lokální TTSNK pracovní stanice - TTDE Aplikační,
Internet Information Server Aplikační, datový server – TOPIC, DELL, Win NT ALEPH OPAC Web server

26 Linka zpracování, lokální stanice
TamTam dokumenty TTSNK

27 Linka zpracování. Výstupy pro ANL/ALEPH a ANL FULL/TOPIC v praxi

28

29

30

31

32

33

34

35

36

37

38 Systém TOPIC - principy
Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců) hodnocení důležitosti vyhledaných dokumentů vzhledem k dotazu (relevance ranking) kvantifikace obsahu dokumentů shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization) interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)

39 TOPIC a relevance relevance je důležitost vyhledaného dokumentu vzhledem k dotazu, vyjadřujeme ji pomocí skóre dokumentu skóre je číslo mezi (%), = relevance dokumentu, výpočet provádí TOPIC

40 Topic=dotaz dotaz - výraz složený ze slov a frází, který hledáme v dané databázi topic - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy) pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu definice topiců tvoří tzv. znalostní bázi

41 Konstrukce topicu jednotlivé větvě topicu, resp. témata, resp. slova jsou připojena k vyšší úrovni operátory důležitost pojmů resp. témat, resp. slov je určena váhami topic se vytváří speciálním editorem předpoklad: dobrá znalost operátorů a orientace v dané oblasti

42 Topic - některé operátory, modifikátory
listové operátory: WORD, STEM, SOUNDEX, WILDCARD, THESAURUS, SUGGEST a TYPO proximitní operátory: PHRASE, SENTENCE, PARAGRAPH, NEAR koncepční operátory: AND, OR a ACCRUE logické operátory: ANY a ALL relační operátory: rovnost `=', větší než `>', větší nebo rovno `>=', menší než `<', menší nebo rovno `<=', MATCHES, SUBSTRING, CONTAINS, STARTS, ENDS modifikátory (specifikují chování operátorů): MANY, CASE, NOT, ORDER .

43 Topic - váhy váha je číslo mezi (%) vyjadřující důležitost hledaného výrazu ve vztahu k dotazu váhy lze použít pouze u “výrazů“ připojených pomocí  koncepčních operátorů (AND, OR a ACCRUE); pokud váhu neuvedeme, použije se standardní váha - pro AND a OR 1.00, pro ACCRUE 0.50 přiřazením váhy k “výrazu“ určujeme, jak (od do 1.00) se „výraz“ podílí na celkovém skóre daného dokumentu při výběru; změnou vah je možno změnit pořadí dokumentů v seznamu dokumentů dle skóre relevance

44 (X and Y and Z) Accrue (X,Z,Y) (X or Y or Z)
Fuzzy operátor ACCRUE ACCRUE sbližuje operátor AND a OR: “čím více různých klíčových slov nalezeno, tím je dokument důležitější“ ACCRUE řeší dilema mezi přesností a úplností Dotaz (X Y Z) Chci najít Najdu (X and Y and Z) Accrue (X,Z,Y) (X or Y or Z) Ztráta úplnosti Optimální výsledek Ztráta přesnosti

45 Topic - znaková situace
obsah dotazu ekologie, životní prostředí topic popis dotazu použitá znalost, strukturovaný dotaz ochránci životního prostředí, ochrana životního krajina, příroda, voda, řeka, …. Ekologie

46 Konkrétní dotaz – stromová struktura

47

48

49 Báze ANL FULL v systému TOPIC, jak se zaregistrovat
v současné době obsahuje výběr článků z celostátních deníků, některé kulturně politické, ekonomické tituly, periodikum Národní knihovna, okrajově některé regionální tituly, doplněna portálem volně přístupných textů na internetu (strukturovaný oborově a regionálně) vzniká v lince zpracování bibliografických záznamů z plných textů TTDE přístup: interní uživatelé NK - metadata a plné texty, externí uživatele - metadata, plné texty zkušebně na 7 dnů

50

51 Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání
čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiců, resp. témat (předem strukturovaných dotazů), pomocí rejstříků tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz tři druhy formulářů: základní, rozšířený, rozšířený s tématy seznam výsledků: jednoduchý, se souhrnem, seskupený třídění seznamu: skóre, výsl./str., vlastní třídění zobrazení metadat: uživatelské formáty, pracovní formáty rejstříky - nadefinováno 17 rejstříků

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66 Další možný vývoj prezentovaného systému ?
Marc 21 zvážení možnosti a efektivnosti spojení automatické sklizně dat a linky zpracování automatická indexace věcná - do jaké míry je možná předpoklad automatické indexace věcné - existence homogenního nástroje napojení na autority budování digitální knihovny na základě propojování citací u odborných článků řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu) rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na KOSABI orientace na další typy seriálových publikací pro externí uživatele zpřístupnění báze v rámci konzorcia Anopress, resp. celostátní licence

67 Spolupráce s nakladateli a vydavateli
začlenění linky zpracování do předpokládaného možného vývoje předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu

68 Dublin Core (výběr) Název (Title) Tvůrce (Creator)
Zdroj / Vztah (Source/Relation) - tj. název zdroje, roč., číslo, datum, strany Nakladatel (Publisher) Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru Popis (Description) ve formě abstraktu Práva (Rights) Identifikátor (Identifier)

69 Strukturovaný text #NAZ#Název článku#/NAZ# #ATR#Hlavní autor#/ATR#
#AT2#Další autor#/AT2# #ZDR#Název zdroje#/ZDR# #ROC#Ročník#/ROC# #CIS#Číslo#/CIS# #DAT#Datum vydání zdroje#/DAT# #STR#Počáteční strana#/STR# #VYD#Vydavatel#/VYD# #KEY#klíčové slovo, klíčové slovo#/KEY# #SUM#Abstrakt#/SUM# #COP#Práva#/COP# #ISN#ISSN#/ISN# #IDE#Identifikační číslo#/IDE#

70 Konverze do Dublin Core v HTML
<META name="DC.Title" content="Název"> <META name="DC.Creator.personalName" content="Hlavní autor"> <META name="DC.Contributor.personalName" content="Další autor"> <META name="DC.Source" content="Název zdroje, roč. X , č. X (datum), s. X"> <META name="DC.Publisher" content="Vydavatel"> <META name="DC.Date.issued" scheme="W3C-DTF" content="Datum vydání"> <META name="DC.Subject" content="klíčové slovo"> <META name="DC.Description.abstract" content="Abstrakt"> <META name="DC.Rights" content="Práva"> <META name="DC.Source" scheme="ISSN" content="ISSN"> <META name="DC.Identifier"content="Identifikátor">

71 Linka automatické indexace zabudovaná do předpokládaného možného vývoje

72 Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NKP.CZ
Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Soubor metadat a plných textů pro ANLFULL v NK na serveru  FULL.NKP.CZ Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Stažení plných textů - TTSNK Zpracování plných textů - TTDE Majitel plného textu/vlastník autorských práv (nakladatel, vydavatel, inf. agentura aj.) Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Export metadat, plných textů

73 Závěr – předpoklady poskytování relevantních, resp
Závěr – předpoklady poskytování relevantních, resp. pertinentních informací strukturovat nestrukturované informace a užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení nestrukturovaných plných textů, protože tyto ve velké míře převažují propojovat věcný selekční jazyk se systematickou notací, zapojovat autority, aplikace pojmového vyhledávání interakce mezi uživatelem, informačním pracovníkem a informačním systémem

74 Použitá literatura 1. ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s Též dostupný z: <http://full.nkp.cz/nkdb/index.html>. 2. CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v informatice. ČVTS, S 3. HOUDEK, Aleš. Způsoby hodnocení relevance vyhledaných dokuemntů ve vyhledávacích strojích. Ikaros [online]. 2000, č. 1 [ cit ]. Dostupný z: < 4. JONÁK, Z.. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [cit ]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/z_jonak.htm>. 5. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit ]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/1999/c03/veda2.htm>. 6. KOSEK, J.-ŠIMŮNEK, M. Systém TOPIC verze 4.0. Příručka uživatele. Praha :VŠE, s. 7. PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit ]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/1999/c08/usti/usti_papil.htm>. 8. SARACEVIC, T. The concept of relevance in information science : a historical review. Introduction to Information Science. New York : Academic Press, S 9. ŠKRNA, Jindřich. Interaktivní vyhledávání informací. Národní knihovna : knihovnická revue. 2002, roč. 13, č. 1, s.7-19. 10. Topic : systém pro inteligentní vyhledávání dokumentů.  Praha : Tovek, 19?. 11. VEJLUPEK, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých poskytovatelů. Praha , s. 12. ZEMANOVÁ, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce. Praha : FFUK, s.

75 Informace prezentované v článku jsou přístupné na adrese http://full
Ivana Anděrová, NKČR, oddělení analytického zpracování Ivo Mattern, Anopress


Stáhnout ppt "Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002"

Podobné prezentace


Reklamy Google