Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování.

Podobné prezentace


Prezentace na téma: "Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování."— Transkript prezentace:

1 Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress

2 Relevance - relevantní závažnost významnost důležitost adekvátnost závažný významný důležitý adekvátní, odpovídající

3 Pertinence - pertinentní příslušnost potřebnost využitelnost příslušný potřebný využitelný

4 Relevance, pertinence? relevance je určitý stupeň shody mezi entitami, oblastmi, prvky, jevy může být formální a obsahová má relativní charakter v závislosti na čase a místě relevance odpovídající konkrétní potřebě koncového uživatele se nazývá pertinence

5 Komunikační proces - komplexní pohled na relevanci relevance systému tvorby a potřeby informací relevance informačního systému vzhledem k jeho funkci a postavení v komunikačním procesu relevance z hlediska funkcí a procesů probíhajících v informačním systému

6 Relevance a vyhledávání relevance vyhledávání je závislá na poměru mezi úplností a přesností vyhledávání úplnost výsledku vyhledávání (recall) - poměr mezi nalezenými dokumenty a všemi relevantními dokumenty v databázi přesnost výsledku vyhledávání (precision) - poměr mezi nalezenými relevantními dokumenty a mezi všemi nalezenými dokumenty úplnost a přesnost vyhledávání se měří koeficientem úplnosti a přesnosti optimálně: hodnota koeficientu přesnosti a úplnosti se rovná jedné

7 Selekční jazyk, zpracování a vyhledávání selekční jazyk je nástroj určený k formulaci identifikačních a obsahových údajů o dokumentu (selekčního obrazu) a k formulaci dotazu uživatele (selekčního předpisu) kvalita vyhledávání závisí na tom, do jaké míry selekční jazyk odráží a vystihuje obsah a strukturu dokumentu a dotazu kvalita výsledku vyhledávání je určena mírou shody selekčního obrazu a selekčního předpisu a do jaké míry vyhovuje uživatelově informační potřebě

8 Sémiotika – tři úrovně sdělování a jazyka syntaktická úroveň (formální přenos zpráv, elementy jazyka a jejich vzájemné vazby, formální uspořádání) sémantická úroveň (přenos zpráv z hlediska obsahu, vztah elementů k mimojazykovým entitám, vztah mezi znaky a objekty) pragmatická úroveň (soustavy, mezi nimiž dochází ke komunikaci - účinky komunikace na vysílajícího a příjemce)

9 Richardsonův trojúhelník reference – znázornění znakové situace symbol symbolizuje reference (myšlenka) vztahuje se k referent (denotát, věc) vložený vztah prostřednictvím myšlení

10 Richardsonův trojúhelník - aplikace na selekční jazyk syntaktická úroveň - pravidla psaní a řazení deskriptorů sémantická úroveň - věcný obsah deskriptorů pragmatická úroveň - užití deskriptorů ve sdělení

11 Tři úrovně analýzy relevance z hlediska poskytnuté informace formální relevance (formální vztah poskytnuté informace k obsahu dotazu) - vztah syntaxe věcná relevance ( vztah obsahu poskytnuté informace k obsahu dotazu) - sémantický vztah pertinence (vztah poskytnuté informace k informační potřebě) - pragmatický charakter

12 Trojúhelník reference a tři úrovně analýzy relevance formální relevance věcná relevance pertinence

13 Vztah relevance (formální, věcné) a pertinence pertinence relevance relevance=pertinence

14 Vztah množin formálně, věcně relevantních a pertinentních dokumentů a informačního fondu informační fond formálně relevantní nalezené dokumenty dotaz věcně relevantní dokumenty pertinentní dokumenty nalezené pertinentní dokumenty

15 Efektivnost informačního systému - kritéria ekonomická efektivnost (zisk, náklady, rentabilita) selekční efektivnost (vyhledání a poskytnutí relevantních, resp. pertinentních informací) flexibilita (kritéria časová a schopnost přizpůsobit se změnám)

16 Zpřístupnění českých plných textů a některé projekty Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, ) Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, )

17 Rámec zpřístupnění plných textů a ANL FULL zdroje plných textů získávání plných textů zpracování záznamů a plných textů identifikace plných textů propojení záznamů s plnými texty uložení plných textů vyhledání a zpřístupnění plných textů výstupy uživatelé služby a platby

18 Zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL zpracování článků v ČR - rozsáhlé co do zdrojů i typů institucí Kooperační systém článkové bibliografie - „užší“ a „širší“ kooperace po linii regionální a oborové souborná bibliografická databáze KOSABI - ANL a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty

19 ANL souborná bibliografická lokální ANL FULL plnotextová, metadata lokální KOSABI

20 Obsah báze ANL, ANL FULL (duben 2002) počet : ANL bibliografických záznamů, ANL FULL plných textů s metadaty počet zpracovávaných titulů: ANL 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL 30 titulů, běžně zpracovávaných zatím 14 časové pokrytí: ANL 1990/91 -, ANL FULL 1997-

21 Charakteristika obou bází výběrové článkové databáze obory: všechny (lékařství a sport okrajově, technika posílila) typy seriálů (časopisy, sborníky, ročenky vydávané AVČR, vysokými školami aj. institucemi, noviny a kulturně politické časopisy, populárně-naučné časopisy omezeně) úplnost excerpce (výběr článků vzhledem k typům seriálů) typy článků (faktograficky přínosné, odborné, s dokumentární a uměleckou hodnotou, recenze, biografické články, akce, rozhovory, komentáře..) popis (UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova)

22 Srovnání bází ANL a ANL FULL ANL zpracovávána v sytému ALEPH+lince zpracování TTDE a zpřístupněna v ALEPHu, ANL FULL vzniká v lince zpracování TTDE a zpřístupněna v systému TOPIC ANL obsahuje bibliografické záznamy, ANL FULL plné texty s metadaty ANL obsahuje všechny typy stanovených seriálů ANL FULL obsahuje zatím deníky a některé časopisy záznamy ANL jsou propojeny s plnými texty ANL FULL, ANL FULL doplňuje ANL ANL FULL je doplněna portálem volně přístupných textů na internetu a samostatnou aplikací pro zpřístupnění periodika Národní knihovna ANL propojena na vybrané volně přístupné www tituly

23 Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR, zpracování v KOSABI báze ANL - přírůstek NKČR záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho: zpracování v ALEPHu záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně zpracování v ALEPHu - 11 záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc

24 Báze ANL FULL. Architektura systému zpracování a zpřístupnění plných textů v současné době ANL FULL vzniká on-line v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze Tam Tam (Anopress) plné texty získány též v rámci konzorcia Anopress, retrospektiva - nákup báze je provozována v systému TOPIC

25 TamTam TTSNK Lokální pracovní stanice - TTDE server – TOPIC, DELL, Win NT Aplikační, datový Internet Information Server OPAC Web server ALEPH

26 Linka zpracování, lokální stanice TamTam dokumenty TTSNK

27 Linka zpracování. Výstupy pro ANL/ALEPH a ANL FULL/TOPIC v praxi

28

29

30

31

32

33

34

35

36

37

38 Systém TOPIC - principy Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců) hodnocení důležitosti vyhledaných dokumentů vzhledem k dotazu (relevance ranking) kvantifikace obsahu dokumentů shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization) interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)

39 TOPIC a relevance relevance je důležitost vyhledaného dokumentu vzhledem k dotazu, vyjadřujeme ji pomocí skóre dokumentu skóre je číslo mezi (%), = relevance dokumentu, výpočet provádí TOPIC

40 Topic=dotaz dotaz - výraz složený ze slov a frází, který hledáme v dané databázi topic - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy) pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu definice topiců tvoří tzv. znalostní bázi

41 Konstrukce topicu jednotlivé větvě topicu, resp. témata, resp. slova jsou připojena k vyšší úrovni operátory důležitost pojmů resp. témat, resp. slov je určena váhami topic se vytváří speciálním editorem předpoklad: dobrá znalost operátorů a orientace v dané oblasti

42 Topic - některé operátory, modifikátory listové operátory: WORD, STEM, SOUNDEX, WILDCARD, THESAURUS, SUGGEST a TYPO proximitní operátory: PHRASE, SENTENCE, PARAGRAPH, NEAR koncepční operátory: AND, OR a ACCRUE logické operátory: ANY a ALL relační operátory: rovnost `=', větší než `>', větší nebo rovno `>=', menší než `<', menší nebo rovno `<=', MATCHES, SUBSTRING, CONTAINS, STARTS, ENDS modifikátory (specifikují chování operátorů): MANY, CASE, NOT, ORDER

43 Topic - váhy váha je číslo mezi (%) vyjadřující důležitost hledaného výrazu ve vztahu k dotazu váhy lze použít pouze u “výrazů“ připojených pomocí koncepčních operátorů (AND, OR a ACCRUE); pokud váhu neuvedeme, použije se standardní váha - pro AND a OR 1.00, pro ACCRUE 0.50 přiřazením váhy k “výrazu“ určujeme, jak (od 0.01 do 1.00) se „výraz“ podílí na celkovém skóre daného dokumentu při výběru; změnou vah je možno změnit pořadí dokumentů v seznamu dokumentů dle skóre relevance

44 Fuzzy operátor ACCRUE ACCRUE sbližuje operátor AND a OR: “čím více různých klíčových slov nalezeno, tím je dokument důležitější“ ACCRUE řeší dilema mezi přesností a úplností Dotaz (X Y Z) Chci najít Najdu (X and Y and Z) Accrue (X,Z,Y) (X or Y or Z) Ztráta úplnosti Optimální výsledek Ztráta přesnosti

45 Topic - znaková situace topic ochránci životního prostředí, ochrana životního prostředí, krajina, příroda, voda, řeka, …. Ekologie ekologie, životní prostředí použitá znalost, strukturovaný dotaz obsah dotazu popis dotazu

46 Konkrétní dotaz – stromová struktura

47

48

49 Báze ANL FULL v systému TOPIC, jak se zaregistrovat v současné době obsahuje výběr článků z celostátních deníků, některé kulturně politické, ekonomické tituly, periodikum Národní knihovna, okrajově některé regionální tituly, doplněna portálem volně přístupných textů na internetu (strukturovaný oborově a regionálně) vzniká v lince zpracování bibliografických záznamů z plných textů TTDE přístup: interní uživatelé NK - metadata a plné texty, externí uživatele - metadata, plné texty zkušebně na 7 dnů

50

51 Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiců, resp. témat (předem strukturovaných dotazů), pomocí rejstříků tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz tři druhy formulářů: základní, rozšířený, rozšířený s tématy seznam výsledků: jednoduchý, se souhrnem, seskupený třídění seznamu: skóre, výsl./str., vlastní třídění zobrazení metadat: uživatelské formáty, pracovní formáty rejstříky - nadefinováno 17 rejstříků

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66 Další možný vývoj prezentovaného systému ? Marc 21 zvážení možnosti a efektivnosti spojení automatické sklizně dat a linky zpracování automatická indexace věcná - do jaké míry je možná předpoklad automatické indexace věcné - existence homogenního nástroje napojení na autority budování digitální knihovny na základě propojování citací u odborných článků řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu) rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na KOSABI orientace na další typy seriálových publikací pro externí uživatele zpřístupnění báze v rámci konzorcia Anopress, resp. celostátní licence

67 Spolupráce s nakladateli a vydavateli začlenění linky zpracování do předpokládaného možného vývoje předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu

68 Dublin Core (výběr) Název (Title) Tvůrce (Creator) Zdroj / Vztah (Source/Relation) - tj. název zdroje, roč., číslo, datum, strany Nakladatel (Publisher) Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru Popis (Description) ve formě abstraktu Práva (Rights) Identifikátor (Identifier)

69 Strukturovaný text #NAZ#Název článku#/NAZ# #ATR#Hlavní autor#/ATR# #AT2#Další autor#/AT2# #ZDR#Název zdroje#/ZDR# #ROC#Ročník#/ROC# #CIS#Číslo#/CIS# #DAT#Datum vydání zdroje#/DAT# #STR#Počáteční strana#/STR# #VYD#Vydavatel#/VYD# #KEY#klíčové slovo, klíčové slovo#/KEY# #SUM#Abstrakt#/SUM# #COP#Práva#/COP# #ISN#ISSN#/ISN# #IDE#Identifikační číslo#/IDE#

70 Konverze do Dublin Core v HTML

71 Linka automatické indexace zabudovaná do předpokládaného možného vývoje

72 Stažení plných textů - TTSNK Soubor bibliografických záznamů pro ANL ALEPH s propojením na plný text a báze ANL Zpracování plných textů - TTDE Soubor metadat a plných textů pro ANLFULL v NK na serveru FULL.NK P.CZ Vyhledávání a zobrazení záznamů s propojením na plný text v ALEPHu - báze ANL Vyhledávání, zobrazení metadat a plných textů - báze ANL FULL v NK na serveru FULL.NKP.CZ Export metadat, plných textů Soubor metadat (plných textů) pro prostor mezi NK aj. inst. (nakladatelství, vydavatelství, inf. agentury aj.) Majitel plného textu/vlastní k autorských práv (nakladatel, vydavatel, inf. agentura aj.)

73 Závěr – předpoklady poskytování relevantních, resp. pertinentních informací strukturovat nestrukturované informace a užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení nestrukturovaných plných textů, protože tyto ve velké míře převažují propojovat věcný selekční jazyk se systematickou notací, zapojovat autority, aplikace pojmového vyhledávání interakce mezi uživatelem, informačním pracovníkem a informačním systémem

74 Použitá literatura 1. ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s Též dostupný z:. 2. CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v informatice. ČVTS, S HOUDEK, Aleš. Způsoby hodnocení relevance vyhledaných dokuemntů ve vyhledávacích strojích. Ikaros [online]. 2000, č. 1 [ cit ]. Dostupný z:. 4. JONÁK, Z.. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [cit ]. Dostupný z:. 5. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit ]. Dostupný z:. 6. KOSEK, J.-ŠIMŮNEK, M. Systém TOPIC verze 4.0. Příručka uživatele. Praha :VŠE, s. 7. PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit ]. Dostupný z:. 8. SARACEVIC, T. The concept of relevance in information science : a historical review. Introduction to Information Science. New York : Academic Press, S ŠKRNA, Jindřich. Interaktivní vyhledávání informací. Národní knihovna : knihovnická revue. 2002, roč. 13, č. 1, s Topic : systém pro inteligentní vyhledávání dokumentů. Praha : Tovek, 19?. 11. VEJLUPEK, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých poskytovatelů. Praha, s. 12. ZEMANOVÁ, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce. Praha : FFUK, s.

75 Informace prezentované v článku jsou přístupné na adrese Ivana Anděrová, NKČR, oddělení analytického zpracování Ivo Mattern, Anopress


Stáhnout ppt "Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování."

Podobné prezentace


Reklamy Google