Fulltextové vyhledávání

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Překlad Bath profilu 2.0 Martin Vojnar
Mgr. Iva Celbová konzultant SEFIRA spol. s r.o.
Organisation for Economic Cooperation and Development OECD iLibrary.
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
Databáze citačních rejstříků Web of Science.  Online akademická služba provozovaná společností Thomson Reuters.Thomson Reuters  Databáze citačních rejstříků,
Báze Úřadu průmyslového vlastnictví v Praze Poslední aktualizace: 20. března 2014.
Seznamy digitálních knihoven
Serials Solutions – další krok k rozvoji informačních e-služeb knihoven ČVUT Ilona Trtíková Bibliotheca academica – Cíle a perspektivy vysokoškolských.
BASE Bielefeld Academic Search Engine Vyhledávací program zaměřený na akademické a další odborné zdroje. Prohledává více než.
Národní registr vysokoškolských kvalifikačních prací.
OpenAIRE Open Access Infrastructure for Research in Europe. Nástupce projektu DRIVER. Portál umožňuje.
EBSCO - základní vyhledávání Lze nastavit jiné zobrazování výsledků.
Databázové modelování
Úvod do problematiky elektronických informačních zdrojů a rešerší Martina Machátová.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Aplikace vyhledávače Google na zdroje odborných informací
Jak vyhledávat informace na Internetu?
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
PATENTSCOPE -Databáze budovaná Světovou organizací duševního vlastnictví (WIPO): -Zachycuje 37 mil. patentových.
MIS - Manažerské informační systémy 1. cvičení – Internet a informace
SCIRUS Vyhledávácí nástroj společnosti Elsevier pro vyhledávání informačních zdrojů pro vědu, výzkum a vzdělávání.
Národní knihovna v Praze Národní knihovna – přehled bází.
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
ANOPRESS Databáze TAM TAM (Plné texty českých novin a vybraných časopisů)
Scholar Google Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a vzdělávání. Vyhledávání v angličtině.
ISI Web of Knowledge Produkt a platforma firmy Thomson Reuters. Zahrnuje báze: - Web of Science (převážně bibliografické záznamy odborných článků, lze.
Theses Abecední rejstřík klíčových slov.
Datové Centrum IKEM, ÚIK David Hačkajlo, Jana Hyánková, Daniela Němcová Datové Centrum IKEM, ÚIK Symposium InterSystems 2004, Praha.
Seznamy digitálních knihoven
Espacenet Martina Machátová Aktualizace: květen 2013.
Theses – abecední rejstřík klíčových slov Jsou zde uvedena pouze slova, která byla vložena do klíčových slov u více než 50 prací.
Seznamy digitálních knihoven
Informační zdroje na UP Podzim Orientace ve zdrojích na UP elektronické informační zdroje elektronická knihovna časopisů (časopisy odebírané Knihovnou.
Jana Holá Tvorba rešerše Jana Holá
Kurz pro doktorandy „ ELEKTRONICKÉ INFORMAČNÍ ZDROJE NA ČVUT “ Fakulta biomedicínského inženýrství Mgr. Zdeňka Civínová Ústřední knihovna ČVUT v Praze.
Fulltextové technologie a jejich využití v UIS Bc. Miroslav Prachař datamanagement
23. – 25. dubna 2007 S4U – Seminář o Univerzitním informačním systému 1 Hotel Tatra, Velké Karlovice Univerzitní informační systém Milan Šorm.
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
Workshop, Knihovna AV ČR, 4. října 2010 Mgr. Tomáš Foltýn Kramerius 4 Uživatelské rozhraní Do verze
Zahradnická fakulta v Lednici S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 S 4 U – Seminář o Univerzitním informačním systému.
Seznamy digitálních knihoven
23. – 25. dubna 2007 S4U – Seminář o Univerzitním informačním systému 1 Hotel Tatra, Velké Karlovice Manažerská nadstavba IS Milan Šorm.
Národní registr vysokoškolských kvalifikačních prací.
Nástroje podpory uživatelů
Integrace IS na datové vrstvě
VIKMA06 Rešeršní a studijně rozborová činnost
Driver Bezplatný portál umožňující přístup k více než
Theses Abecední rejstřík klíčových slov.
Národní databáze patentů a užitných vzorů
Jana Holá Tvorba rešerše Jana Holá
Jednotná informační brána (JIB)
Zahraniční studia Petra Nováková
Espacenet Seminář Patentové databáze přístupné na internetu
ISI Web of Knowledge ISI Web of Knowledge
EBSCO - základní vyhledávání
ANOPRESS Databáze TAM TAM
EBSCO - základní vyhledávání
Portál pro oblast techniky a přírodních věd. Pokrývá asi 160 mil
Seznamy digitálních knihoven
Seznamy digitálních knihoven
Ing. Alžběta Králová SEFIRA spol. s r.o.
Espacenet Martina Machátová Aktualizace: září 2013.
ISI Web of Knowledge ISI Web of Knowledge
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
ISI Web of Knowledge ISI Web of Knowledge
Espacenet Martina Machátová Aktualizace: 10. dubna 2014.
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Knihovny.cz Vyhledávání patentových dokumentů
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Transkript prezentace:

Fulltextové vyhledávání Miroslav Prachař S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 1 1

Cíl Dosavadní možnosti vyhledávání Analýza dalších potřeb při vyhledávání Technologické možnosti Implementace Budoucnost S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Dosavadní možnosti vyhledávání I Podpora vyhledávání od počátku vývoje UIS Původně jednoduchá funkcionalita Postupné rozšiřování Vznik portálových vyhledávacích aplikací S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Dosavadní možnosti vyhledávání II Podpora číselných a řetězcových údajů do délky 4000 znaků Pouze indexování „metadat“ Dostačující u některých objektů (lidé, předměty, pracoviště, …) U jiných potřeba indexovat i samotný obsah (Dokumentový server, přílohy e- mailů, helpdesk, diskuze…) S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Analýza dalších potřeb I Metadata ukládány jako databázové typy NUMBER VARCHAR2 Vlastní obsah záznamů/dokumentů BLOB (Binary Large Object) .doc, .pdf, … CLOB (Character Large Object) Řetězce/texty nad 4000 znaků S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Analýza dalších potřeb II Rozsáhlost textových dokumentů Odlišná filozofie indexování Podpora speciálních operátorů ve vyhledávácích dotazích Vhodná prezentace výsledků → fulltextové technologie S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Technologické možnosti Komerční řešení Google Search Appliance Oracle Text ConText CZ / ConText SK Vývoj vlastní fulltextové technologie Přizpůsobení přesně pro účely UIS Větší časová náročnost Možnost kombinace s některými komerčními produkty S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Implementace indexování Inverzní index Odlišná filozofie od „klasického“ indexování Extrahuje tzv. tokeny z indexované sady dokumentů Ke každému tokenu přiřazuje seznam dokumentů, ve kterých se vyskytuje Případně další přídavné informace S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Princip implementace inverzního indexu v UIS S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Aktualizace indexu Realizace na aplikační úrovni speciálním modulem Úvodní naindexování (u obsáhlejších záznamů časově náročnější ) Indexování změn Indexování nového/změněného záznamu nejpozději do 5 min. S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Vyhledávací dotazy I Logické operátory Speciální fulltextové operátory AND, OR, NOT Implicitně AND Speciální fulltextové operátory NEAR, PHRASE Case insensitive Volitelná citlivost na diakritiku S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Vyhledávací dotazy II Pokročilejší fulltextové operátory Operátor pravostranného rozšíření * Umožňuje podřetězcové vyhledávání Operátor STEM reprezentovaný znakem $ Na klíč se aplikuje lexikální analýza Zjistí, dle jakého slovního základu se mají generovat další tvary klíče, přes které se bude vyhledávat Pro implementaci využití produktu ConText CZ firmy Sefira S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Příklady vyhledávacích dotazů I informační systém univerzity vyhledá záznamy obsahující slovo „informační“ a zároveň „systém“ a zároveň „univerzity“ informační OR systém vyhledá záznamy obsahující slovo „informační“ nebo slovo „systém“ informační NEAR systém vyhledá záznamy, kde slova „informační“ a „systém“ jsou v textu blízko sebe univerzitní PHRASE informační PHRASE systém vyhledá záznamy, kde slova „univerzitní“, „informační“ a „systém“ následují v textu bezprostředně za sebou S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Příklady vyhledávacích dotazů II informac* vyhledá záznamy obsahující informace, informaci, informacemi, informační, informačních, $jde vyhledá záznamy obsahující studium nebo některý z jeho vyskloňovaných tvarů - jdu, jdem, jdete, šli, nešlo, jít, jdouce,… $studuje NEAR $predmet vyhledá záznamy, kde slova studuje a předmět nebo slova z nich odvozená jsou v textu blízko sebe informac* OR system* vyhledá záznamy, obsahující buď nějaké slovo začínající „informac…“ nebo slovo začínající „system…“ S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Další vývoj Operátor levostranného rozšíření Kvalitní parsování dotazů Podpora vnoření operátorů Použití závorek Maximální efektivnost indexovacích algoritmů a rychlost fulltextových dotazů Hodnocení relevance nalezeného dokumentu Podpora stoplistů (různé druhy) Nasazení do různých oblastí UIS S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007

Děkuji za pozornost. Dotazy? 23. – 25. dubna 2007 S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007