VYHLEDÁVÁNÍ INFORMACÍ obecné a specifické otázky Mgr. Věra Pilecká Rešeršní strategie a vyspělé metody inf. podpory vědy konzultace kombinovaného studia 10.11.2006
Mgr. Věra Pilecká doktorandské studium na ÚISK FF UK zaměření: vyhledávání informací, kognitivní aspekty informační vědy, komunikace člověk-počítač (HCI) kontakty: tel.: +420 251 080 380, +420 605 733 813 e-mail: Vera.Pilecka@ff.cuni.cz Diplomová práce: Kognitivní aspekty procesu vyhledávání informací 10.11.2006 Rešeršní strategie
Témata Obecná charakteristika procesu vyhledávání Specifické otázky IR anglická terminologie, důležité otázky IR, přístupy k problematice, chování uživatele Specifické otázky IR analytické vyhledávání x browsing, komerční vyhledávací prostředky x vyhledávání na internetu, koncový a konečný uživatel, vyhledávací strategie Struktura hodiny: Přednáška – V. Pilecká Praktická část, cvičení – P. Myšková – vyhledávání - OVID – DB měsíce 10.11.2006 Rešeršní strategie
Vyhledávání informací – definice VAŠE NÁVRHY? „činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. plnotextové nebo bibliografické databáze); vyhledávání informací probíhá obvykle na základě konkrétního požadavku uživatele za pomoci dotazovacích a selekčních jazyků“ [TDKIV] procesy, metody a postupy, používané k selektivnímu vyhledání informací ze souboru dat [ODLIS] ODLIS - V knihovnách a archivech je typické vyhledávání známé jednotky nebo informace o specifickém předmětu a soubor je obvykle pro člověka čitelný katalog či rejstřík, nebo počítačový systém pro ukládání a selekci informací (jako online katalog nebo bibliografická databáze). Při projektování takovýchto systémů musí být dosaženo rovnováhy mezi rychlostí, přesností, cenou, pohodlností a efektivitou. J. Steinerová [Steinerová, 1996, s. 48] popisuje vyhledávání informací jako komplex procesů, směřujících k vyhledání informací odpovídajících informačnímu požadavku (dotazu). Vyhledávání probíhá z informačních zdrojů a výstupem jsou speciálním způsobem interpretované a prezentované informace. V jiné své práci označuje vyhledávání informací za komplikovanou oblast interakce člověka a informačních zdrojů, která je zprostředkována informačními technologiemi. V praxi, na povrchové úrovni se často jeví jako rešeršování (např. v bázích dat, ve zdrojích internetu; touto povrchovou stránkou se podle Steinerové zabývají výzkumy HCI), na hloubkové úrovni je jeho podstata daná vnitřním modelem reprezentace a vyhledávacím mechanizmem (search engine) [Steinerová, 1998]. 10.11.2006 Rešeršní strategie
Fáze vyhledávacího procesu Informační zájem Informační potřeba Informační požadavek Informační dotaz informační zájem uživatele (information interest) - dlouhodobé zaměření na určité odborné téma, okruh otázek (informační jevy, procesy, objekty a činnosti), spojené pro uživatele s jejich hodnotou a užitečností Při studiu tohoto tématu (zájmu) se u uživatele vytvoří informační potřeba (zjistí-li například nedostatečnou znalost určité části problému) Tato potřeba pak musí být vyjádřena jako konkrétní informační požadavek (ekv. uživatelský požadavek) = formulovaná inf. potřeba - ústní nebo písemná žádost uživatele informací, která je formulována obvykle v přirozeném jazyce, a vyjadřuje jeho subjektivní informační potřebu - adresován konkrétní informační instituci (např. knihovně) a může se jednat o žádosti o výpůjčky, konzultace o speciálních materiálech, informace a poradenské služby atd. Zpracování informačního požadavku vyžaduje určitou rešeršní strategii či formulaci konkrétního dotazu Rešeršní dotaz (search question, query) definuje norma ČSN ISO 5127-2003 jako vyhledávání skládající se z jednoho nebo více kroků, jehož cílem je nalezení odpovědi ve formě odkazů nebo jiných dat z vyhledávacího systému [TDKIV, 2002]. To předpokládá správné použití dotazovacího jazyka systému, který se uživatel nebo zprostředkovatel (informační specialista) rozhodl použít. Systém uživateli předkládá výsledky, odpovídající položenému dotazu. Měrná jednotka výsledku rešeršního dotazu, která udává počet vyhledaných věcně relevantních záznamů odpovídajících formulaci vyhledávání, se nazývá hit [TDKIV, 2002] Jak z předchozího jasně vyplývá, obdržené výsledky nemusí nutně odpovídat informačnímu požadavku nebo dokonce informační potřebě uživatele – to nastane v ideálním případě Poslední fází procesu vyhledávání informací se proto stává hodnocení výsledků. Hodnocení výsledků 10.11.2006 Rešeršní strategie
Obecné schéma vyhledávání informací [Sklenák, 2001, s. 9] Schéma vyjadřuje princip, na kterém pracují systémy pro vyhledávání informací (information retrieval systems). Jedná se o textově orientované systémy, jako příklad se obvykle uvádí bibliografické a fulltextové systémy (obecně každý databázový systém slouží mj. i k vyhledávání informací) 10.11.2006 Rešeršní strategie
Požadavky na ideální informační systém minimalizace doby odezvy mezi zadáním dotazu uživatele a odpovědí systému uchovávání užitečných údajů účelné uživatelské rozhraní souběžná práce více uživatelů s týmiž daty (resp. dokumenty) trvalost uchovávání a minimalizace redundance dat dotazovací jazyk blízký přirozenému jazyku možnost zabezpečeného přístupu co nejjednodušší vyhledávání s minimálními nároky na učení uživatele efektivní přidávání, rušení a aktualizace dat (resp. dokumentů) trvalá dostupnost bez jakýchkoliv časových omezení zvýrazněny ty požadavky, které jsou podle mého názoru nejvíce důležité pro IR [Sklenák, 2001] 10.11.2006 Rešeršní strategie
Požadavky uživatelů na vyhledávání informací zpětná vazba relevance extrahování informací multimediální vyhledávání efektivní vyhledávání filtrování informací „jazyková magie“ flexibilní a efektivní indexování distribuované vyhledávání zpětná vazba relevance – U ve vyhledané množině dokumentů označí pro něj nejzajímavější dok., a vyhl. systém pak na základě těchto dok. automaticky vytvoří nový dotaz, pomocí kterého budou vyhledány podobné dok. extrahování informací – proces identifikace databázových entit, jejich atributů a vztahů v plném textu (např. identifikace firem, jejich aktivit, nových služeb a výrobků apod.); tyto techniky se rozvíjejí především v souvislosti s aktivitami Advanced Research Projects Agency (ARPA) a Message Understanding Conference (MUC) multimediální vyhledávání – požadavek na multimediální indexování, aniž by různé mediální formy (obrázky, zvuky a videosekvence) musely být doplňovány konvenčním textovým popisem (deskriptory) efektivní vyhledávání – tato oblast tvoří jádro výzkumu v oblasti IR již více než 30 let; nejčastěji používanými mírami (i při hodnocení kvality různých systémů) jsou úplnost a přesnost – v prvé řadě jde především o jejich zvyšování filtrování informací – proces identifikace relevantních informací v toku nových informací; zatímco u „klasického“ vyhl. je jeden dotaz konfrontován s velkým objemem uložených dok., při filtrování je porovnávána sada definovaných profilů s jednotlivými dok.; pokud je dok. relevantní, je zaslán U, jemuž přísluší daný profil (profil reprezentuje trvalou inf. potřebu, jeho formulace bývá komplexnější než u jednorázových dotazů); zkoumají se možnosti využití tzv. informačních agentů „jazyková magie“ – jednou z nejčastějších příčin neúspěchu při vyhledávání je volba jiných slov než v databázovém indexu (slovníku), tzn. inf. potřeba je popsána jinými slovy než která jsou použita v relevantních dok.; problém se řeší např. vhodnou, automatickou expanzí dotazu, používají se různé techniky, např. Latent Semantic Indexing (skryté sémantické indexování) nebo použití zabudovaného tezauru flexibilní a efektivní indexování – jeden z nejdůležitějších předpokladů efektivního vyhl.; kritickými metrikami jsou především rychlost odezvy na dotaz a rychlost indexování; zajímavým aspektem indexování je nutnost vypořádání se s bohatostí formátů dokumentů (HTML, SGML, PDF a další proprietární firemní formáty) distribuované vyhledávání – prostřednictvím počítačových sítí mají U k dispozici mnoho inf. zdrojů, problém spočívá v jejich lokalizaci, jejich optimálním výběru, provedení simultánního dotazu, zatřídění výsledků podle normované škály relevance (může být nekompatibilní s individuálními koeficienty relevance konkrétních systémů) [Sklenák, 2001] [Sklenák, 2001] 10.11.2006 Rešeršní strategie
Faktory, ovlivňující IR jedinec, který informace hledá (information seeker) úloha (task) vyhledávací systém obor (domain) nastavení/uspořádání (setting) výsledky vyhledávání (search outcomes) jedinec - je hlavním činitelem, využívá tyto faktory jak hledání postupuje vpřed, je motivován informačním problémem nebo potřebou, která aktivuje mentální představy nebo paměťové stopy; používá mentální modely oboru i vyhledávacího systému úloha – slovní vyjádření problému nebo soubor účelných aktivit k jeho vyřešení systém – zdroj informací a pravidel pro přístup – viz obr. složky vyhledávacího systému obor – oblasti poznání (např. chemie, medicína) nastavení - situační a fyzický kontext hledání; limituje vyhledávací proces výsledky – zpětné vazby systému (např. záznamy dokumentů, obrázky, zprávy systému) a stopy celkového procesu; ten kdo vyhledává reaguje na výsledky a tato reakce naopak mění jeho znalosti a určuje, zda bude pokračovat nebo přestane vyhledávat [Marchionini, 1998] 10.11.2006 Rešeršní strategie
Složky vyhledávacího systému [Marchionini, 1998, s. 39] Uživatelské rozhraní má 2 základní složky: fyzickou (vstupní/výstupní zařízení, nástroje selekce a zpětné vazby) konceptuální (dotazovací, resp. příkazové jazyky, menu, prostředky přímé manipulace, systémy pracující s ikonami, formulářové rozhraní, prvky inteligentního rozhraní) [Papík, 2000] 10.11.2006 Rešeršní strategie
Anglická terminologie information seeking = hledání informací; zahrnuje analytické vyhledávání (analytical strategy) a intuitivní vyhledávání (browsing strategy) information searching = hledání informací; ekvivalent předchozího termínu information retrieval = vyhledávání informací; je součástí hledání informací online retrieval, online searching, online hunting, information gathering, browsing information seeking and information retrieval (zkr. IS&R) [Ingwersen, Järvelin, 2004] [Papík, 2000] 10.11.2006 Rešeršní strategie
Vztahy mezi klíčovými procesy vyhledávání [Marchionini, 1998] 10.11.2006 Rešeršní strategie
Důležité otázky IR pojem potenciální informace relevance a pertinence informace potenciální hodnoty pro příjemce relevance a pertinence relevance = vlastnost vztahu mezi dotazem uživatele a jednotlivým dok. jako prvkem množiny všech nalezených dok.; systémová relevance pertinence = subjektivní kategorie přesnost a úplnost přesnost = jak velká část nalezených dok. je relevantní úplnost = jak velká část relevantních dok. byla vyhledána Jsou navzájem protichůdné Ingwersen [Ingwersen, 1992] definuje IR jako proces, zapojený do reprezentace, uchování, hledání, nacházení a prezentace potenciální informace, požadované lidským uživatelem. Pojem potenciální informace je pro autora stěžejní. Jedná se o takové datové struktury, které jsou výsledkem transformace znalostních struktur tvůrce. Systémy vyhledávání informací obsahují potenciální informace nebo informace v metaforickém smyslu, tzn. informace potenciální hodnoty pro příjemce. Když jsou vnímány, mohou ovlivnit a změnit současný stav znalostí příjemce. Pouze pokud vliv a změna nastanou, pak systém poskytl informaci. Ingwersen se domnívá, že přestože se oblast vyhledávání informací převážně zabývá informacemi v podobě textových dokumentů (bibliografické nebo fulltextové IR systémy), existují tři základní, vzájemně související problémové oblasti, které jsou důležité pro všechny procesy vyhledávání informací, včetně multimediálního vyhledávání, teorií IR a přístupů výzkumu a vývoje. Je to zaprvé otázka čeho se vyhledávání týká, reprezentace a její typy zapojené do procesu vyhledávání a konečně relevance a hodnocení. Pojem relevance hraje klíčovou roli při posuzování kvality libovolného systému pro vyhledávání informací. R= vztah mezi dotazem a dok. to vyplývá ze dvou předpokladů: odpověď vyhl. systému je množina rovnocenných objektů (většinou bibliografických záznamů nebo fulltextových dokumentů) kvalita objektu, tedy jeho relevance vzhledem k zadanému dotazu, závisí výlučně a právě na dotazu (případné souvislosti a závislosti s dalšími nalezenými dokumenty se neberou v úvahu) Dok. můžeme označit za relevantní, pokud je jím uspokojena inf. potřeba U. V opačném př. se jedná o nerelevantní dok. Posouzení relevance dokumentu probíhá až v okamžiku, kdy U vnímá výsledky dotazu. Nalezené dok. jsou pouze systémově relevantní. Vyplývá to z principu fungování vyhl. systémů, kdy se algoritmicky vyhodnocuje podobnost mezi zadaným dotazem a vyhledávacími obrazy dok. Relevance se také posuzuje jako subjektivní kategorie = pertinence. Pro dva různé U se stejnou inf. potřebou nemusí být tytéž výsledky stejně relevantní. Záleží na jejich předchozích zkušenostech a znalostech, osobnostním fondu, emocionálním rozpoložení. Relevanci bychom mohli vyjádřit jako informativnost dok. Dok. je pro uživatele relevantní, pokud mu přináší-li něco nového, snižuje jeho určitou nejistotu [Sklenák, 2001]. 10.11.2006 Rešeršní strategie
Přesnost a úplnost ideální poměr mezi P a R Tyto dvě často používané míry hodnocení efektivnosti vyhl. se odvozují na základě posouzení relevance výsledků. Přesnost (angl. precision) vyjadřuje, jak velká část nalezených dokumentů je relevantní. Úplnost (angl. recall) říká, jak velká část relevantních dokumentů (ze všech možných) byla vyhledána. U se často při porovnávání různých systémů dopouštějí chyby, že uvažují pouze o úplnosti a neberou v úvahu přesnost posuzovaných systémů. Určení přesnosti výsledku je poměrně jednoduché (za předpokladu, že výsledek rozumně velký, hodně tedy záleží na použité vyhl. strategii), obtížnější je to s určením úplnosti. Problém spočívá ve stanovení velikosti množiny všech relev. objektů v prohledávané množině dok. Pro určení její velikosti se při hodnocení efektivnosti IR systémů používají různé metody odhadu. Pro úspěšné vyhl. je důležitá jak vysoká přesnost, tak vysoká úplnost. V ideálním případě by obě charakteristiky měly být rovny jedné (= každý relevantní dok. uložený v DB byl nalezen a současně by výsledek byl tvořen pouze relevantními dok.) => nedostižný ideál, reálně tento stav nikdy nenastává, neboť přesnost a úplnost jsou navzájem protichůdné. Jestliže je dotaz formulován tak, aby poskytoval co nejúplnější výsledky, pak současně bude jeho výsledek málo přesný (relevantní objekty budou v menšině oproti nerelevantním). A naopak – pokud jsou výsledky díky vhodné formulaci dotazu velmi přesné, je velmi pravděpodobná nízká úplnost. Výsledky vyhledávání se většinou pohybují mezi oběma extrémy [Sklenák, 2001]. reálný funkční vztah mezi P a R [Kowalski, 1997 , cit. dle Papík, 2001] 10.11.2006 Rešeršní strategie
Chování uživatele při vyhledávání informací informační chování lidské chování ve vztahu ke zdrojům a kanálům informací chování při hledání informací účelné hledání informací, vzniká jako následek potřeby splnit určitý úkol chování při vyhledávání informací mikroúroveň chování zapojená U při interakci s inf. systémy všech druhů chování při využití informací začleňování nalezené informace do poznatkového fondu (znalostní báze) Lidské informační aktivity - nejen vyhledávání informací. T. D. Wilson [Wilson, 2000] rozlišuje tři stupně (viz obr) inf.chování - zahrnuje jak aktivní tak i pasivní hledání informací a jejich použití chování při hledání informací - v průběhu hledání může jedinec vstupovat do interakce s manuálními informačními systémy (např. knihovna) nebo počítačovými systémy (vyhl. systémy) chování při vyhl. informací - zahrnuje všechny interakce U s inf. systémem - na úrovni interakce člověka s počítačem (např. použití myši a kliknutí na odkaz) nebo na intelektuální úrovni (např. osvojení booleovské vyhledávací strategie) - to zahrnuje i mentální činnosti jako hodnocení relevance vyhledaných informací Hledání informací upozorňuje na kontext řešeného problému, účel, pro který jsou informace hledány a kognitivní stav U; dále více zdůrazňuje cílevědomou aktivitu U. Z obr. je zřejmé, že vyhl. informací (IR) je pouze část procesu hledání, během hledání může probíhat také vyhledávání [Škrna, 2002]. chování při využití informací (Wilson v článku doplňuje, není na obr.)- se skládá z fyzických a psychických aktivit, zapojených při začleňování nalezené informace do již existujícího poznatkového fondu (znalostní báze) jedince. Může zahrnovat fyzické aktivity jako označování částí textu kvůli zvýraznění jejich důležitosti nebo významnosti, stejně jako duševní aktivity zahrnující např. porovnání nové informace s existující znalostí. [Wilson, 2000] 10.11.2006 Rešeršní strategie
Hierarchie způsobů chování při inf. aktivitách dle Wilsona [Škrna, 2002] 10.11.2006 Rešeršní strategie
SPECIFICKÉ OTÁZKY IR základní strategie vyhledávání [Marchionini, 1998] analytické vyhledávání browsing použité vyhledávací prostředky komerční služby vyhledávací služby na internetu generace vyhledávání (dávkové, interaktivní dialogové, dynamické) dostupnost inf. zdroje (přímo – veřejný charakter, zprostředkovaně – internet jako metoda přístupu, komerční) způsoby, jakými se vyhledávalo v automatizovaných inf. systémech v průběhu jejich vývoje -> několik generací vyhledávání informací první generace = dávkové vyhledávání, u nás známé také jako adresné rozšiřování informací (ARI) nebo služby SDI (selective dissemination of information). Ke zpracování rešeršního požadavku docházelo v dávkách a výsledky byly dodávány v pravidelných časových intervalech, které závisely na frekvenci aktualizace db. Ze začátku se výsledky zasílaly klasickou poštou, později elektronicky. ARI v nové formě později využila DBC, která na základě uloženého rešeršního požadavku pravidelně informovala U o nových přírůstcích v db při každé aktualizaci. 2. generace - interaktivní dialogové vyhledávání. To přineslo pro U nesporné výhody – mohli reagovat bezprostředně na výsledky vyhledávání a měnit rešeršní techniky a strategie. Tato generace vyhledávání měla za následek velký rozvoj tzv. inf. průmyslu, reprezentovaného zejména velkými komerčními DBC (Dialog, DataStar, STN, Orbit atd.). Vyhledávání v těchto zdrojích bylo placené a pro méně zkušené U také dosti náročné, proto vyhledávání prováděli zejména inf. profesionálové. Vyhledávací nástroje využívaly většinou principy booleovského vyhledávání. Třetí, dynamická éra vyhl. inf. se rozvinula s nástupem internetu. Je pro ní příznačné velké množství inf. zdrojů a kanálů komunikace, neustále se měnící povahou informací a přístupu k nim. Velkým problémem tohoto období se stává popis a objevování zdrojů na internetu. Je také těžké jednoznačně vymezit, co je to vlastně elektronický zdroj nebo virtuální dokument. [Makulová, 2002] Z hlediska dostupnosti lze inf. zdroje (na internetu) dělit na: inf. zdroje dostupné přímo – mají zpravidla veřejný charakter, přístup je bezplatný, je možné je lokalizovat pomocí vyh. služeb inf. zdroje přístupné zprostředkovaně – internet je v tomto případě použit pouze jako metoda přístupu ke zdroji; jedná se většinou o profesionální a komerční DBC obsahující tisíce db a v nich milióny dok. [Sklenák, 2001]. 10.11.2006 Rešeršní strategie
Analytické strategie systematické strategie, zaměřené na cíl strategie a taktiky profesionálních zprostředkovatelů smyslem maximalizovat efektivitu vyhl. a minimalizovat náklady na online vyhledávání důkladné poznání systému a jeho možností (dotazovacího jazyka, ceny za jednotl. služby, ovládání pokročilých možností) založené na důkladném poznání systému a jeho možností. Jedná se např. o dokonalé zvládnutí dotazovacího jazyka, znalost cen za jednotlivé služby v systému (zobrazení plného záznamu dokumentu apod.), ovládání pokročilých možností systému (možnost „pauzy“ – zastavení systému na určitý čas bez nutnosti za tento čas platit, použití komunikačního softwaru). Analytický styl vyhledávání lze samozřejmě aplikovat i při využívání volně dostupných zdrojů na internetu. 10.11.2006 Rešeršní strategie
Browsing (intuitivní vyhledávání) neformální strategie přizpůsobivá, závislá na inf. prostředí přirozený a efektivní přístup (koordinuje fyzické, emocionální, a kognitivní zdroje člověka) zahrnuje prohlížení, pozorování, navigování a monitorování velké množství neformálních, interaktivních, heuristických strategií - můžeme je označit jako browsing nebo intuitivní vyhl. Tato strategie je neformální, přizpůsobivá a velmi závislá na informačním prostředí. Jedná se o přirozený a efektivní přístup k vyhl., který koordinuje fyzické, emocionální, a kognitivní zdroje člověka. Browsing závisí (stejně jako ostatní vyhl. aktivity) na vzájemných vztazích vyhl. faktorů, jimiž jsou: úloha, obor, nastavení, vlastnosti a zkušenosti U, obsah a rozhraní systému. Pod strategii browsingu můžeme zahrnout prohlížení, pozorování, navigování a monitorování (angl. scanning, observing, navigating, monitoring). 10.11.2006 Rešeršní strategie
Komerční vyhledávací služby práce s profesionálními informačními zdroji DBC práce se zdroji shromážděnými do jednoho místa (el. prostoru) nutné navázat smluvní vztahy, platby za služby (předplatné, pay-as-you-go) nyní i pro neprofesionály (web rozhraní), bez znalosti dotaz. jazyka základní, pokročilé vyhledávání různé druhy DB dle druhu dokumentu dle druhu obsažených údajů DBC - původně využívání těchto profesionálních komerčních služeb znamenalo práci výlučně se specializovanými dotazovacími prostředky (dotazovacími jazyky). DBC se ovšem rychle přizpůsobila nové technologii internetu a poskytla U možnost přístupu přes www rozhraní. Také již není nutné znát dotazovací jazyk (je to ale výhodou), U má možnost volby mezi jednoduchou základní formou vyhledávání (basic) a pokročilou formou (advanced), výstupy lze obdržet ve více formátech. DB dle druhu dokumentu – primární, sekundární, terciální, resp. speciální druhy informačních zdroj DB dle druhu obsažených údajů – bibliografické, faktografické, plnotextové, databáze katalogů, rejstříků a adresářů 10.11.2006 Rešeršní strategie
Koncový x konečný uživatel koncový uživatel pracuje se systémem samostatně, bez zprostředkovatele získané informace dále zpracovává a využívá pro své výzkumy nebo jiné činnosti inf. specialista, který pracuje se systémem za účelem obsluhy konečného U konečný (finální) uživatel formuluje informační požadavek nezatěžuje se problematikou inf. systému a způsobu vedení dialogu zpracování požadavku provádí inf. pracovník samostatně (konečný U může a nemusí být přítomen) Výrobci systémů a producenti dat se orientují stále více na koncového uživatele s tím, že mu nabízejí přátelská uživatelská rozhraní. Tím se mění i pozice informačního pracovníka jako zprostředkovatele. [Papík] 10.11.2006 Rešeršní strategie
Vyhledávání na internetu vyhledávací služby startovní body pro většinu U patří mezi nejnavštěvovanější servery internetu kategorie vyhledávání browsing (listování stránkami www) starting points (startovní body) search engines (vyhledávací nástroje) základní skupiny vyhledávací stroje předmětové katalogy pracovní cyklus formulace dotazu; realizace vyhledávání; obdržení seznamu výsledků; prohlédnutí výsledků, výběr dokumentu pro download; download dokumentu; hodnocení dokumentu [Sklenák a kol.,2001] prac. cyklus - každý z jednotlivých kroků tohoto procesu je různě časově náročný (ovlivňuje je jak uživatel, tak vyhledávací systém). Proces nemusí být přímočarý, může se několikrát opakovat díky postupnému vylaďování (upřesňování) dotazu tak, aby odpovídal aktuální inf. potřebě. [Sklenák a kol., 2001] 10.11.2006 Rešeršní strategie
Vyhledávací služby vyhledávací stroje (search engines) např. Altavista indexují slova nebo termíny, které se vyskytují v dokumentech na www problém: velké množství vrácených výsledků předmětové katalogy např. Yahoo klasifikují dokumenty i celé servery podle předem dané taxonomie nebo předmětové klasifikace vhodné použít při vyhl. dobře klasifikovatelných inf. problémy: zda je kategorie vytvořena, malá úroveň pokrytí rozdíly mizí vytváření portálů -> integrace, usnadnění přístupu U k základním informačním službám internetu 10.11.2006 Rešeršní strategie
Vyhledávací strategie obecné vyhledávání - pokud ví uživatel o tématu velmi málo specifické vyhledávání – uživatel naopak zná téma velmi dobře inkrementální vyhledávání – vyhledávání po krocích řetězcové vyhledávání – spočívá v nalezení více klíčových slov najednou vyhledej-a-skoč – rychlá dvoukroková vyhledávací technika kategoriální vyhledávání – konvenční prohlížení (browsing) k tematické oblasti vyhledej-a-seřaď – metoda nalezení nejvhodnějšího nejdříve kombinace různých metod vyhledávání obecné vyhl. - U má pouze obecnou představu, nezná podrobnosti. Tato metoda zajišťuje vyh. do šíře, jejím prostředkem je operátor OR, který spojuje klíčová slova. Čím více jich je zadáno, tím je výsledek širší a bohatší. Obecné vyhl. lze použít u různých tvarů nebo u synonymie, jeho předností je nalezení většího množství relevantních inf. V příliš obecných dotazech však spočívá nebezpečí zahlcení velkým množstvím hitů, které relevantní inf zcela „pohřbí“. specifické vyhl. – U zná podrobnosti k tématu, o kterém chce vyhledat informace. Metoda je založena na operátoru AND. Jsou nalezeny dok, které obsahují všechna zadaná slova – čím více je jich zadáno, tím méně je výsledných hitů. U některých vyhledávacích služeb je možno použít omezení výskytu klíčového slova na označenou část dokumentu (např. název, text, odkaz) nebo použít zpřísnění operátoru AND (operátory ADJ, NEAR apod.) inkrementální vyhl.– Hl. principem metody je, že pokud dotaz nedává dobré výsledky, U ho změní a zkusí to znovu. Dochází tak k postupnému zpřesňování dotazu až do té chvíle, kdy výsledky odpovídají uživatelovým představám. Zpřesňování dotazu (neboli ladění dotazu) znamená maximální přiblížení formulace dotazu skutečné inf. potřebě. řetězcové vyh. - Některé vyhl. stroje mohou vyhledávat nejen celá slova, ale i jejich části – řetězce (resp. podřetězce). Tato metoda šetří uživatelům čas, nemusejí použít obecnou strategii a vypisovat do dotazu s operátorem OR všechny varianty hledaného výrazu. Bývá většinou nabízena pro pokročilé vyhledávání. vyhledej-a-skoč –kombinuje funkci Find www prohlížeče (umožňuje najít požadovaný text v aktuálním, právě zobrazeném dokumentu a rovnou přejít na dané místo) s obecnějším vyhledáváním kategoriální vyh.– typ vyhl., na kterém jsou založeny předmětové katalogy (Seznam, Yahoo apod.) – U přechází od obecnějších kategorií ke specifičtějším. vyhledej-a-seřaď – pokud je odpovědí na dotaz velké množství hitů, je užitečné, pokud je vyhledávací stroj seřadí podle pravděpodobné relevance. Tímto způsobem se chová většina vyhledávacích strojů. U nemá většinou žádnou možnost ovlivnit způsob řazení hitů, úspěch při použití této metody tedy hodně závisí na použitém vyhl. stroji. kombinace různých metod – např. kombinace obecného a specifického vyhl. (pomocí kombinace operátorů AND a OR, případně dalších) umožňuje spojit úplnost a přesnost v rámci jednoho dotazu [Sklenák a kol., 2001]. [Sklenák a kol., 2001] 10.11.2006 Rešeršní strategie
Srovnání vyhledávacích strategií 10.11.2006 Rešeršní strategie [Sklenák a kol., 2001, s. 314]
Doporučená literatura k prostudování MAKULOVÁ, Soňa. Vyhĺadávanie informácií v internete : Problémy, východiská, postupy. 1. vyd. Bratislava : EL&T, 2002.376 s. ISBN 80-88812-16-X. PAPÍK, Richard. Vyhledávání informací I. Umění či věda? Národní knihovna. 2001, roč. 12, č. 1, s. 18-25. ISSN 1214-0678. PAPÍK, Richard. Vyhledávání informací II. Uživatelské rozhraní a vlivy oboru „human-computer interaction“. Národní knihovna. 2001, roč. 12, č. 2, s. 81-90. ISSN 1214-0678. PAPÍK, Richard. Vyhledávání informací III. Dialogové služby světových databázových center. Národní knihovna. 2002, roč. 13, č. 1, s. 20-30. ISSN 1214-0678. 10.11.2006 Rešeršní strategie
Doporučená literatura k prostudování PILECKÁ, Věra. Kognitivní aspekty procesu vyhledávání informací. Ikaros [online]. 2006, roč. 10, č. 9 [cit. 2006-11-08]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/3592>. URN-NBN:cz-ik3592. ISSN 1212-5075. (popř. diplomová práce uložená v ISDP) SKLENÁK, Vilém a kol. Data, informace, znalosti a Internet. Vyd. 1. V Praze : C.H. Beck, 2001. xvii, 507 s. (C.H. Beck pro praxi). ISBN 80-7179-409-0. 10.11.2006 Rešeršní strategie
Použité zdroje (1) INGWERSEN, Peter. Information Retrieval Interaction. London : Taylor Graham, 1992. x, 246 s. ISBN 0-947568-54-9. Dostupné také z WWW: <http://www.db.dkIpi/iri/>. INGWERSEN, Peter; JÄRVELIN, Kalervo. Information Retrieval in Context. In Information Retrieval in Context, SIGIR 2004 IRiX Workshop, 29th July 2004, Sheffield, UK [online]. c2004 [cit. 2005-10-18]. Dostupné z www: <http://ir.dcs.gla.ac.uk/context>. MAKULOVÁ, Soňa. Vyhĺadávanie informácií v internete : Problémy, východiská, postupy. 1. vyd. Bratislava : EL&T, 2002.376 s. ISBN 80-88812-16-X. MARCHIONINI, Gary. Information seeking in electronic environments. New York, Cambridge : University Press. 1998, xi, 224 s. ISBN 0-521-58674-7. 10.11.2006 Rešeršní strategie
Použité zdroje (2) PAPÍK, Richard. Dialogové vyhledávání a služby v kontextu člověk – počítač. Praha, 2000. 117 s. + 2 příl. Dizertační práce. Univerzita Karlova v Praze, Filozofická fakulta, Ústav informačních studií a knihovnictví 2000. Školitel Marie Königová, oponenti Vladimír Smetáček, Rudolf Vlasák. PAPÍK, Richard. Vyhledávání informací I. Umění či věda? Národní knihovna. 2001, roč. 12, č. 1, s. 18-25. ISSN 1214-0678. REITZ, Joan M. ODLIS : Online Dictionary of Library and Information Science. Westport (CT) : Libraries Unlimited, 2004-04-30 [cit. 2005-11-06]. 800 s. Dostupný také online z WWW: <http://lu.com/odlis/>. ISBN 1591580757. SKLENÁK, Vilém. Vyhledávání informací v internetu. In Informační studia a knihovnictví v elektronických textech I. : Interaktivní modulární výukový systém na podporu informačního a knihovnického vzdělávání [CD-ROM]. 1. vyd. Praha : Ústav informačních studií a knihovnictví FF UK, 2001 [cit. 2006-03-12]. 10.11.2006 Rešeršní strategie
Použité zdroje (3) SKLENÁK, Vilém a kol. Data, informace, znalosti a Internet. Vyd. 1. V Praze : C.H. Beck, 2001. xvii, 507 s. (C.H. Beck pro praxi). ISBN 80-7179-409-0. ŠKRNA, Jindřich. Interaktivní vyhledávání informací. Národní knihovna, 2002, roč. 13, č. 1, s. 7–19. ISSN 1214-0678. TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy (báze KTD) [online]. Praha : Národní knihovna České republiky, Odbor knihovnictví, c2002- [cit. 2005-11-06]. Dostupné z WWW: <http://www.nkp.cz/o_knihovnach/Slovnik/index.htm>. WILSON, T. D. Human information behavior. Informing science, 2000, vol. 3, no. 2, s. 49-55. Special Issue on Information Science Research. Dostupný také z WWW: <http://inform.nu/Article/Vol3/v3n2p49-56.pdf>. ISSN 1547-9684. 10.11.2006 Rešeršní strategie