Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Bibliografická a rešeršní činnost Specifika vyhledávání informací na internetu.

Podobné prezentace


Prezentace na téma: "Bibliografická a rešeršní činnost Specifika vyhledávání informací na internetu."— Transkript prezentace:

1 Bibliografická a rešeršní činnost Specifika vyhledávání informací na internetu

2 Mgr. Miluše Mírková Univerzitní knihovna ZČU URL: tel URL:

3 Obsah Internet jako informační médium Vyhledávací nástroje internetu Internetové vyhledávače Světové internetové vyhledávače České internetové vyhledávače Předmětové adresáře Světové metavyhledávače Neviditelný web Archiv webu Závěr

4 Internet jako informační médium informační exploze –denně vychází na světě –přes 2 tisíce nových titulů tištěných knih + elektronické knihy (ročně celkem více než 800 tisíc titulů) –6 až 7 tisíc vědeckých článků –na internetu jsou stovky miliard dokumentůstovky miliard dokumentů –v tištěné podobě vychází jen 0,003% celého obsahu publikované ve světě –zdroje na internetu z hlediska přístupnosti: –veřejné –neveřejné (např. komerční databáze, periodika apod.)

5 Internet jako informační médium internet x komerční zdroje informací –internet –dynamický (neustálá aktualizace) –distribuovaný (bez centrální autority) – otázka kvality a důvěryhodnosti informací –komerční zdroje (bibliografické databáze apod.) –propracovanější vyhledávací nástroje (pracují se strukturovanou databází – exaktnější vyhledávání) –hlavní důraz ne na množství, ale kvalitu zdrojů zařazovaných do databází (recenzované zdroje, autoritativní zdroje atd.) –komerční – tedy placené

6 Internet jako informační médium zásady pro vyhledávání na internetu –uvědomit si, že internet není knihovna (v knihovně jsou zdroje zpracovány a organizovány) – internet je neuspořádaný a chaotický –dokázat odhadnout, co má smysl hledat na internetu –vybrat správná místa, kde s hledáním začít –osvojit si práci s vyhledávacími nástroji –přečíst si nápovědu –správně formulovat dotaz –použít synonyma a příbuzné výrazy –zkontrolovat pravopis –nenechat se odradit počátečním neúspěchem a nespokojit se jen s jedním hledáním

7 Internet jako informační médium zobrazení výsledků  možnost nastavení počtu záznamů na stránce  zobrazení stručných anotací nebo shrnutí  vyznačení vyhledávaných termínů faktory, které mají vliv na uspořádání výsledků –četnost výskytu slov –počet výrazů v dotazu, jež se shodují s nalezeným dokumentem –váha podle pole –blízkost slov –výskyt příbuzných slov a různých pravopisných variant –pořadí slov v dotazu uživatele apod.

8 Internet jako informační médium problém kvality zdrojů –snadnost zveřejňování dokumentů přinesla publikační explozi –informační zdroje nejsou odborně editovány –autoři často zůstávají v anonymitě –chybějí data zveřejnění –je těžké určit, jedná-li se o informaci původní –obtížné rozlišování skutečných seriózních informací od reklamních textů

9 Internet jako informační médium zásady pro hodnocení dokumentů kvalifikace autora: –v které instituci autor pracuje – lze to poznat i z URL, zda se jeho jméno vyskytuje v tištěných zdrojích, v Science Citation Indexu (Web of Science), zda je na něj uveden kontakt struktura informačního zdroje: –zda respektuje stránka nejnovější doporučení pro tvorbu WWW –jestli jsou na stránce odkazy a další citace –je-li způsob navigace na stránce srozumitelný –zda je stránka registrovaná ve vyhledávacích nástrojích internetu, adresářích a digitálních (virtuálních) knihovnách

10 Internet jako informační médium zásady pro hodnocení dokumentů – pokračování obsah informačního zdroje: –kdo je cílovou skupinou stránky –jaká je hodnota stránky v porovnáním s dalšími zdroji relevantními k tématu –jaká je úroveň pokrytí dané problematiky –zda je text srozumitelný, přehledný a bez chyb –jestli jsou předkládané informace objektivní –jestli jsou informace aktuální –zda uvádí autor důkazy pro svá tvrzení a odkazy na použité zdroje –jestli byla stránka recenzovaná nebo hodnocená

11 Internet jako informační médium zásady pro hodnocení dokumentů – pokračování datum vydání stránky – problém rozeznat: –kdy byla vytvořena –kdy byla naposledy aktualizována –jsou odkazy aktuální –apod.

12 Vyhledávací nástroje internetu booleovská logika se v současných vyhledávacích nástrojích používá třemi způsoby –úplné booleovské vyhledávání s použitím logických operátorůúplné booleovské vyhledávání –implicitní booleovské vyhledáváníimplicitní booleovské vyhledávání –předdefinovaná terminologie ve formuláříchpředdefinovaná terminologie

13 Vyhledávací nástroje internetu volba vyhledávacího nástroje –odhad webové adresyodhad webové adresy –použití předmětového adresáře (klasifikace zdrojů podle předmětových kategorií) –použití internetového vyhledávače (vyhledávácí služby nepostihují celý obsah webu – tzv. neviditelný web mnohdy nedokážou běžné nástroje prohledat) použít několik vyhledávačů – každý z nich může nalézt unikátní dokumenty

14 Vyhledávací nástroje internetu –internetové vyhledávače, služby typu „search engines“, vyhledávací stroje, vyhledávací systémy –předmětové adresáře a digitální (virtuální) knihovny (prohlížení) většina velkých vyhledávacích služeb nabízí - dvě základní možnosti prohledávání své databáze: postupným procházením hierarchicky uspořádaného systému menu příkazem/dotazem tvořeným klíčovými slovy vyjadřujícími hledané téma –metavyhledávací nástroje

15 Vyhledávací nástroje internetu hlavní odlišnosti jednotlivých typů vyhledávacích nástrojů: –internetové vyhledávače – založené na automatizovaném sběru dat prostřednictvím robotů primárně určeny pro vyhledávání –předmětové adresáře – vytvářeny ručně, zdroje jsou do nich zařazovány výběrově - specializace dva druhy: digitální (virtuální) knihovny soupisy zdrojů internetu určeny pro prohlížení –metavyhledávací nástroje – zastřešují jednotlivé vyhledávače – jednotné vyhledávací prostředí pro více vyhledávačů

16 Vyhledávací nástroje internetu základní zásady výběru vyhledávacího nástroje –vyčerpávající průzkum → nástroj s velkou databází –nejznámější a nejvíce navštěvované zdroje → nástroj budovaný na základě ručního sběru dat –máme jasnou představu o hledaném tématu → vyhledávací stroj příklad - budeme-li chtít prohledávat klíčovými slovy např. české zdroje, použijeme raději Google – kvalitnější výsledky než třeba český Seznam (Google – větší databáze)GoogleSeznam - budeme-li chtít použít pro hledání českých zdrojů předmětový katalog, obrátíme se na Centrum.cz, nikoliv třeba na službu Yahoo!.Yahoo!

17 Internetové vyhledávače internetový vyhledávač, vyhledávací stroj, search engine, fultextový vyhledávač systém, který na základě klíčového slova formulovaného uživatelem hledá v databázi a předá uživateli výsledek je tvořen robotem, indexačním programem, vyhledávacím programem a grafickým rozhraním databáze vyhledávače používáme, chceme-li provést vyčerpávající průzkum webu, při hledání velmi specializovaných informací většina vyhledávacích služeb poskytuje řadu dalších služeb: aktuální zpravodajství, obchodní a ekonomické informace, turistické informace, počasí, bezplatný atd.

18 Internetové vyhledávače základní rozdíly mezi vyhledávacími stroji: - jaký prostor internetu nástroj prohledává (celý svět nebo jen zdroje v určitém regionu, jen WWWeb nebo také Usenet (o něm), Gopher (o něm), FTP – Archie, Snoopie (o FTP) aj.)Useneto němGophero němArchieSnoopieo FTP - velikost databáze – vzniká automatizovaně nebo ručně? - způsob indexování webových stránek frekvence výskytu, počet termínů vyhovujících požadavku, váha podle polí, proximita, pořadí slov v dotazu apod. zda zařazuje do své databáze jen názvy dokumentů, názvy hypertextových odkazů, vybrané prvky z dokumentů, části textů nebo úplné texty dokumentů

19 Internetové vyhledávače základní rozdíly mezi vyhledávacími stroji: - způsob řazení výsledků - možnosti vyhledávání (jednoduché, pokročilé, pozor na odlišné fungování shodných nebo podobných příkazů) - jaké typy dokumentů pokrývá vyhledávací nástroj (html, pdf, postscript, obrázky, zvukové dokumenty apod.) - uživatelská podpora a přívětivost -možnost personalizace žádný internetový vyhledávač neumí prohledat celý internet žádný vyhledávač není ideální

20 Internetové vyhledávače použití booleovských operátorů ve vyhledávacích službách –použití operátorů v jednoduchém rozhraní většina vyhledávačů nepodporuje –zpočátku používala většina vyhledávacích nástrojů implicitně operátor OR, v současnosti však již převládá nastavení na operátor AND –použití implicitního operátoru OR – hodnocení relevance - na prvních místech odkazy na dokumenty s nejvyšším výskytem, na nižších místech některá z použitých klíčových slov chybí

21 Internetové vyhledávače katalogy a rozcestníky internetových vyhledávačů: –Hotsheet – tematicky uspořádané, velké množství kategorií –Beaucoup - tematicky uspořádané –SearchengineCollossus - seznam vyhledávačů uspořádaný teritoriálně

22 Internetové vyhledávače informace o internetových vyhledávačích : například SearchengineShowDown -

23

24

25 Světové internetové vyhledávače Google –založ. v r –jeden z nejpopulárnějších a největších vyhledávacích nástrojů –poskytuje řadu dalších služeb –systém denně aktualizuje 260 zaměstnanců z nichž více než 50 má titul PhD.

26 Světové internetové vyhledávače Google výhody: –veliká databáze - indexuje miliardy webových stránek z povrchového webu včetně pdf, doc, ps, xls, txt, ppt, rtf aj. souborů –neustálá inovace vyhledávacích služeb –při posuzování relevance stránek se berou v úvahu odbornost i popularita stránky − možnost nastavení jazyka podle volby uživatele − hledané termíny jsou zvýrazněné − propracované vyhledávání v mnoha speciálních zdrojích − zobrazuje stránky, které už zanikly, ale jsou v paměti (cached) s udáním data, kdy byly indexovány

27 Světové internetové vyhledávače

28

29 Google nevýhody: •indexuje pouze prvních 101 KB u webových stránek a 120 KB u pdf souborů •nepoužívá možnost rozšíření slov pomocí * či jiného znaku •v jednoduchém vyhledávání neumožňuje plné použití booleovských operátorů (např. NOT) •neumožňuje použití závorek k seskupování klíčových slov v dotazu např. –pizza AND (žampiony OR šunka) AND olivy nebo –(pizza AND žampiony) OR (šunka AND olivy) v obou případech stejný výsledek

30 Světové internetové vyhledávače způsoby vyhledávání –jednoduché vyhledávání defaultně AND vyhledávání podle polí „Zkusím štěstí“ zobrazí první vyhledaný výsledek –rozšířené vyhledávánírozšířené vyhledávání předdefinovaný formulář

31 Světové internetové vyhledávače vyhledávací možnosti prohledávání podle polí příklady –allintitle:text –allinurl:textallinurl:text –allintext:text

32 Světové internetové vyhledávače fráze uvozovky rozšíření hledá automaticky jednotné a množné číslo maskování možné uvnitř frází – např. „pizza se šunkou a *“ vyloučení nežádoucích termínů pomocí - př. univerzita -fakulta zabránění vyloučení obecných slov pomocí + př.sparta +a slaviasparta +a slavia nerozlišuje malá a velká písmena př. Brno – totéž co brno vyhledání synonym pomocí ~ př. šumava ~cesty najde i trasy apod.šumava ~cesty

33 Světové internetové vyhledávače řada dalších služeb –přehled dalších možnostípřehled –překladačpřekladač

34 Světové internetové vyhledávače nejhledanější slova na Googlu idnes a /default.aspx

35 Světové internetové vyhledávače specializované službyspecializované služby Googlu –Scholar –Books (Knihy)

36 Světové internetové vyhledávače Google Scholar –specializovaný vyhledávač vědeckých informací - recenzovaných článků, disertací, knih, preprintů, abstrakt, technických zpráv ze všech oborů výzkumu, vysokoškolských kvalifikačních prácí –umožňuje –vyhledání dokumentu –zobrazení abstraktu –vyhledání citací dokumentu –http://scholar.google.cz/http://scholar.google.cz/

37 Světové internetové vyhledávače –řazení článků podle relevance (hodnocení textu, váha autora, reputace zdroje, ve kterém je zveřejněn) –hledání podle autora (př. einstein - pokud mnoho výsledků lze zúžit – autor: „a einstein“)

38 Světové internetové vyhledávače –struktura záznamu –název –citace –„Související články “ –další verze článku –„Archiv“ (v angličtině Cached) –příklad: „vyhledávání informací“„vyhledávání informací“

39 Světové internetové vyhledávače Google knihy –nabízí ke stažení ve formátu pdf některé knihy, které již nejsou chráněné autorským zákonem –původní plán – převést na internet 4 mil. knih z vybraných amerických univerzitních a veřejných knihoven, z knihovny britské Oxfordské univerzity a z Bavorské státní knihovny –nový plán - převést všechny existující knihy –u knih které jsou chráněny copyrightem zobrazuje pouze základní bibliografické údaje, eventuálně krátké ukázky textu –http://books.google.cz/http://books.google.cz/

40 Světové internetové vyhledávače jednoduché vyhledávání rozšířené vyhledávání možno vyhledávat všechny knihy omezený náhled a úplné zobrazení pouze úplné zobrazení pouze volná díla a další možnosti příklad: oliver twist dickens

41 Světové internetové vyhledávače služby Google knihy příklad: odkazy na stránce: Najít v knihovně (vyhledává v katalogu WorldCat)WorldCat Přidat do mé knihovnyPřidat do mé knihovny (potřeba přihlásit se) Další vydání

42 Světové internetové vyhledávače Altavista –vyhledávač vytvořen v r –dnes ve vlastnictví Yahoo! – používá jeho databázi a předmětový katalog –odlišuje se od Googlu některými vyhledávacími prostředky a dalšími možnostmi

43 Světové internetové vyhledávače booleovské operátory (musí být velkými písmeny) –AND implicitně –OR –NOT distanční operátory NEAR, ADJACENT (ADJ), FOLLOWED BY např. Karel NEAR Borovsky v Altavistě nastavena vzdálenost na 10 slov

44 Světové internetové vyhledávače prohledávání podle polí –domain:domainame domain:cz +knihovna +katalog –title:text –inurl:text •Babel Fish Translation Babel Fish Translation překladač – možnost vložit blok textu nebo adresu webové stránky

45 Světové internetové vyhledávače omezení vyhledávače –v zájmu rychlého vyhledávání Altavista zastaví vyhledávací proces po určitém časovém limitu, takže v závislosti na momentální rychlosti zpracování úlohy můžeme při opakovaném vyhledávání dostat rozdílný počet výsledků

46 Světové internetové vyhledávače AllTheWeb prohledává web, multimédia, FTP filtr pro odstranění stránek s nevhodným obsahem nemá adresář Lycos velmi rychlé vyhledávání, jedoduché vyhledávací techniky (jen slova – ne fráze), personalizace, ale velké množství reklam HotBot jednoduché, komfortní a rychlé vyhledávání s pozoruhodnými výsledky Ask nabízí vyhledávací historiihistorii

47 České internetové vyhledávače Seznam Atlas Centrum vyhledavace.unas.cz nebo vyhledavace.net aj.

48 Předmětové adresáře předmětový adresář – služba odkazující na zdroje, které do ní dodali tvůrci webových stánek nebo informační pracovníci předmětový adresář je organizovaný do předmětových kategorií, podkategorií apod. poměrně malá databáze při vyhledávání se prohledává pouze databáze předmětového adresáře

49 Předmětové adresáře digitální (virtuální) knihovny do předmětových vyhledávačů řadíme i digitální knihovny, které jsou sestavené profesionály, zdroje jsou často anotované, hodnocené z více hledisek digitální knihovna je spravovaná sbírka informací, spolu se službami informace jsou v digitální podobě a dostupné prostřednictvím sítě tematicky uspořádané odkazy na zdroje - kvalitní pořádací systém - kvalitní zdroje X - obtížnější údržba - lidský faktor - subjektivita

50 Předmětové adresáře výhody předmětových vyhledávačů –anotování a hodnocení zdrojů nevýhody –použití různých klasifikačních schémat –tematická struktura přijatá na začátku nemusí vyhovovat v průběhu vývoje –méně častá aktualizace –subjektivita hodnocení daná lidským faktorem –vyhledávání probíhá jen v názvech dokumentů, v anotacích a adresách dokumentů – nejedná se o plnotextové vyhledávání

51 Předmětové adresáře kdy použijeme předmětový adresář –okruh vyhledávaného tématu je příliš široký a nejsme si jisti, jak dotaz správně formulovat –chceme-li získat relevantnější obsah než prostřednictvím vyhledávačů –chceme-li získat přehled webových sídel, které doporučili experti –dostaneme-li při vyhledávání pomocí vyhledávače příliš mnoho výsledků většina adresářů používá způsob prohlížení i vyhledávání podle klíčových slov vyhledávání neprobíhá na celém webu jako u vyhledávačů, ale jen v záznamech adresáře

52 Předmětové adresáře Yahoo! výhody –jeden z prvních systémů, 1994 – univerzita ve Stanfordu –jeden z největších adresářů –denně aktualizovaný –automatické spojení na Altavistu a Google –hledaná slova jsou zvýrazněna –podobně jako Google ukládá do paměti starší verze stránek – CaschedCasched

53 Předmětové adresáře Yahoo! nevýhody –nedostatek pokročilých vyhledávacích možností – např. rozšíření –minimální využití booleovských operátorů –indexuje pouze prvních 500 Kb z webové stránky

54 Předmětové adresáře Open Directory Project vznikl 1998 představuje nový přístup k organizování informací na internetu využívá princip externích redaktorů, kteří se starají o určitou tematickou oblast přispívat může každý, kdo má zájem na každé stránce je uveden zodpovědný redaktor nebo výzva „tato kategorie potřebuje redaktora“

55 Předmětové adresáře příklady digitálních knihoven Infomine kolekce internetových zdrojů pro akademickou sféru, vytvořena americkými univerzitními knihovníky ipl2 na vytváření se podílejí studenti, knihovníci a specialisté z oblasti informační vědy

56 Světové metavyhledávače umožňují současné vyhledávání ve více než jednom vyhledávacím nástroji nebo adresáři zastřešují vybrané vyhledávače a jejich prostřednictvím získávají výsledky

57 Světové metavyhledávače výhody –vyhledávání z jednoho místa –pouze jednou zadáváme rešeršní dotaz –výsledkem rešerše je jednotný seznam záznamů nevýhody –většinou limitují počet záznamů z jednoho zdroje (zpravidla 10) –nevyužívají všechny možnosti formulování rešeršního požadavku

58 Světové metavyhledávače Federated Query Server Federated Query Server (Open Text Corporation) výkonný metavyhledávač od firmy Open Text Yippy! seskupování výsledků do klastrů Metacrawler kvalitní systém, eliminuje duplicity a vyhodnocuje výsledky a seskupuje je DogPile seskupuje výsledky stejně jako Metacrawler Excite funguje od r. 1996, přináší poměrně kvalitní výsledky

59 Neviditelný web neviditelný web, skrytý web, hlubinný web invisible web, hidden web, deep web kolem r. 1999, se zjistilo, že vyhledávací stroje neindexují stále více webovského prostoru některé vyhledavače mohou najít pouze zlomek informací z webové stránky nebo vstupní bránu k databázi, ale další obsah již nemohou prohledat proto jsou takové stránky označována jako stránky neviditelné

60 Neviditelný web Michael K. Bergman

61 Neviditelný web Michael K. Bergman

62 Neviditelný web Obsah neviditelného webu podle tematických oblastí

63 Neviditelný web důvody –vyhledávací stroje nedokážou indexovat dynamicky se měnící stránky (informace se generují z databáze) –omezená přístupová práva (na některé stránky je přístup chráněn heslem - katalogy knihoven, databáze apod.) – stránky s neveřejným obsahem –pro mnoho vyhledávačů jsou jiné typy souborů než html nečitelné –k řadě stránek nevedou odkazy z jiných stránek – odpojené stránky –mnoho vyhledávacích strojů má omezení na počet indexovaných stránek z určité domény –apod.

64 Neviditelný web neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu až 95% informací v neviditelném webu patří k veřejně přístupným informacím, které jsou přístupné bez poplatků

65 Neviditelný web příklad rozdílu mezi „viditelným“ a „neviditelným“ webem viditelný: iCivil Engineering - neviditelný: Civil Engineering database - nebo viditelný: Educator's Reference Desk - neviditelný: Eric (databáze) -

66 Neviditelný web brány pro neviditelný web Complete Planet umožňuje vyhledávání ve více než databází a specializovaných vyhledávacích nástrojích vyhledávání nebo prohlížení využití booleovských operátorů u záznamů je uvedená míra relevance Turbo10 - metavyhledávač i pro neviditelný web

67 Neviditelný web brány pro neviditelný web Scirus – vyhledávací stroj Elsevieru – vyhledává ve viditelném i neviditelném webu specifický vyhledávací nástroj pro odborné informace (záměrná filtrace nevědeckých obsahů, hluboká indexace www, vědeckých databází)

68 Archiv webu Internet Archive Wayback Machine nová BETA verze - asi 10 miliard stránek v rozsahu 1Pbyte (7/2004)

69 Archiv webu WebArchivWebArchiv - archiv českého webu uchování digitálních dokumentů volně dostupných na webu co lze nalézt ve WebArchivu: –publikace odborného, uměleckého a zpravodajsko- publicistického zaměření –textové a do jisté míry i obrazové a zvukové dokumenty existující pouze v digitální podobě

70 Závěr problémy současného internetu –neustálý nárůst hostitelských počítačů –nové typy dokumentů, které nejsou dostatečně indexované –množství vyhledávacích nástrojů různé kvality –žádný nástroj nepokrývá celý web –obsah a lokalizace dokumentů se často mění –málo vyhledávacích nástrojů hodnotí dokumenty –současná verze html neumožňuje dostatečně popisovat obsah dokumentu (podává informaci o grafickém uspořádání dokumentu) – o postižení obsahu dokumentu se snaží tzv. „sémantický web“

71 Další literatura: MAKULOVÁ, SOŇA Vyhľadávanie informácií v internete : problémy, východiská, postupy. Bratislava : EL&T, BOLDIŠ, PETR. Jak oddělit zrno od plev: Ověřování informací v prostředí internetu [online] [citováno ].. BOLDIŠ, PETR. Vyhledávání na internetu [online] [citováno ]..http://boldis.cz/index.php?iweb Závěr

72 Děkuji za pozornost

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92 Billions Of Textual Documents Indexed December 1995-September 2003 GG – Google, ATW – All The Web, INK – Inktomi, TMA – Teoma, AV - Altavista

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116 Makulová

117

118


Stáhnout ppt "Bibliografická a rešeršní činnost Specifika vyhledávání informací na internetu."

Podobné prezentace


Reklamy Google