Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch.

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Obsah prezentace 1.Co je RSS 2.Možnosti využití RSS 3.Popis systému cíleného doručování vědeckých a odborných článků 4.Ukázka systému 5.Závěr.
Organisation for Economic Cooperation and Development OECD iLibrary.
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
Databáze citačních rejstříků Web of Science.  Online akademická služba provozovaná společností Thomson Reuters.Thomson Reuters  Databáze citačních rejstříků,
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Manažerské informační systémy Ing. Dagmar Řešetková
 Search engine optimization  Jeden z prvních kroků při tvorbě obsahu webových stránek  Výrazně ovlivňuje dohledatelnost, návštěvnost a tím i úspěšnost.
Vyhledávání na Internetu
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
INTERNETOVÉ VYHLEDÁVAČE
DOK.
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
EBSCO Knihovna FSS MU a Osnova EIZ – co, proč, kde EBSCO Vychytávky Procvičování.
Seznamy digitálních knihoven
Stipendijní informační portál - Informační Strategie.
Manažerské informační systémy Ing. Dagmar Řešetková
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
SIPVZ – Státní informační politika ve vzdělávání w w w. e - g r a m. c z E-gram E-gram Informační a komunikační web SIPVZ 1. Původní web:
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Informační zdroje GEOLOGIE.
Vyhledávání informací na internetu
Internetový portál Informační systémy ve státní správě a samosprávě.
Studijní informační zdroje (a jak se k nim dostat) Informační blok k předmětu Jazykový projev (2012/13)
WWW – hypertextový informační systém
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Web 2.0, folksonomie a uživatelská rozhraní Lenka Němečková Eliška Pavlásková Založeno mimo jiné na prezentacích prof. B. Whitea „The Promise of Rich User.
Dana Sigmundová Efektivní vyhledávání na internetu se zaměřením na vědecké informace ÚK FSS MU, Ústřední knihovna FSS MU.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Databáze velké množství dat pevně dané struktury
Bezplatné informační zdroje z oblasti ekonomických věd Martina Machátová Aktualizace: 18. listopadu 2014.
Jak vyhledávat informace na Internetu?
EVALUACE WWW ELEKTRONICKÉ INFORMAČNÍ ZDROJE Petr Sejk
CZ.1.07/1.4.00/ VY_32_INOVACE_154_IT5 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
MIS - Manažerské informační systémy 1. cvičení – Internet a informace
SCIRUS Vyhledávácí nástroj společnosti Elsevier pro vyhledávání informačních zdrojů pro vědu, výzkum a vzdělávání.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
Nikola Dynybylová Jediný a jedinečný Sage ÚK FSS MU, Ústřední knihovna FSS MU.
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Základní informační zdroje pro zubní lékařství
Scholar Google Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a vzdělávání. Vyhledávání v angličtině.
ISI Web of Knowledge Produkt a platforma firmy Thomson Reuters. Zahrnuje báze: - Web of Science (převážně bibliografické záznamy odborných článků, lze.
Studijní informační zdroje (a jak se k nim dostat) Osnova Prezentace.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Jana Holá Tvorba rešerše Jana Holá
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
Model struktury strategického managementu
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Strategická analýza společnosti TIBBIS, s. r. o.
Podklady pro zpracování semestrální práce
EBSCO PhDr. Ivana Reznerová
Vyhledávání v citační databázi Web of Science (WoS) Česká zemědělská univerzita v Praze Studijní a informační centrum 2014.
Vyhledávání v citační databázi Web of Science (WoS) Česká zemědělská univerzita v Praze Studijní a informační centrum 2014.
EBSCO PhDr. Ivana Reznerová
Jana Holá Tvorba rešerše Jana Holá
Automatická indexace Základní metody a postupy
Web of Science – Journal Citation Reports
EBSCO Centrum informačních a knihovnických služeb VŠE
Seznamy digitálních knihoven
ISI Web of Knowledge ISI Web of Knowledge
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
EBSCO Centrum informačních a knihovnických služeb VŠE
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
Transkript prezentace:

Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch

Competitive intelligence, anotace obsahu XML + regulární výrazy Dobývání znalostí z databází Nestrukturovaná data (volný text) Strukturovaná data (databáze) t Mnoho malých dokumentů Statický obsah Několik rozsáhlých databází Dynamický obsah Semistrukturovaná data MyDB David Veliký

 Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu.  Výsledky starší studie* (2005): ◦ 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje  Je tento optimismus oprávněný? * Users.aspx?r=1http:// Users.aspx?r=1

 Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: ◦ Různé slovní obraty ◦ Různá slova stejného významu (synonymie) ◦ …  Neexistuje objektivně nejlepší řešení.  Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.

Zjednodušeně ve třech krocích: 1. Sběr dat pomocí crawlerů (robotů) 2. Zpracování do databáze (indexování) 3. Zpřístupnění uživatelům pomocí vyhledávacího okna User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: Sitemap: Sitemap: Robots.txt Meta tags

 Neviditelný web ◦ Intranety – fyzicky nedostupné ◦ Zaheslovaný obsah ◦ Obsah přístupný přes formuláře ◦ Flash prezentace, PDF, komprimované soubory, nedostatek textu ◦ Limity počtu indexovaných stránek v rámci domény ◦ Robots.txt ◦ Neumí indexovat dynamický obsah, … neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu Brány:

 Nepoužívá jediný vyhledávač (search engine) ◦ „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek  Používá placené zdroje.  „V extrémních případech“ možnost vytvoření vlastního crawleru.  A rozhodně nepoužívá jediný informační zdroj.

 Odborná erudice autora (vyhledání informací o autorovi)  Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu  Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)

 Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá).  Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.

 Využití negativního slovníku, seznam stop-slov  Vytvoření negativního slovníku: ◦ Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), ◦ Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) ◦ Volba velmi krátkých slov

 Synonymie – více slov má stejný význam  Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ ◦ Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j. ) ◦ Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…)  Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.

Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: 1. Přiřaď každému slovu značky. (pomocí slovníku, korpusu, morfologického analyzátoru) 2. Pomocí pravidel zruš nesprávné značky. 3. Odstraň ručně dvojznačnosti.

Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody:  Využití slovníku kmenů nebo kořenů  Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi)  Statisticky – na základě variety po sobě následujících písmen Vykřikovat předponakořenpříponakoncovka kmen

 Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF)  Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): ◦ Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova ◦ Pracuje se synonymy ◦ Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log počet dokumentů s výskytem

 Hakia.com ◦ Stále betaverze ◦ Technologie QDEX (Query Detection and Extraction ) ◦ Automatické rozšiřování dotazu o synonyma ◦ Kategorizace, zobecňování, zvýraznění  (text mining + multidocument sum.) stáhnutelný Firefox add-on  „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing  encyklopedie + výpočty

 Měření reputace stránek: Page Rank, Srank, Jyxo rank  Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz  Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah  – delší historie Jyxo rank (max) Alexa rank (min) Complete rank (min) Seznam s-rank (max) Google page rank (max)

 I klasické operátory stále mají smysl (?, *, AND, OR…)  Site: omezení vyhledávání na určitou doménu  Filetype: omezení na určený typ souborů  ~ : dotaz rozšiřuje o synonyma (Google)  Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site.

 Hospodářská komora České republiky  Česká agentura na podporu obchodu  Ministerstvo financí(ARES)  Ministerstvo spravedlnosti (Justice.cz)  Státní správa  Registr živnostenského podnikání    Základní informace o firmě  Česká komora detektivních služeb   Informační systém o veřejných zakázkách  - Oficiální portál pro podnikání a export

Free nástroj:

Silné stránkySlabé stránky SWOT analýza StrenghtsWeaknesses PříležitostiPortfolio partnerů Malá síť prodejen OpportunitiesVysoká konkurenceschopnost Menší počet zaměstnanců Kvalita služeb HrozbyZáštita nadnárodní společnosti – nižší samostatnost Citlivost poptávky – vnitrostátní vlivy ThreatsZahraniční partneři – působení zahr. vlivů Možná konkurence – menší zábrany pro vstup do odvětví

M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: 1.hrozba vstupu nových konkurentů 2.intenzita konkurenční síly 3.hrozby substitutů 4.vyjednávací síla zákazníků _Competitive_Forces_That_Shape_Str ategy.pdf