Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch.

Podobné prezentace


Prezentace na téma: "Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch."— Transkript prezentace:

1 Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch

2 Competitive intelligence, anotace obsahu XML + regulární výrazy Dobývání znalostí z databází Nestrukturovaná data (volný text) Strukturovaná data (databáze) t Mnoho malých dokumentů Statický obsah Několik rozsáhlých databází Dynamický obsah Semistrukturovaná data MyDB David Veliký

3  Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu.  Výsledky starší studie* (2005): ◦ 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje  Je tento optimismus oprávněný? *http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1

4  Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: ◦ Různé slovní obraty ◦ Různá slova stejného významu (synonymie) ◦ …  Neexistuje objektivně nejlepší řešení.  Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.

5 Zjednodušeně ve třech krocích: 1. Sběr dat pomocí crawlerů (robotů) 2. Zpracování do databáze (indexování) 3. Zpřístupnění uživatelům pomocí vyhledávacího okna User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: Sitemap: Sitemap: Robots.txt Meta tags

6  Neviditelný web ◦ Intranety – fyzicky nedostupné ◦ Zaheslovaný obsah ◦ Obsah přístupný přes formuláře ◦ Flash prezentace, PDF, komprimované soubory, nedostatek textu ◦ Limity počtu indexovaných stránek v rámci domény ◦ Robots.txt ◦ Neumí indexovat dynamický obsah, … neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu Brány:

7  Nepoužívá jediný vyhledávač (search engine) ◦ „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek  Používá placené zdroje.  „V extrémních případech“ možnost vytvoření vlastního crawleru.  A rozhodně nepoužívá jediný informační zdroj.

8  Odborná erudice autora (vyhledání informací o autorovi)  Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu  Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)

9  Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá).  Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.

10  Využití negativního slovníku, seznam stop-slov  Vytvoření negativního slovníku: ◦ Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), ◦ Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) ◦ Volba velmi krátkých slov

11  Synonymie – více slov má stejný význam  Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ ◦ Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j. ) ◦ Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…)  Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.

12 Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: 1. Přiřaď každému slovu značky. (pomocí slovníku, korpusu, morfologického analyzátoru) 2. Pomocí pravidel zruš nesprávné značky. 3. Odstraň ručně dvojznačnosti.

13 Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody:  Využití slovníku kmenů nebo kořenů  Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi)  Statisticky – na základě variety po sobě následujících písmen Vykřikovat předponakořenpříponakoncovka kmen

14  Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF)  Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): ◦ Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova ◦ Pracuje se synonymy ◦ Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log počet dokumentů s výskytem

15  Hakia.com ◦ Stále betaverze ◦ Technologie QDEX (Query Detection and Extraction ) ◦ Automatické rozšiřování dotazu o synonyma ◦ Kategorizace, zobecňování, zvýraznění  (text mining + multidocument sum.) stáhnutelný Firefox add-on  „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing  encyklopedie + výpočty

16

17  Měření reputace stránek: Page Rank, Srank, Jyxo rank  Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz  Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah  – delší historie Jyxo rank (max) Alexa rank (min) Complete rank (min) Seznam s-rank (max) Google page rank (max)

18

19  I klasické operátory stále mají smysl (?, *, AND, OR…)  Site: omezení vyhledávání na určitou doménu  Filetype: omezení na určený typ souborů  ~ : dotaz rozšiřuje o synonyma (Google)  Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site.

20  Hospodářská komora České republiky  Česká agentura na podporu obchodu  Ministerstvo financí(ARES)  Ministerstvo spravedlnosti (Justice.cz)  Státní správa  Registr živnostenského podnikání    Základní informace o firmě  Česká komora detektivních služeb   Informační systém o veřejných zakázkách  - Oficiální portál pro podnikání a export

21 Free nástroj:

22 Silné stránkySlabé stránky SWOT analýza StrenghtsWeaknesses PříležitostiPortfolio partnerů Malá síť prodejen OpportunitiesVysoká konkurenceschopnost Menší počet zaměstnanců Kvalita služeb HrozbyZáštita nadnárodní společnosti – nižší samostatnost Citlivost poptávky – vnitrostátní vlivy ThreatsZahraniční partneři – působení zahr. vlivů Možná konkurence – menší zábrany pro vstup do odvětví

23 M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: 1.hrozba vstupu nových konkurentů 2.intenzita konkurenční síly 3.hrozby substitutů 4.vyjednávací síla zákazníků _Competitive_Forces_That_Shape_Str ategy.pdf


Stáhnout ppt "Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch."

Podobné prezentace


Reklamy Google