Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch.

Podobné prezentace


Prezentace na téma: "Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch."— Transkript prezentace:

1 Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch

2 Competitive intelligence, anotace obsahu XML + regulární výrazy Dobývání znalostí z databází Nestrukturovaná data (volný text) Strukturovaná data (databáze) t Mnoho malých dokumentů Statický obsah Několik rozsáhlých databází Dynamický obsah Semistrukturovaná data MyDB David Veliký 2191 4264 mujmail@mailbox.cz

3  Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu.  Výsledky starší studie* (2005): ◦ 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje  Je tento optimismus oprávněný? *http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1

4  Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: ◦ Různé slovní obraty ◦ Různá slova stejného významu (synonymie) ◦ …  Neexistuje objektivně nejlepší řešení.  Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.

5 Zjednodušeně ve třech krocích: 1. Sběr dat pomocí crawlerů (robotů) 2. Zpracování do databáze (indexování) 3. Zpřístupnění uživatelům pomocí vyhledávacího okna User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: 0600-0845 Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml Robots.txt Meta tags

6  Neviditelný web ◦ Intranety – fyzicky nedostupné ◦ Zaheslovaný obsah ◦ Obsah přístupný přes formuláře ◦ Flash prezentace, PDF, komprimované soubory, nedostatek textu ◦ Limity počtu indexovaných stránek v rámci domény ◦ Robots.txt ◦ Neumí indexovat dynamický obsah, … neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu Brány: www.completeplanet.com, http://www.ipl.org/www.completeplanet.comhttp://www.ipl.org/

7  Nepoužívá jediný vyhledávač (search engine) ◦ „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek  Používá placené zdroje.  „V extrémních případech“ možnost vytvoření vlastního crawleru.  A rozhodně nepoužívá jediný informační zdroj.

8  Odborná erudice autora (vyhledání informací o autorovi)  Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu  Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)

9  Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá).  Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.

10  Využití negativního slovníku, seznam stop-slov  Vytvoření negativního slovníku: ◦ Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), ◦ Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) ◦ Volba velmi krátkých slov

11  Synonymie – více slov má stejný význam  Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ ◦ Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j. ) ◦ Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…)  Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.

12 Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: 1. Přiřaď každému slovu značky. (pomocí slovníku, korpusu, morfologického analyzátoru) 2. Pomocí pravidel zruš nesprávné značky. 3. Odstraň ručně dvojznačnosti. http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0

13 Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody:  Využití slovníku kmenů nebo kořenů  Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi)  Statisticky – na základě variety po sobě následujících písmen Vykřikovat předponakořenpříponakoncovka kmen

14  Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF)  Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): ◦ Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova ◦ Pracuje se synonymy ◦ Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log --------------------------------------- počet dokumentů s výskytem

15  Hakia.com ◦ Stále betaverze ◦ Technologie QDEX (Query Detection and Extraction ) ◦ Automatické rozšiřování dotazu o synonyma ◦ Kategorizace, zobecňování, zvýraznění  www.sensebot.net (text mining + multidocument sum.) stáhnutelný Firefox add-on www.sensebot.net  www.powerset.com „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing www.powerset.com  www.wolframalpha.com encyklopedie + výpočty www.wolframalpha.com

16

17  Měření reputace stránek: Page Rank, Srank, Jyxo rank  Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz  Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah  www.archive.org – delší historie www.vse.cz: Jyxo rank (max) Alexa rank (min) Complete rank (min) Seznam s-rank (max) Google page rank (max) http://pagerank.jklir.net/

18

19  I klasické operátory stále mají smysl (?, *, AND, OR…)  Site: omezení vyhledávání na určitou doménu  Filetype: omezení na určený typ souborů  ~ : dotaz rozšiřuje o synonyma (Google)  Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site. http://www.googleguide.com/advanced_operators.html

20  Hospodářská komora České republiky http://www.komora.cz/http://www.komora.cz/  Česká agentura na podporu obchodu http://www.czechtrade.cz/Global http://www.czechtrade.cz/Global  Ministerstvo financí(ARES) http://wwwinfo.mfcr.cz/ares/http://wwwinfo.mfcr.cz/ares/  Ministerstvo spravedlnosti (Justice.cz) http://portal.justice.cz/http://portal.justice.cz/  Státní správa http://www.statnisprava.cz/http://www.statnisprava.cz/  Registr živnostenského podnikání http://www.rzp.czhttp://www.rzp.cz  http://obchodni-rejstrik.cz http://obchodni-rejstrik.cz  http://www.b2m.cz http://www.b2m.cz  http://www.axis4.info Základní informace o firmě http://www.axis4.info  http://www.ckds.cz Česká komora detektivních služeb http://www.ckds.cz  http://www.dnbczech.cz http://www.dnbczech.cz  http://www.isvz.cz/isvz/ Informační systém o veřejných zakázkách http://www.isvz.cz/isvz/  http://www.businessinfo.cz/cz/ - Oficiální portál pro podnikání a export http://www.businessinfo.cz/cz/

21 Free nástroj: www.smartdraw.comwww.smartdraw.com

22 Silné stránkySlabé stránky SWOT analýza StrenghtsWeaknesses PříležitostiPortfolio partnerů Malá síť prodejen OpportunitiesVysoká konkurenceschopnost Menší počet zaměstnanců Kvalita služeb HrozbyZáštita nadnárodní společnosti – nižší samostatnost Citlivost poptávky – vnitrostátní vlivy ThreatsZahraniční partneři – působení zahr. vlivů Možná konkurence – menší zábrany pro vstup do odvětví

23 M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: 1.hrozba vstupu nových konkurentů 2.intenzita konkurenční síly 3.hrozby substitutů 4.vyjednávací síla zákazníků http://rossresults.com/library/The_Five _Competitive_Forces_That_Shape_Str ategy.pdf


Stáhnout ppt "Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch."

Podobné prezentace


Reklamy Google