Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilSimona Staňková
1
Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch
2
Competitive intelligence, anotace obsahu XML + regulární výrazy Dobývání znalostí z databází Nestrukturovaná data (volný text) Strukturovaná data (databáze) t Mnoho malých dokumentů Statický obsah Několik rozsáhlých databází Dynamický obsah Semistrukturovaná data MyDB David Veliký 2191 4264 mujmail@mailbox.cz
3
Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu. Výsledky starší studie* (2005): ◦ 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje Je tento optimismus oprávněný? *http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1http://www.pewinternet.org/Reports/2005/Search-Engine- Users.aspx?r=1
4
Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: ◦ Různé slovní obraty ◦ Různá slova stejného významu (synonymie) ◦ … Neexistuje objektivně nejlepší řešení. Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.
5
Zjednodušeně ve třech krocích: 1. Sběr dat pomocí crawlerů (robotů) 2. Zpracování do databáze (indexování) 3. Zpřístupnění uživatelům pomocí vyhledávacího okna User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: 0600-0845 Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml Robots.txt Meta tags
6
Neviditelný web ◦ Intranety – fyzicky nedostupné ◦ Zaheslovaný obsah ◦ Obsah přístupný přes formuláře ◦ Flash prezentace, PDF, komprimované soubory, nedostatek textu ◦ Limity počtu indexovaných stránek v rámci domény ◦ Robots.txt ◦ Neumí indexovat dynamický obsah, … neviditelný web je až 500krát větší než tzv. povrchový web obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) je to nejrychleji rostoucí část webu Brány: www.completeplanet.com, http://www.ipl.org/www.completeplanet.comhttp://www.ipl.org/
7
Nepoužívá jediný vyhledávač (search engine) ◦ „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek Používá placené zdroje. „V extrémních případech“ možnost vytvoření vlastního crawleru. A rozhodně nepoužívá jediný informační zdroj.
8
Odborná erudice autora (vyhledání informací o autorovi) Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)
9
Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.
10
Využití negativního slovníku, seznam stop-slov Vytvoření negativního slovníku: ◦ Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), ◦ Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) ◦ Volba velmi krátkých slov
11
Synonymie – více slov má stejný význam Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ ◦ Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j. ) ◦ Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…) Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.
12
Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: 1. Přiřaď každému slovu značky. (pomocí slovníku, korpusu, morfologického analyzátoru) 2. Pomocí pravidel zruš nesprávné značky. 3. Odstraň ručně dvojznačnosti. http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0
13
Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody: Využití slovníku kmenů nebo kořenů Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi) Statisticky – na základě variety po sobě následujících písmen Vykřikovat předponakořenpříponakoncovka kmen
14
Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF) Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): ◦ Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova ◦ Pracuje se synonymy ◦ Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log --------------------------------------- počet dokumentů s výskytem
15
Hakia.com ◦ Stále betaverze ◦ Technologie QDEX (Query Detection and Extraction ) ◦ Automatické rozšiřování dotazu o synonyma ◦ Kategorizace, zobecňování, zvýraznění www.sensebot.net (text mining + multidocument sum.) stáhnutelný Firefox add-on www.sensebot.net www.powerset.com „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing www.powerset.com www.wolframalpha.com encyklopedie + výpočty www.wolframalpha.com
17
Měření reputace stránek: Page Rank, Srank, Jyxo rank Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah www.archive.org – delší historie www.vse.cz: Jyxo rank (max) Alexa rank (min) Complete rank (min) Seznam s-rank (max) Google page rank (max) http://pagerank.jklir.net/
19
I klasické operátory stále mají smysl (?, *, AND, OR…) Site: omezení vyhledávání na určitou doménu Filetype: omezení na určený typ souborů ~ : dotaz rozšiřuje o synonyma (Google) Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site. http://www.googleguide.com/advanced_operators.html
20
Hospodářská komora České republiky http://www.komora.cz/http://www.komora.cz/ Česká agentura na podporu obchodu http://www.czechtrade.cz/Global http://www.czechtrade.cz/Global Ministerstvo financí(ARES) http://wwwinfo.mfcr.cz/ares/http://wwwinfo.mfcr.cz/ares/ Ministerstvo spravedlnosti (Justice.cz) http://portal.justice.cz/http://portal.justice.cz/ Státní správa http://www.statnisprava.cz/http://www.statnisprava.cz/ Registr živnostenského podnikání http://www.rzp.czhttp://www.rzp.cz http://obchodni-rejstrik.cz http://obchodni-rejstrik.cz http://www.b2m.cz http://www.b2m.cz http://www.axis4.info Základní informace o firmě http://www.axis4.info http://www.ckds.cz Česká komora detektivních služeb http://www.ckds.cz http://www.dnbczech.cz http://www.dnbczech.cz http://www.isvz.cz/isvz/ Informační systém o veřejných zakázkách http://www.isvz.cz/isvz/ http://www.businessinfo.cz/cz/ - Oficiální portál pro podnikání a export http://www.businessinfo.cz/cz/
21
Free nástroj: www.smartdraw.comwww.smartdraw.com
22
Silné stránkySlabé stránky SWOT analýza StrenghtsWeaknesses PříležitostiPortfolio partnerů Malá síť prodejen OpportunitiesVysoká konkurenceschopnost Menší počet zaměstnanců Kvalita služeb HrozbyZáštita nadnárodní společnosti – nižší samostatnost Citlivost poptávky – vnitrostátní vlivy ThreatsZahraniční partneři – působení zahr. vlivů Možná konkurence – menší zábrany pro vstup do odvětví
23
M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: 1.hrozba vstupu nových konkurentů 2.intenzita konkurenční síly 3.hrozby substitutů 4.vyjednávací síla zákazníků http://rossresults.com/library/The_Five _Competitive_Forces_That_Shape_Str ategy.pdf
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.