Získávání informací z webu Jan Lánský zizelevak@matfyz.cz
Získávání informací z webu Obsah Úvod Webové vyhledávače a portály Důležitost stránek (algoritmy PR a HITS) Strojové učení Tématicky zaměřené vyhledávače 22.9.2018 Získávání informací z webu
Získávání informací z webu Úvod Web 16,5 biliónu stránek v roce 2003 Přibývá 3 milióny stran za den (59 GB) Nejlepší vyhledávače Maximální pokrytí 40 % stran 100 miliónu dotazu denně 22.9.2018 Získávání informací z webu
Rychlost, přesnost, úplnost Rychlost – Doba odpovědi Přesnost – Přesnost výsledků (zda odpovídají dotazu) z první strany odpovědi. Úplnost – Nalezení nejvýznamnějších stránek (Portály, …) Rychlost Přesnost Úplnost 22.9.2018 Získávání informací z webu
Získávání informací z webu Vyhledávací nástroje Webové vyhledávače – roboti, pavouci, červi, chodci Když vím, co přesně chci najít (specifické téma) Obejdou se bez lidské údržby Webové portály – webové adresáře Když nevím, co hledám Vyžadují lidskou údržbu Vícenásobné vyhledávače – dotaz je poslán na více vyhledávačů 22.9.2018 Získávání informací z webu
Získávání informací z webu Webové vyhledávače Vezmi další URL z fronty Stáhni obsah stránky Předzpracuj stránku Vyber klíčová slova a indexuj je Najdi všechna URL a aktualizuj frontu 22.9.2018 Získávání informací z webu
Získávání informací z webu Webové vyhledávače Na zpracování grafové struktury webových stránek se používá prohledávání do hloubky. Hledání začíná danou množinou stránek. Nelze prozkoumat všechny strany Nejsou dosažitelné z původní množiny Časové a výkonnostní omezení vyhledávačů 22.9.2018 Získávání informací z webu
Získávání informací z webu Webové vyhledávače http://www.altavista.com http://www.excite.com http://www.google.com http://www.hotbob.com http://www.lycos.com http://www.northerenlight.com 22.9.2018 Získávání informací z webu
Získávání informací z webu Webové portály Získání odkazů na stránky Ohodnocení důležitosti stránek Indexovat a periodicky aktualizovat Zařadit odkaz do tématu Vyrob info o stránce Naplánovat aktualizaci 22.9.2018 Získávání informací z webu
Získávání informací z webu Webové portály Stromový adresář témat V kořeni 14 – 26 témat Stránky jsou v listech stromu http://www.yahoo.com http://www.looksmart.com http://www.dmoz.com 22.9.2018 Získávání informací z webu
Vícenásobné vyhledávače Uživatel zadá dotaz Dotaz se pošle na jednotlivé vyhledávače Získání výsledků z vyhledávačů Odstranění duplicit, přehodnocení výsledků Zobrazení výsledků uživateli 22.9.2018 Získávání informací z webu
Vícenásobné Vyhledávače Dotaz je poslán velkému množství webových vyhledávačů. Jsou 3 typů. 1) Izolované Každý posílá své výsledky nezávisle na ostatních. Šetří čas uživatele. 2) Sekvenční čeká se na posledního a pak se jejich výsledky spojí. Velmi pomalé. 22.9.2018 Získávání informací z webu
Vícenásobné Vyhledávače 3) Souběžné Hned jak skončí první vyhledávač dostanu výsledky. Snižuje dobu čekání na data. Při skončení dalších se tyto výsledky doplní. http://www.dogpile.com http://www.mamma.com http://www.metacrawler.com 22.9.2018 Získávání informací z webu
Získávání informací z webu Důležitost stránky Web je orientovaný graf. Mezi stránkami A a B vede hrana, pokud ze stránky A vede odkaz na stránku B. vstupní stupeň stránky - počet odkazů vedoucích na stránku výstupní stupeň stránky - na kolik stránek vedou z této stránky odkazy. 22.9.2018 Získávání informací z webu
Získávání informací z webu Důležitost stránky Důležitý je vstupní stupeň stránky Na populární stránky vede hodně odkazů Není odkaz jako odkaz. Odkaz z významné stránky (např. Yahoo), je cennější než několik odkazů ze bezvýznamných stránek. Počet citací má význam i v praktickém životě (udělování Nobelových cen) 22.9.2018 Získávání informací z webu
Algoritmus ohodnocování PR Stránka A má odkazy ze stran T1, ..., Tn. Tlumící faktor d [0,1], obvykle 0,85 Funkce C(A) určuje výstupní stupeň strany PR(A) je ohodnocení strany dané vzorcem PR(A) = (1-d) + d ((PR(Ti) / C (Ti)) Používá Google, stránka s větším PR (Page rank) se prohledává dříve. 22.9.2018 Získávání informací z webu
Získávání informací z webu Algoritmus HITS Stránky, které odkazují na velký počet významných stránek nazýváme rozcestníky. Jsou dobrou zásobárnou odkazů Stránky, na které odkazuje velký počet rozcestníků nazýváme autority. Stránky, na které odkazuje velký počet stránek (a žádné rozcestníky) nazýváme nerelevantní. (např. Yahoo) 22.9.2018 Získávání informací z webu
Získávání informací z webu Algoritmus HITS váha rozcestníku x<p> = y<q> pro (q,p) E váha autority y<p> = x<q> pro (p,q) E Problémy algoritmu (co zkresluje výsledek) automaticky generované odkazy nerelevantní odkazy (na jiné téma) Řešení - přidat do vzorce váhu listu 22.9.2018 Získávání informací z webu
Získávání informací z webu HITS x PG HITS Rozliší rozcestník od nerelevantních odkazů Preferuje hodně citované stránky o daném tématu před portály PG (Page rank) Slepě počítá vstupní a výstupní stupně Dává přednost portálům před citovanými stránkami 22.9.2018 Získávání informací z webu
Získávání informací z webu Strojové učení „Učící se agent“ rozhoduje o dokumentu, podle slov které obsahuje, do jaké kategorii dat patří. např. : obsahuje dokument relevantní informace k zadanému dotazu. Způsoby učení Kontrolované učení (klasifikace) Polokontrolované učení Nekontrolované učení 22.9.2018 Získávání informací z webu
Získávání informací z webu Kontrolované učení „Učící se agent“ se učí na množině dat M, která jsou označkována (rozdělena do tříd). V trénovací fázi zná správnou odpověď pro každý vstup z množiny dat M. V testovací fázi musí správně určit třídu pro každý vstup z množiny dat M Aplikace: Naivní Bayesův klasifikátor 22.9.2018 Získávání informací z webu
Naivní Buyesův klasifikátor wt : slovo t v dokumentu di : dokument i obsahující slova cj : třída dokumentů j v trénovací množině P( cj ) : frekvence dokumentu mezi cj všemi P(wt | cj ) : Pravděpodobnost alespoň jednoho výskytu slova wt v dokumentu cj P(cj | di ) : Pravděpodobnost, že dokument i patří do třídy j 22.9.2018 Získávání informací z webu
Naivní Buyesův klasifikátor P(cj | di ) = P( cj ) * P(di | cj ) Tento vztah pro jedno slovo se zobecňuje na více slov. Spočteme pravděpodobnosti pro všechny třídy a dokument zařadíme do té, která bude mít tuto pravděpodobnost nejvyšší Naivní – protože bereme slovo bez ohledu na salší slova v dokumentu 22.9.2018 Získávání informací z webu
Polokontrolované učení Oproti kontrolovanému učení: je množina označkovaných dat M malá. Musíme zařazovat do tříd i data, která nejsou z množiny M Polokontrolované učení je použitelnější pro praktické problémy. 22.9.2018 Získávání informací z webu
Získávání informací z webu Nekontrolované učení „Učící se agent“ nedostane žádná označkovaná data (M = 0) „Učící se agent“ dostane množinu N neoznačených dat. V této množině hledá podobnosti a na základě nich dělí data do tříd. 22.9.2018 Získávání informací z webu
Tématicky zaměřené vyhledávače Vyhledávací nástroje Obecné Specializované Na typ dokumentu Na téma 22.9.2018 Získávání informací z webu
Tématicky zaměřené vyhledávače Díky specializaci dosahují lepších parametrů přesnosti a úplnosti Pro rozpoznání relevantních dokumentů používají strojové učení, například Naivní Buyesův klasifikátor IBM Focused Crawler, Context Focused Crawler, Cora 22.9.2018 Získávání informací z webu
Získávání informací z webu IBM Focused Crawler Téma je reprezentováno množinou dokumentů, které zadá uživatel. Systém má tři části Klasifikátor rozhoduje o relevanci procházeného dokumentu vzhledem k dotazu Používá upravenou verzi Naivního Buyesova klasifikátoru 22.9.2018 Získávání informací z webu
Získávání informací z webu IBM Focused Crawler Destilátor Rozhoduje o kvalitě stránky (PR, HITS) a určuje pořadí stran v jakém se budou zpracovávat Snaží se najít nejprve autority Dynamický prohledávač Prochází web podle podle měnící se prioritní fronty stránek 22.9.2018 Získávání informací z webu
Získávání informací z webu Literatura A. Barfourosh, H. Nezhad, M. Anderson a D. Perlis, Information Retrival on World Wide Web and Active Logic: A survey and Problem Definition 22.9.2018 Získávání informací z webu