Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Získávání informací z webu
Jan Lánský
2
Získávání informací z webu
Obsah Úvod Webové vyhledávače a portály Důležitost stránek (algoritmy PR a HITS) Strojové učení Tématicky zaměřené vyhledávače Získávání informací z webu
3
Získávání informací z webu
Úvod Web 16,5 biliónu stránek v roce 2003 Přibývá 3 milióny stran za den (59 GB) Nejlepší vyhledávače Maximální pokrytí 40 % stran 100 miliónu dotazu denně Získávání informací z webu
4
Rychlost, přesnost, úplnost
Rychlost – Doba odpovědi Přesnost – Přesnost výsledků (zda odpovídají dotazu) z první strany odpovědi. Úplnost – Nalezení nejvýznamnějších stránek (Portály, …) Rychlost Přesnost Úplnost Získávání informací z webu
5
Získávání informací z webu
Vyhledávací nástroje Webové vyhledávače – roboti, pavouci, červi, chodci Když vím, co přesně chci najít (specifické téma) Obejdou se bez lidské údržby Webové portály – webové adresáře Když nevím, co hledám Vyžadují lidskou údržbu Vícenásobné vyhledávače – dotaz je poslán na více vyhledávačů Získávání informací z webu
6
Získávání informací z webu
Webové vyhledávače Vezmi další URL z fronty Stáhni obsah stránky Předzpracuj stránku Vyber klíčová slova a indexuj je Najdi všechna URL a aktualizuj frontu Získávání informací z webu
7
Získávání informací z webu
Webové vyhledávače Na zpracování grafové struktury webových stránek se používá prohledávání do hloubky. Hledání začíná danou množinou stránek. Nelze prozkoumat všechny strany Nejsou dosažitelné z původní množiny Časové a výkonnostní omezení vyhledávačů Získávání informací z webu
8
Získávání informací z webu
Webové vyhledávače Získávání informací z webu
9
Získávání informací z webu
Webové portály Získání odkazů na stránky Ohodnocení důležitosti stránek Indexovat a periodicky aktualizovat Zařadit odkaz do tématu Vyrob info o stránce Naplánovat aktualizaci Získávání informací z webu
10
Získávání informací z webu
Webové portály Stromový adresář témat V kořeni 14 – 26 témat Stránky jsou v listech stromu Získávání informací z webu
11
Vícenásobné vyhledávače
Uživatel zadá dotaz Dotaz se pošle na jednotlivé vyhledávače Získání výsledků z vyhledávačů Odstranění duplicit, přehodnocení výsledků Zobrazení výsledků uživateli Získávání informací z webu
12
Vícenásobné Vyhledávače
Dotaz je poslán velkému množství webových vyhledávačů. Jsou 3 typů. 1) Izolované Každý posílá své výsledky nezávisle na ostatních. Šetří čas uživatele. 2) Sekvenční čeká se na posledního a pak se jejich výsledky spojí. Velmi pomalé. Získávání informací z webu
13
Vícenásobné Vyhledávače
3) Souběžné Hned jak skončí první vyhledávač dostanu výsledky. Snižuje dobu čekání na data. Při skončení dalších se tyto výsledky doplní. Získávání informací z webu
14
Získávání informací z webu
Důležitost stránky Web je orientovaný graf. Mezi stránkami A a B vede hrana, pokud ze stránky A vede odkaz na stránku B. vstupní stupeň stránky - počet odkazů vedoucích na stránku výstupní stupeň stránky - na kolik stránek vedou z této stránky odkazy. Získávání informací z webu
15
Získávání informací z webu
Důležitost stránky Důležitý je vstupní stupeň stránky Na populární stránky vede hodně odkazů Není odkaz jako odkaz. Odkaz z významné stránky (např. Yahoo), je cennější než několik odkazů ze bezvýznamných stránek. Počet citací má význam i v praktickém životě (udělování Nobelových cen) Získávání informací z webu
16
Algoritmus ohodnocování PR
Stránka A má odkazy ze stran T1, ..., Tn. Tlumící faktor d [0,1], obvykle 0,85 Funkce C(A) určuje výstupní stupeň strany PR(A) je ohodnocení strany dané vzorcem PR(A) = (1-d) + d ((PR(Ti) / C (Ti)) Používá Google, stránka s větším PR (Page rank) se prohledává dříve. Získávání informací z webu
17
Získávání informací z webu
Algoritmus HITS Stránky, které odkazují na velký počet významných stránek nazýváme rozcestníky. Jsou dobrou zásobárnou odkazů Stránky, na které odkazuje velký počet rozcestníků nazýváme autority. Stránky, na které odkazuje velký počet stránek (a žádné rozcestníky) nazýváme nerelevantní. (např. Yahoo) Získávání informací z webu
18
Získávání informací z webu
Algoritmus HITS váha rozcestníku x<p> = y<q> pro (q,p) E váha autority y<p> = x<q> pro (p,q) E Problémy algoritmu (co zkresluje výsledek) automaticky generované odkazy nerelevantní odkazy (na jiné téma) Řešení - přidat do vzorce váhu listu Získávání informací z webu
19
Získávání informací z webu
HITS x PG HITS Rozliší rozcestník od nerelevantních odkazů Preferuje hodně citované stránky o daném tématu před portály PG (Page rank) Slepě počítá vstupní a výstupní stupně Dává přednost portálům před citovanými stránkami Získávání informací z webu
20
Získávání informací z webu
Strojové učení „Učící se agent“ rozhoduje o dokumentu, podle slov které obsahuje, do jaké kategorii dat patří. např. : obsahuje dokument relevantní informace k zadanému dotazu. Způsoby učení Kontrolované učení (klasifikace) Polokontrolované učení Nekontrolované učení Získávání informací z webu
21
Získávání informací z webu
Kontrolované učení „Učící se agent“ se učí na množině dat M, která jsou označkována (rozdělena do tříd). V trénovací fázi zná správnou odpověď pro každý vstup z množiny dat M. V testovací fázi musí správně určit třídu pro každý vstup z množiny dat M Aplikace: Naivní Bayesův klasifikátor Získávání informací z webu
22
Naivní Buyesův klasifikátor
wt : slovo t v dokumentu di : dokument i obsahující slova cj : třída dokumentů j v trénovací množině P( cj ) : frekvence dokumentu mezi cj všemi P(wt | cj ) : Pravděpodobnost alespoň jednoho výskytu slova wt v dokumentu cj P(cj | di ) : Pravděpodobnost, že dokument i patří do třídy j Získávání informací z webu
23
Naivní Buyesův klasifikátor
P(cj | di ) = P( cj ) * P(di | cj ) Tento vztah pro jedno slovo se zobecňuje na více slov. Spočteme pravděpodobnosti pro všechny třídy a dokument zařadíme do té, která bude mít tuto pravděpodobnost nejvyšší Naivní – protože bereme slovo bez ohledu na salší slova v dokumentu Získávání informací z webu
24
Polokontrolované učení
Oproti kontrolovanému učení: je množina označkovaných dat M malá. Musíme zařazovat do tříd i data, která nejsou z množiny M Polokontrolované učení je použitelnější pro praktické problémy. Získávání informací z webu
25
Získávání informací z webu
Nekontrolované učení „Učící se agent“ nedostane žádná označkovaná data (M = 0) „Učící se agent“ dostane množinu N neoznačených dat. V této množině hledá podobnosti a na základě nich dělí data do tříd. Získávání informací z webu
26
Tématicky zaměřené vyhledávače
Vyhledávací nástroje Obecné Specializované Na typ dokumentu Na téma Získávání informací z webu
27
Tématicky zaměřené vyhledávače
Díky specializaci dosahují lepších parametrů přesnosti a úplnosti Pro rozpoznání relevantních dokumentů používají strojové učení, například Naivní Buyesův klasifikátor IBM Focused Crawler, Context Focused Crawler, Cora Získávání informací z webu
28
Získávání informací z webu
IBM Focused Crawler Téma je reprezentováno množinou dokumentů, které zadá uživatel. Systém má tři části Klasifikátor rozhoduje o relevanci procházeného dokumentu vzhledem k dotazu Používá upravenou verzi Naivního Buyesova klasifikátoru Získávání informací z webu
29
Získávání informací z webu
IBM Focused Crawler Destilátor Rozhoduje o kvalitě stránky (PR, HITS) a určuje pořadí stran v jakém se budou zpracovávat Snaží se najít nejprve autority Dynamický prohledávač Prochází web podle podle měnící se prioritní fronty stránek Získávání informací z webu
30
Získávání informací z webu
Literatura A. Barfourosh, H. Nezhad, M. Anderson a D. Perlis, Information Retrival on World Wide Web and Active Logic: A survey and Problem Definition Získávání informací z webu
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.