Získávání informací z webu

Získávání informací z webu
Jan Lánský

Obsah Úvod Webové vyhledávače a portály Důležitost stránek (algoritmy PR a HITS) Strojové učení Tématicky zaměřené vyhledávače Získávání informací z webu

Úvod Web 16,5 biliónu stránek v roce 2003 Přibývá 3 milióny stran za den (59 GB) Nejlepší vyhledávače Maximální pokrytí 40 % stran 100 miliónu dotazu denně Získávání informací z webu

Rychlost, přesnost, úplnost
Rychlost – Doba odpovědi Přesnost – Přesnost výsledků (zda odpovídají dotazu) z první strany odpovědi. Úplnost – Nalezení nejvýznamnějších stránek (Portály, …) Rychlost Přesnost Úplnost Získávání informací z webu

Vyhledávací nástroje Webové vyhledávače – roboti, pavouci, červi, chodci Když vím, co přesně chci najít (specifické téma) Obejdou se bez lidské údržby Webové portály – webové adresáře Když nevím, co hledám Vyžadují lidskou údržbu Vícenásobné vyhledávače – dotaz je poslán na více vyhledávačů Získávání informací z webu

Webové vyhledávače Vezmi další URL z fronty Stáhni obsah stránky Předzpracuj stránku Vyber klíčová slova a indexuj je Najdi všechna URL a aktualizuj frontu Získávání informací z webu

Webové vyhledávače Na zpracování grafové struktury webových stránek se používá prohledávání do hloubky. Hledání začíná danou množinou stránek. Nelze prozkoumat všechny strany Nejsou dosažitelné z původní množiny Časové a výkonnostní omezení vyhledávačů Získávání informací z webu

Webové vyhledávače Získávání informací z webu

Webové portály Získání odkazů na stránky Ohodnocení důležitosti stránek Indexovat a periodicky aktualizovat Zařadit odkaz do tématu Vyrob info o stránce Naplánovat aktualizaci Získávání informací z webu

Webové portály Stromový adresář témat V kořeni 14 – 26 témat Stránky jsou v listech stromu Získávání informací z webu

Vícenásobné vyhledávače
Uživatel zadá dotaz Dotaz se pošle na jednotlivé vyhledávače Získání výsledků z vyhledávačů Odstranění duplicit, přehodnocení výsledků Zobrazení výsledků uživateli Získávání informací z webu

Vícenásobné Vyhledávače
Dotaz je poslán velkému množství webových vyhledávačů. Jsou 3 typů. 1) Izolované Každý posílá své výsledky nezávisle na ostatních. Šetří čas uživatele. 2) Sekvenční čeká se na posledního a pak se jejich výsledky spojí. Velmi pomalé. Získávání informací z webu

Vícenásobné Vyhledávače
3) Souběžné Hned jak skončí první vyhledávač dostanu výsledky. Snižuje dobu čekání na data. Při skončení dalších se tyto výsledky doplní. Získávání informací z webu

Důležitost stránky Web je orientovaný graf. Mezi stránkami A a B vede hrana, pokud ze stránky A vede odkaz na stránku B. vstupní stupeň stránky - počet odkazů vedoucích na stránku výstupní stupeň stránky - na kolik stránek vedou z této stránky odkazy. Získávání informací z webu

Důležitost stránky Důležitý je vstupní stupeň stránky Na populární stránky vede hodně odkazů Není odkaz jako odkaz. Odkaz z významné stránky (např. Yahoo), je cennější než několik odkazů ze bezvýznamných stránek. Počet citací má význam i v praktickém životě (udělování Nobelových cen) Získávání informací z webu

Algoritmus ohodnocování PR
Stránka A má odkazy ze stran T1, ..., Tn. Tlumící faktor d  [0,1], obvykle 0,85 Funkce C(A) určuje výstupní stupeň strany PR(A) je ohodnocení strany dané vzorcem PR(A) = (1-d) + d  ((PR(Ti) / C (Ti)) Používá Google, stránka s větším PR (Page rank) se prohledává dříve. Získávání informací z webu

Algoritmus HITS Stránky, které odkazují na velký počet významných stránek nazýváme rozcestníky. Jsou dobrou zásobárnou odkazů Stránky, na které odkazuje velký počet rozcestníků nazýváme autority. Stránky, na které odkazuje velký počet stránek (a žádné rozcestníky) nazýváme nerelevantní. (např. Yahoo) Získávání informací z webu

Algoritmus HITS váha rozcestníku x<p> =  y<q> pro (q,p) E váha autority y<p> =  x<q> pro (p,q) E Problémy algoritmu (co zkresluje výsledek) automaticky generované odkazy nerelevantní odkazy (na jiné téma) Řešení - přidat do vzorce váhu listu Získávání informací z webu

HITS x PG HITS Rozliší rozcestník od nerelevantních odkazů Preferuje hodně citované stránky o daném tématu před portály PG (Page rank) Slepě počítá vstupní a výstupní stupně Dává přednost portálům před citovanými stránkami Získávání informací z webu

Strojové učení „Učící se agent“ rozhoduje o dokumentu, podle slov které obsahuje, do jaké kategorii dat patří. např. : obsahuje dokument relevantní informace k zadanému dotazu. Způsoby učení Kontrolované učení (klasifikace) Polokontrolované učení Nekontrolované učení Získávání informací z webu

Kontrolované učení „Učící se agent“ se učí na množině dat M, která jsou označkována (rozdělena do tříd). V trénovací fázi zná správnou odpověď pro každý vstup z množiny dat M. V testovací fázi musí správně určit třídu pro každý vstup z množiny dat M Aplikace: Naivní Bayesův klasifikátor Získávání informací z webu

Naivní Buyesův klasifikátor
wt : slovo t v dokumentu di : dokument i obsahující slova cj : třída dokumentů j v trénovací množině P( cj ) : frekvence dokumentu mezi cj všemi P(wt | cj ) : Pravděpodobnost alespoň jednoho výskytu slova wt v dokumentu cj P(cj | di ) : Pravděpodobnost, že dokument i patří do třídy j Získávání informací z webu

Naivní Buyesův klasifikátor
P(cj | di ) = P( cj ) * P(di | cj ) Tento vztah pro jedno slovo se zobecňuje na více slov. Spočteme pravděpodobnosti pro všechny třídy a dokument zařadíme do té, která bude mít tuto pravděpodobnost nejvyšší Naivní – protože bereme slovo bez ohledu na salší slova v dokumentu Získávání informací z webu

Polokontrolované učení
Oproti kontrolovanému učení: je množina označkovaných dat M malá. Musíme zařazovat do tříd i data, která nejsou z množiny M Polokontrolované učení je použitelnější pro praktické problémy. Získávání informací z webu

Nekontrolované učení „Učící se agent“ nedostane žádná označkovaná data (M = 0) „Učící se agent“ dostane množinu N neoznačených dat. V této množině hledá podobnosti a na základě nich dělí data do tříd. Získávání informací z webu

Tématicky zaměřené vyhledávače
Vyhledávací nástroje Obecné Specializované Na typ dokumentu Na téma Získávání informací z webu

Tématicky zaměřené vyhledávače
Díky specializaci dosahují lepších parametrů přesnosti a úplnosti Pro rozpoznání relevantních dokumentů používají strojové učení, například Naivní Buyesův klasifikátor IBM Focused Crawler, Context Focused Crawler, Cora Získávání informací z webu

IBM Focused Crawler Téma je reprezentováno množinou dokumentů, které zadá uživatel. Systém má tři části Klasifikátor rozhoduje o relevanci procházeného dokumentu vzhledem k dotazu Používá upravenou verzi Naivního Buyesova klasifikátoru Získávání informací z webu

IBM Focused Crawler Destilátor Rozhoduje o kvalitě stránky (PR, HITS) a určuje pořadí stran v jakém se budou zpracovávat Snaží se najít nejprve autority Dynamický prohledávač Prochází web podle podle měnící se prioritní fronty stránek Získávání informací z webu

Literatura A. Barfourosh, H. Nezhad, M. Anderson a D. Perlis, Information Retrival on World Wide Web and Active Logic: A survey and Problem Definition Získávání informací z webu

Získávání informací z webu

Podobné prezentace

Prezentace na téma: "Získávání informací z webu"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Získávání informací z webu

Podobné prezentace

Prezentace na téma: "Získávání informací z webu"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář