Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner
Počet webových stránek v roce 1999 kolem 800 milionů v lednu 2005 asi 11,5 miliardy - pouze veřejné indexovatelné stránky Nutné používat efektivní vyhledávací nástroje. Potřeba zvolit vhodný způsob vyhodnocování dotazů
Získávání informací zde všechny činnosti nutné k výběrů dokumentů, které nás zajímají, z dané kolekce dokumentů dotaz nezávislý na systému pro získávání informací (nutnost překladu)
Kolekce dokumentů Např. zákony České republiky nebo články publikované v časopisu ACM Každá taková kolekce může být spravována systémem pro získávání informací Pokud uživatel zadá dotaz, dostane odpověď týkající se daného tématu Dokumenty jsou uchovávány jako čistý text Prohledávány jsou celé dokumenty fulltextové vyhledávání
Získávání informací z webu Specifika: jako dokumenty zde máme webové stránky stránky jsou provázány odkazy – naznačují logickou souvislost
Historie První vyhledávače se objevily v roce 1994: Lycos – vyvinutý na Carnegie Mellon University WebCrawler – vyvinutý na University of Washington Do té doby jen vyhledávání podle názvů stránek a URL. Pak následoval rozkvět podobných nástrojů, např. Altavista (1995)
Schéma nástrojů pro získávání informací z webu
1. Výběr dokumentů Získávání dokumentů: webové stránky dodávají uživatelé webu webové stránky jsou získávány procházením webu pomocí programu – robota (crawler, spider, worm, robot) Uchovávání dat: dokumenty po indexování zahozeny dokumenty stále uchovávány
2. Indexování 3. Vyhledávání - z každého dokumentu je vytvořena reprezentace umožňující následné vyhledávání 3. Vyhledávání - výběr dokumentů, které se co nejvíc týkají dotazu uživatele, pomocí vyhledávacího algoritmu
Klasický systém pro získávání informací
Klasický systém – odpověď na dotaz
Systém pro získávání informací z webu
Algoritmy pro získávání informací z webu Na rozdíl oproti klasickému vyhledávání, na webu se vyskytují odkazy – značí logickou souvislost. Tedy dokumenty, které na sebe odkazují, bývají často významné pro jeden dotaz. “Kompaktnost“ skupiny stránek – počet odkazů v této skupině děleno počtem těchto stránek.
Analýza struktury webových stránek Zjišťování hierarchií Hledání shluků stránek Určování kompaktnosti skupiny webových stránek
Hledání hierarchií webových stránek Identifikace “funkcí“ jednotlivých uzlů: kořeny, vnitřní uzly, listy. Možnost identifikace domácí stránky. Rozpoznaná struktura může sloužit uživateli k navigaci.
Hledání shluků webových stránek Shluky stránek, které jsou vzájemně hodně propojené odkazy, se často týkají jednoho tématu Míra propojení – počet nezávislých test k-komponenta – maximální podgraf takový, že při libovolném rozdělení vrcholů (webových stránek) do dvou množin vede mezi těmito množinami alespoň k hran (odkazů)
Indexové a referenční uzly μ – průměrný počet odkazů do jedné stránky σ – příslušná směrodatná odchylka μ’ – průměrný počet odkazů z jedné stránky σ’ – příslušná směrodatná odchylka Referenční stránka – vede do ní alespoň μ + 3σ odkazů Indexová stránka – ukazuje alespoň na μ’ + 3σ’ stránek
Kompaktnost skupiny stránek množství odkazů v dané skupině stránek Pokud je velká, uživatel může se může cítit dezorientován - “ztracen v hyperprostoru“. Pokud je malá, uživatel nemusí být schopen dosáhnout každého uzlu.
Autoritní stránky Mezi novější algoritmy používající odkazy patří HITS (Hyperlinked Induced Topic Search) a PageRank. Oba patří do větší skupiny podobných algoritmů. Využívají referenčních a indexových uzlů a kompaktnosti skupin webových stránek.
HITS (1) Zaměřuje se na dotazy, ke kterým může existovat velké množství nalezených stránek. Snaží se mezi nimi najít stránky významné pro uživatele – autoritní stránky. Na autoritní stránky vede větší množství odkazů. Větší množství odkazů vede i na stránky, které jsou obecně populární.
HITS (2) HITS klasifikuje stránky na základě dvou typů stránek – rozcestníků a autoritních stránek. Autoritní stránka (authority page) je často citovaná – vede na ni dost odkazů. Rozcestník (hub page) odkazuje na hodně stránek. Myšlenka algoritmu: Kvalita autoritní stránky je úměrná kvalitě rozcestníků, které na ni odkazují, a naopak – kvalita rozcestníku je úměrná kvalitě autoritních stránek, na které odkazuje.
Autoritní stránky a rozcestníky Stránky f, g, i, j jsou populární Stránky i, j jsou navíc autoritní Stránky h, k jsou rozcestníky
HITS – vlastní algoritmus (1) Algoritmus pro zodpovězení jednoho dotazu q: R = answer(q) B = expand(R) (A,H) = iterate(B,k) S = filter(A,H,σ)
HITS – vlastní algoritmus (2) iterate(B,k) x(0) = y(0) = (1,…,1)|B| for ( i = 1; i < k; i++ ) { x(i) = update(y(i-1)) y(i) = update(x(i)) normalize(x(i)) normalize(y(i)) } return (x(k), y(k))
HITS – vlastní algoritmus (3) update(v) for ( j = 1; j < |B|; j++ ) { } return v’
HITS – použití HITS byl implementován v programu ARC (Automatic Resource Compiler). Ten byl použit k vytvoření adresáře různých stránek zabývající se širokým okruhem témat. Výsledky programu byly srovnatelné s výsledky vytvořenými člověkem.
PageRank Ohodnocení stránky závisí na ohodnocení stránek, které na ni odkazují odkazem na cizí stránku je daná stránka autorem čtenáři doporučována
PageRank Simulace chování uživatele uživatel náhodně prochází webem r(q) = (1-d) + d*(p,q)E((1/o(p))*r(p)), d<0,1> uživatel náhodně prochází webem Pravděpodobnost návštěvy je dána hodnotou PageRank S pravděpodobností d klikne na některý odkaz ve stránce Výběr některého z o(p) odkazů je náhodný s rovnoměrným rozdělením S pravděpodobností (1-d) nepokračuje pomocí odkazu, ale přímým zápisem adresy, výběrem z oblíbených, …
PageRank příklad r(x) = 0.5 + 0.5*r(z) r(y) = 0.5 + 0.5*r(x)/2 r(z) = 0.5 + 0.5*(r(x)/2+ r(y)) Přesné řešení rovnic: r(x) = 14/13 = 1.07692308 r(y) = 10/13 = 0.76923077 r(z) = 15/13 = 1.15384615 Iterativní výpočet r(x) r(y) r(z) 0 1.0 1.0 1.0 1 1.0 0.75 1.125 2 1.0625 0.765625 1.1484375 3 1.07421875 0.76855469 1.15283203 4 1.07641602 0.76910400 1.15365601 … … … … 10 1.07692305 0.76923076 1.15384615 11 1.07692307 0.76923077 1.15384615 12 1.07692308 0.76923078 1.15384615 x z y
Automatické generování odkazů Odkazy se přidávají spíše do pomocných struktur (indexy..) Mění se topologie webu Asociativní odkazy podobnost mezi uzly popisy uzlů automatickým indexováním
Automatické generování odkazů 2 Dáno: model, podobnostní funkce, práh vytvoř popis uzlů v modelu spočítej podobnosti mezi uzly pokud je podobnost větší než daný práh, přidej odkaz
Generování odkazů pomocí podobnosti textů Vytváření odkazů během zpracování dotazu Odpovědí je hypertext závislý na dotazu Vektorový model váhy tf*idf normalizované vektory
Generování odkazů pomocí podobnosti textů 2 n, k jsou přirozená čísla, q původní dotaz, retrieve(q, n, k) retrieve(x, n, k) if (n > 0) then extract top k segments matching x for each segment yi, i=1, ..., k retrieve(yi, n-1, k) end retrieve q a b c d e f g h i
Rozpoznání typu odkazu Oprava - verze segmentu textu Shrnutí - spojují segmenty se segmentem, který je shrnuje Expanze - opak shrnutí Ekvivalence - spojuje segmenty s velmi blízkým obsahem Srovnání - spojuje segmenty s blízkým obsahem Protiklad - opak srovnání Tangent - spojuje segmenty, které jsou pouze okrajově relevantní Agregace - spojuje segmenty, které spojeny do nového segmentu
Rozpoznání typu odkazu 2 Spočti podobnosti mezi dokumenty, mezi dokumenty a segmenty, mezi segmenty Rozděl podobnosti podle stupně např. silné, dobré a slabé Spoj silné odkazy a spojené segmenty Rozděl segmenty spojené slabými odkazy a hledej jejich části spojené silnými odkazy
Oprava Dva dokumenty mají stejně uspořádané části spojené silnými odkazy
Shrnutí/expanze Množství textu bez odkazů je v jednom dokumentu větší než v druhém Shrnutí z většího množství textu bez odkazů do menšího Expanze z menšího množství textu bez odkazů do většího
Ekvivalence/srovnání Není to žádný z předcházejících typů odkazů Ekvivalence silnější odkazy Srovnání slabší odkazy
Protiklad Množství nepropojeného textu obou dokumentů je výrazně vysoké
Tangent Z/do dokumentu vede málo odkazů
Konstrukce různých typů odkazů TT odkazy Termy (T) TS/ST odkazy Stránky (S) SS odkazy
Konstrukce různých typů odkazů 2 SS (TT) odkazy mezi dokumenty (termy) míra podobnosti mezi dokumenty (termy) i a j pro každý dokument (term) i lze spočítat seznam podobných dokumentů (termů) seřazený podle míry podobnosti odkaz se přidá mezi dokumenty (termy) i a j, pokud podobnost přesáhne daný práh ST odkazy jako váhu odkazu lze použít váhu termu v dokumentu odkaz se přidá mezi dokumenty a termy, pokud podobnost přesáhne daný práh
Konstrukce různých typů odkazů 3 1) The Computation of Clustering for Information Retrieval 2)Clusters of Computer Networks 3)Data Retrieval with Hypertextual Networks váhy: |XY| / |X Y| network comput hypertext cluster retriev inform data 2/5 1/6 1 2 3 1 1/2 1/3 1/7
Ohodnocení IR na webu Hypotézy o jednotlivých komponentách IR systém jako celek charakteristiky dat, uživatele efektivita - indexování, vyhledávání Experimenty laboratorní provozní
Experimenty Celý web Vyhledávače Techniky odhad počtu stránek geografická distribuce množiny str. indexované různými vyhledávači Vyhledávače porovnání vyhledávačů na stejných dotazech Techniky
Problémy ohodnocování IR na webu Dynamičnost webu a vyhledávačů Různorodost dokumentů a odkazů Odkazy mezi stránkami
Cranfieldův model Testovací kolekce (D, Q, R) Předpoklady D množina testovacích dokumentů Q množina testovacích dotazů R informace o relevanci dokumentů vůči dotazům Předpoklady D a Q jsou reprezentativní vzorky R může poskytnout informaci o každé dvojici (dotaz, dokument)
Reprezentativnost Obtížné zvolit reprezentativní vzorek (hlavně D) zvětšuje se počet stránek zvětšuje se různorodost zvětšuje se počet uživatel různé algoritmy vyhledávačů efektivita závisí na výběru dotazů
Relevance relevance závisí nejen na obsahu na vstupním a výstupním stupni o relevanci vypovídá více prohlížení než zpracování dotazu uživatelé berou v úvahu předchozí stránky
Relevance 2 Relevantní stránka p s kladným vstupním stupněm stránka odkazující na p je relevantní odkaz umožní získat relevantní data Relevantní stránka q s kladným výstupním stupněm q je relevantnější než p odkaz přinese další relevantní data
Měření efektivnosti Přesnost a úplnost neberou v úvahu odkazy mezi dokumenty Nové míry změny v počtu relevantních stránek po použití odkazu B(q) - stránky získané zpracováním dotazu B(q, i) - stránky získané po použití odkazu i z B(q) uživatele zajímají nově získané relevantní stránky uživatele více obtěžují nově získané nerelevantní stránky
Měření efektivnosti Novelty V Noise S poměr počtu nových relevantních stránek v daném kroku vůči počtu všech relevantních stránek efektivita procházení webu úplnost je speciálním případem novelty Noise S poměr počtu nových nerelevantních stránek v daném kroku vůči počtu všech nově získaných stránek cena procházení webu doplněk přesnosti je speciálním případem noise
Měření efektivnosti B(q. i) B(q) B(q, i, j) B(q) AND R B(q, i, j) AND NOT B(q, i) AND NOT B(q) AND R Relevantní stránky (R) B(q, i) AND NOT B(q) AND R
Měření efektivnosti novelty = úplnost = 1/3 noise = 1-přesnost = 4/5 novelty = 1/3 noise = 4/6 novelty = 0 noise = 3/6
Rozsah Databáze vyhledávačů se málo překrývají S větším množstvím zaindexovaných stránek roste úplnost a klesá přesnost Efektivnost vyhledávacích robotů
Předmět dotazu Efektivita vyhledávače může záviset na typu dotazu Množiny vrácených dotazů mohou být rozdílné Testovací dotazy by měly být „nezaujaté“
Rozhraní Rozdílní uživatelé Technologie
Zdroje: Maristella Agosti and Massimo Melucci: Information Retrieval on the Web Wikipedia (www.wikipedia.org)