Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner.

Podobné prezentace


Prezentace na téma: "Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner."— Transkript prezentace:

1 Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner

2 Počet webových stránek v roce 1999 kolem 800 milionů v lednu 2005 asi 11,5 miliardy - pouze veřejné indexovatelné stránky Nutné používat efektivní vyhledávací nástroje. Potřeba zvolit vhodný způsob vyhodnocování dotazů

3 Získávání informací -zde všechny činnosti nutné k výběrů dokumentů, které nás zajímají, z dané kolekce dokumentů dotaz nezávislý na systému pro získávání informací (nutnost překladu)

4 Kolekce dokumentů Např. zákony České republiky nebo články publikované v časopisu ACM Každá taková kolekce může být spravována systémem pro získávání informací Pokud uživatel zadá dotaz, dostane odpověď týkající se daného tématu Dokumenty jsou uchovávány jako čistý text Prohledávány jsou celé dokumenty  fulltextové vyhledávání

5 Získávání informací z webu Specifika: jako dokumenty zde máme webové stránky stránky jsou provázány odkazy – naznačují logickou souvislost

6 Historie První vyhledávače se objevily v roce 1994: Lycos – vyvinutý na Carnegie Mellon University WebCrawler – vyvinutý na University of Washington Do té doby jen vyhledávání podle názvů stránek a URL. Pak následoval rozkvět podobných nástrojů, např. Altavista (1995)

7 Schéma nástrojů pro získávání informací z webu

8 1. Výběr dokumentů Získávání dokumentů: -webové stránky dodávají uživatelé webu -webové stránky jsou získávány procházením webu pomocí programu – robota (crawler, spider, worm, robot) Uchovávání dat: -dokumenty po indexování zahozeny -dokumenty stále uchovávány

9 2. Indexování - z každého dokumentu je vytvořena reprezentace umožňující následné vyhledávání 3. Vyhledávání - výběr dokumentů, které se co nejvíc týkají dotazu uživatele, pomocí vyhledávacího algoritmu

10 Klasický systém pro získávání informací

11 Klasický systém – odpověď na dotaz

12 Systém pro získávání informací z webu

13 Algoritmy pro získávání informací z webu Na rozdíl oproti klasickému vyhledávání, na webu se vyskytují odkazy – značí logickou souvislost. Tedy dokumenty, které na sebe odkazují, bývají často významné pro jeden dotaz. “Kompaktnost“ skupiny stránek – počet odkazů v této skupině děleno počtem těchto stránek.

14 Analýza struktury webových stránek Zjišťování hierarchií Hledání shluků stránek Určování kompaktnosti skupiny webových stránek

15 Hledání hierarchií webových stránek Identifikace “funkcí“ jednotlivých uzlů: kořeny, vnitřní uzly, listy. Možnost identifikace domácí stránky. Rozpoznaná struktura může sloužit uživateli k navigaci.

16 Hledání shluků webových stránek Shluky stránek, které jsou vzájemně hodně propojené odkazy, se často týkají jednoho tématu Míra propojení – počet nezávislých test k-komponenta – maximální podgraf takový, že při libovolném rozdělení vrcholů (webových stránek) do dvou množin vede mezi těmito množinami alespoň k hran (odkazů)

17 Indexové a referenční uzly μ – průměrný počet odkazů do jedné stránky σ – příslušná směrodatná odchylka μ’ – průměrný počet odkazů z jedné stránky σ’ – příslušná směrodatná odchylka Referenční stránka – vede do ní alespoň μ + 3σ odkazů Indexová stránka – ukazuje alespoň na μ’ + 3σ’ stránek

18 Kompaktnost skupiny stránek -množství odkazů v dané skupině stránek Pokud je velká, uživatel může se může cítit dezorientován - “ztracen v hyperprostoru“. Pokud je malá, uživatel nemusí být schopen dosáhnout každého uzlu.

19 Autoritní stránky Mezi novější algoritmy používající odkazy patří HITS (Hyperlinked Induced Topic Search) a PageRank. Oba patří do větší skupiny podobných algoritmů. Využívají referenčních a indexových uzlů a kompaktnosti skupin webových stránek.

20 HITS (1) Zaměřuje se na dotazy, ke kterým může existovat velké množství nalezených stránek. Snaží se mezi nimi najít stránky významné pro uživatele – autoritní stránky. Na autoritní stránky vede větší množství odkazů. Větší množství odkazů vede i na stránky, které jsou obecně populární.

21 HITS (2) HITS klasifikuje stránky na základě dvou typů stránek – rozcestníků a autoritních stránek. Autoritní stránka (authority page) je často citovaná – vede na ni dost odkazů. Rozcestník (hub page) odkazuje na hodně stránek. Myšlenka algoritmu: Kvalita autoritní stránky je úměrná kvalitě rozcestníků, které na ni odkazují, a naopak – kvalita rozcestníku je úměrná kvalitě autoritních stránek, na které odkazuje.

22 Autoritní stránky a rozcestníky Stránky f, g, i, j jsou populární Stránky i, j jsou navíc autoritní Stránky h, k jsou rozcestníky

23 HITS – vlastní algoritmus (1) Algoritmus pro zodpovězení jednoho dotazu q: R = answer(q) B = expand(R) (A,H) = iterate(B,k) S = filter(A,H,σ)

24 HITS – vlastní algoritmus (2) iterate(B,k) x (0) = y (0) = (1,…,1) |B| for ( i = 1; i < k; i++ ) { x (i) = update(y (i-1) ) y (i) = update(x (i) ) normalize(x (i) ) normalize(y (i) ) } return (x (k), y (k) )

25 update(v) for ( j = 1; j < |B|; j++ ) { } return v’ HITS – vlastní algoritmus (3)

26 HITS – použití HITS byl implementován v programu ARC (Automatic Resource Compiler). Ten byl použit k vytvoření adresáře různých stránek zabývající se širokým okruhem témat. Výsledky programu byly srovnatelné s výsledky vytvořenými člověkem.

27 PageRank Ohodnocení stránky závisí na ohodnocení stránek, které na ni odkazují –odkazem na cizí stránku je daná stránka autorem čtenáři doporučována

28 PageRank Simulace chování uživatele r(q) = (1-d) + d*  (p,q)  E ((1/o(p))*r(p)), d  –uživatel náhodně prochází webem –Pravděpodobnost návštěvy je dána hodnotou PageRank –S pravděpodobností d klikne na některý odkaz ve stránce Výběr některého z o(p) odkazů je náhodný s rovnoměrným rozdělením –S pravděpodobností (1-d) nepokračuje pomocí odkazu, ale přímým zápisem adresy, výběrem z oblíbených, …

29 PageRank příklad x z y r(x) = *r(z) r(y) = *r(x)/2 r(z) = *(r(x)/2+ r(y)) Přesné řešení rovnic: r(x) = 14/13 = r(y) = 10/13 = r(z) = 15/13 = Iterativní výpočet r(x) r(y) r(z) …………

30 Automatické generování odkazů Odkazy se přidávají spíše do pomocných struktur (indexy..) Mění se topologie webu Asociativní odkazy –podobnost mezi uzly –popisy uzlů automatickým indexováním

31 Automatické generování odkazů 2 Dáno: model, podobnostní funkce, práh vytvoř popis uzlů v modelu spočítej podobnosti mezi uzly pokud je podobnost větší než daný práh, přidej odkaz

32 Generování odkazů pomocí podobnosti textů Vytváření odkazů během zpracování dotazu Odpovědí je hypertext závislý na dotazu Vektorový model –váhy tf*idf –normalizované vektory

33 Generování odkazů pomocí podobnosti textů 2 n, k jsou přirozená čísla, q původní dotaz, retrieve(q, n, k) retrieve(x, n, k) if (n > 0) then extract top k segments matching x for each segment y i, i=1,..., k retrieve(y i, n-1, k) end retrieve q dcba ihgfe

34 Rozpoznání typu odkazu Oprava - verze segmentu textu Shrnutí - spojují segmenty se segmentem, který je shrnuje Expanze - opak shrnutí Ekvivalence - spojuje segmenty s velmi blízkým obsahem Srovnání - spojuje segmenty s blízkým obsahem Protiklad - opak srovnání Tangent - spojuje segmenty, které jsou pouze okrajově relevantní Agregace - spojuje segmenty, které spojeny do nového segmentu

35 Rozpoznání typu odkazu 2 Spočti podobnosti mezi dokumenty, mezi dokumenty a segmenty, mezi segmenty Rozděl podobnosti podle stupně –např. silné, dobré a slabé Spoj silné odkazy a spojené segmenty Rozděl segmenty spojené slabými odkazy a hledej jejich části spojené silnými odkazy

36 Oprava Dva dokumenty mají stejně uspořádané části spojené silnými odkazy

37 Shrnutí/expanze Množství textu bez odkazů je v jednom dokumentu větší než v druhém Shrnutí –z většího množství textu bez odkazů do menšího Expanze –z menšího množství textu bez odkazů do většího

38 Ekvivalence/srovnání Není to žádný z předcházejících typů odkazů Ekvivalence –silnější odkazy Srovnání –slabší odkazy

39 Protiklad Množství nepropojeného textu obou dokumentů je výrazně vysoké

40 Tangent Z/do dokumentu vede málo odkazů

41 Konstrukce různých typů odkazů Termy (T) Stránky (S) TT odkazy SS odkazy TS/ST odkazy

42 Konstrukce různých typů odkazů 2 SS (TT) odkazy –mezi dokumenty (termy) –míra podobnosti mezi dokumenty (termy) i a j –pro každý dokument (term) i lze spočítat seznam podobných dokumentů (termů) seřazený podle míry podobnosti –odkaz se přidá mezi dokumenty (termy) i a j, pokud podobnost přesáhne daný práh ST odkazy –jako váhu odkazu lze použít váhu termu v dokumentu –odkaz se přidá mezi dokumenty a termy, pokud podobnost přesáhne daný práh

43 Konstrukce různých typů odkazů 3 1) The Computation of Clustering for Information Retrieval 2)Clusters of Computer Networks 3)Data Retrieval with Hypertextual Networks váhy: |X  Y| / |X  Y| comput cluster informretrievdata hypertext network 123 2/51/6 1/7 11/21/3

44 Ohodnocení IR na webu Hypotézy o jednotlivých komponentách IR –systém jako celek –charakteristiky dat, uživatele –efektivita - indexování, vyhledávání Experimenty –laboratorní –provozní

45 Experimenty Celý web –odhad počtu stránek –geografická distribuce –množiny str. indexované různými vyhledávači Vyhledávače –porovnání vyhledávačů na stejných dotazech Techniky

46 Problémy ohodnocování IR na webu Dynamičnost webu a vyhledávačů Různorodost dokumentů a odkazů Odkazy mezi stránkami

47 Cranfieldův model Testovací kolekce (D, Q, R) –D množina testovacích dokumentů –Q množina testovacích dotazů –R informace o relevanci dokumentů vůči dotazům Předpoklady –D a Q jsou reprezentativní vzorky –R může poskytnout informaci o každé dvojici (dotaz, dokument)

48 Reprezentativnost Obtížné zvolit reprezentativní vzorek (hlavně D) –zvětšuje se počet stránek –zvětšuje se různorodost –zvětšuje se počet uživatel –různé algoritmy vyhledávačů efektivita závisí na výběru dotazů

49 Relevance relevance závisí nejen na obsahu –na vstupním a výstupním stupni o relevanci vypovídá více prohlížení než zpracování dotazu –uživatelé berou v úvahu předchozí stránky

50 Relevance 2 Relevantní stránka p s kladným vstupním stupněm –stránka odkazující na p je relevantní odkaz umožní získat relevantní data Relevantní stránka q s kladným výstupním stupněm –q je relevantnější než p odkaz přinese další relevantní data

51 Měření efektivnosti Přesnost a úplnost neberou v úvahu odkazy mezi dokumenty Nové míry –změny v počtu relevantních stránek po použití odkazu –B(q) - stránky získané zpracováním dotazu –B(q, i) - stránky získané po použití odkazu i z B(q) –uživatele zajímají nově získané relevantní stránky –uživatele více obtěžují nově získané nerelevantní stránky

52 Měření efektivnosti Novelty V –poměr počtu nových relevantních stránek v daném kroku vůči počtu všech relevantních stránek –efektivita procházení webu –úplnost je speciálním případem novelty Noise S –poměr počtu nových nerelevantních stránek v daném kroku vůči počtu všech nově získaných stránek –cena procházení webu –doplněk přesnosti je speciálním případem noise

53 Měření efektivnosti Relevantní stránky (R) B(q) B(q, i, j) B(q. i) B(q) AND R B(q, i) AND NOT B(q) AND R B(q, i, j) AND NOT B(q, i) AND NOT B(q) AND R

54 Měření efektivnosti novelty = úplnost = 1/3 noise = 1-přesnost = 4/5 novelty = 1/3 noise = 4/6 novelty = 0 noise = 3/6

55 Rozsah Databáze vyhledávačů se málo překrývají S větším množstvím zaindexovaných stránek roste úplnost a klesá přesnost Efektivnost vyhledávacích robotů

56 Předmět dotazu Efektivita vyhledávače může záviset na typu dotazu Množiny vrácených dotazů mohou být rozdílné Testovací dotazy by měly být „nezaujaté“

57 Rozhraní Rozdílní uživatelé Technologie

58 Zdroje: Maristella Agosti and Massimo Melucci: Information Retrieval on the Web Wikipedia (www.wikipedia.org)


Stáhnout ppt "Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner."

Podobné prezentace


Reklamy Google