Získávání informací z webu (Information Retrieval on the Web)

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Nový přístup k aplikacím Vema
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
New Catholic Encyklopedia Gale Virtual Reference Library (producent Thomson Gale)
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Kalmanuv filtr pro zpracování signálů a navigaci
Internet Definice Historie Použití Programy pro práci s internetem
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
INTERNETOVÉ VYHLEDÁVAČE
ADT Strom.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
DOK.
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
LOGISTICKÉ SYSTÉMY 7/14.
LOGISTICKÉ SYSTÉMY 8/14.
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Relační databáze.
Manažerské informační systémy Ing. Dagmar Řešetková
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Jan Majer, Tomáš Pytlík, Tomáš Vondráček IKE D o k u m e n t o g r a f i c k é i n f o r m a č n í s y s t é m y.
PPC workshop Lukáš Pokorný RobertNemec.com. PPC audit Podle struktury účtu: kampaně, sestavy, slova, inzeráty První věc po převzetí účtu nebo při zjišťování.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
WWW – hypertextový informační systém
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Úvod do studia- 7. seminář Elektronické informační databáze Robert Zbíral.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Odhad metodou maximální věrohodnost
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Databázové modelování
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Jak vyhledávat informace na Internetu?
DOK. NĚCO K IMPLEMENTACI … Dokumentografické informační systémy IRS musí parcovat s velmi rozsáhlými ale velmi řídkými maticemi.
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Projekt Perfull Personifikovaný fulltextový vyhledavač Vedoucí: RNDr. Leo Galamboš, Ph.D. Řešitelé: Ondrej Bechera Vojtěch Kulvait Eva Kustrová Ondřej.
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Úvod do studia Strategie vyhledávání zdrojů Robert Zbíral.
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Metrické indexování vektorových modelů v oblasti Information Retrieval
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Geografické informační systémy pojetí, definice, součásti
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
… jsou bohatší lidé šťastnější?
Úvod do databázových systémů
Vyhledávání v Internetu
VIKMA06 Rešeršní a studijně rozborová činnost
- váhy jednotlivých studií
Podpora adaptivní navigace
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Získávání informací z webu
Induktivní statistika
Základy statistiky.
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

Získávání informací z webu (Information Retrieval on the Web) Radek Vitovják, Adam Švantner

Počet webových stránek v roce 1999 kolem 800 milionů v lednu 2005 asi 11,5 miliardy - pouze veřejné indexovatelné stránky Nutné používat efektivní vyhledávací nástroje. Potřeba zvolit vhodný způsob vyhodnocování dotazů

Získávání informací zde všechny činnosti nutné k výběrů dokumentů, které nás zajímají, z dané kolekce dokumentů dotaz nezávislý na systému pro získávání informací (nutnost překladu)

Kolekce dokumentů Např. zákony České republiky nebo články publikované v časopisu ACM Každá taková kolekce může být spravována systémem pro získávání informací Pokud uživatel zadá dotaz, dostane odpověď týkající se daného tématu Dokumenty jsou uchovávány jako čistý text Prohledávány jsou celé dokumenty  fulltextové vyhledávání

Získávání informací z webu Specifika: jako dokumenty zde máme webové stránky stránky jsou provázány odkazy – naznačují logickou souvislost

Historie První vyhledávače se objevily v roce 1994: Lycos – vyvinutý na Carnegie Mellon University WebCrawler – vyvinutý na University of Washington Do té doby jen vyhledávání podle názvů stránek a URL. Pak následoval rozkvět podobných nástrojů, např. Altavista (1995)

Schéma nástrojů pro získávání informací z webu

1. Výběr dokumentů Získávání dokumentů: webové stránky dodávají uživatelé webu webové stránky jsou získávány procházením webu pomocí programu – robota (crawler, spider, worm, robot) Uchovávání dat: dokumenty po indexování zahozeny dokumenty stále uchovávány

2. Indexování 3. Vyhledávání - z každého dokumentu je vytvořena reprezentace umožňující následné vyhledávání 3. Vyhledávání - výběr dokumentů, které se co nejvíc týkají dotazu uživatele, pomocí vyhledávacího algoritmu

Klasický systém pro získávání informací

Klasický systém – odpověď na dotaz

Systém pro získávání informací z webu

Algoritmy pro získávání informací z webu Na rozdíl oproti klasickému vyhledávání, na webu se vyskytují odkazy – značí logickou souvislost. Tedy dokumenty, které na sebe odkazují, bývají často významné pro jeden dotaz. “Kompaktnost“ skupiny stránek – počet odkazů v této skupině děleno počtem těchto stránek.

Analýza struktury webových stránek Zjišťování hierarchií Hledání shluků stránek Určování kompaktnosti skupiny webových stránek

Hledání hierarchií webových stránek Identifikace “funkcí“ jednotlivých uzlů: kořeny, vnitřní uzly, listy. Možnost identifikace domácí stránky. Rozpoznaná struktura může sloužit uživateli k navigaci.

Hledání shluků webových stránek Shluky stránek, které jsou vzájemně hodně propojené odkazy, se často týkají jednoho tématu Míra propojení – počet nezávislých test k-komponenta – maximální podgraf takový, že při libovolném rozdělení vrcholů (webových stránek) do dvou množin vede mezi těmito množinami alespoň k hran (odkazů)

Indexové a referenční uzly μ – průměrný počet odkazů do jedné stránky σ – příslušná směrodatná odchylka μ’ – průměrný počet odkazů z jedné stránky σ’ – příslušná směrodatná odchylka Referenční stránka – vede do ní alespoň μ + 3σ odkazů Indexová stránka – ukazuje alespoň na μ’ + 3σ’ stránek

Kompaktnost skupiny stránek množství odkazů v dané skupině stránek Pokud je velká, uživatel může se může cítit dezorientován - “ztracen v hyperprostoru“. Pokud je malá, uživatel nemusí být schopen dosáhnout každého uzlu.

Autoritní stránky Mezi novější algoritmy používající odkazy patří HITS (Hyperlinked Induced Topic Search) a PageRank. Oba patří do větší skupiny podobných algoritmů. Využívají referenčních a indexových uzlů a kompaktnosti skupin webových stránek.

HITS (1) Zaměřuje se na dotazy, ke kterým může existovat velké množství nalezených stránek. Snaží se mezi nimi najít stránky významné pro uživatele – autoritní stránky. Na autoritní stránky vede větší množství odkazů. Větší množství odkazů vede i na stránky, které jsou obecně populární.

HITS (2) HITS klasifikuje stránky na základě dvou typů stránek – rozcestníků a autoritních stránek. Autoritní stránka (authority page) je často citovaná – vede na ni dost odkazů. Rozcestník (hub page) odkazuje na hodně stránek. Myšlenka algoritmu: Kvalita autoritní stránky je úměrná kvalitě rozcestníků, které na ni odkazují, a naopak – kvalita rozcestníku je úměrná kvalitě autoritních stránek, na které odkazuje.

Autoritní stránky a rozcestníky Stránky f, g, i, j jsou populární Stránky i, j jsou navíc autoritní Stránky h, k jsou rozcestníky

HITS – vlastní algoritmus (1) Algoritmus pro zodpovězení jednoho dotazu q: R = answer(q) B = expand(R) (A,H) = iterate(B,k) S = filter(A,H,σ)

HITS – vlastní algoritmus (2) iterate(B,k) x(0) = y(0) = (1,…,1)|B| for ( i = 1; i < k; i++ ) { x(i) = update(y(i-1)) y(i) = update(x(i)) normalize(x(i)) normalize(y(i)) } return (x(k), y(k))

HITS – vlastní algoritmus (3) update(v) for ( j = 1; j < |B|; j++ ) { } return v’

HITS – použití HITS byl implementován v programu ARC (Automatic Resource Compiler). Ten byl použit k vytvoření adresáře různých stránek zabývající se širokým okruhem témat. Výsledky programu byly srovnatelné s výsledky vytvořenými člověkem.

PageRank Ohodnocení stránky závisí na ohodnocení stránek, které na ni odkazují odkazem na cizí stránku je daná stránka autorem čtenáři doporučována

PageRank Simulace chování uživatele uživatel náhodně prochází webem r(q) = (1-d) + d*(p,q)E((1/o(p))*r(p)), d<0,1> uživatel náhodně prochází webem Pravděpodobnost návštěvy je dána hodnotou PageRank S pravděpodobností d klikne na některý odkaz ve stránce Výběr některého z o(p) odkazů je náhodný s rovnoměrným rozdělením S pravděpodobností (1-d) nepokračuje pomocí odkazu, ale přímým zápisem adresy, výběrem z oblíbených, …

PageRank příklad r(x) = 0.5 + 0.5*r(z) r(y) = 0.5 + 0.5*r(x)/2 r(z) = 0.5 + 0.5*(r(x)/2+ r(y)) Přesné řešení rovnic: r(x) = 14/13 = 1.07692308 r(y) = 10/13 = 0.76923077 r(z) = 15/13 = 1.15384615 Iterativní výpočet r(x) r(y) r(z) 0 1.0 1.0 1.0 1 1.0 0.75 1.125 2 1.0625 0.765625 1.1484375 3 1.07421875 0.76855469 1.15283203 4 1.07641602 0.76910400 1.15365601 … … … … 10 1.07692305 0.76923076 1.15384615 11 1.07692307 0.76923077 1.15384615 12 1.07692308 0.76923078 1.15384615 x z y

Automatické generování odkazů Odkazy se přidávají spíše do pomocných struktur (indexy..) Mění se topologie webu Asociativní odkazy podobnost mezi uzly popisy uzlů automatickým indexováním

Automatické generování odkazů 2 Dáno: model, podobnostní funkce, práh vytvoř popis uzlů v modelu spočítej podobnosti mezi uzly pokud je podobnost větší než daný práh, přidej odkaz

Generování odkazů pomocí podobnosti textů Vytváření odkazů během zpracování dotazu Odpovědí je hypertext závislý na dotazu Vektorový model váhy tf*idf normalizované vektory

Generování odkazů pomocí podobnosti textů 2 n, k jsou přirozená čísla, q původní dotaz, retrieve(q, n, k) retrieve(x, n, k) if (n > 0) then extract top k segments matching x for each segment yi, i=1, ..., k retrieve(yi, n-1, k) end retrieve q a b c d e f g h i

Rozpoznání typu odkazu Oprava - verze segmentu textu Shrnutí - spojují segmenty se segmentem, který je shrnuje Expanze - opak shrnutí Ekvivalence - spojuje segmenty s velmi blízkým obsahem Srovnání - spojuje segmenty s blízkým obsahem Protiklad - opak srovnání Tangent - spojuje segmenty, které jsou pouze okrajově relevantní Agregace - spojuje segmenty, které spojeny do nového segmentu

Rozpoznání typu odkazu 2 Spočti podobnosti mezi dokumenty, mezi dokumenty a segmenty, mezi segmenty Rozděl podobnosti podle stupně např. silné, dobré a slabé Spoj silné odkazy a spojené segmenty Rozděl segmenty spojené slabými odkazy a hledej jejich části spojené silnými odkazy

Oprava Dva dokumenty mají stejně uspořádané části spojené silnými odkazy

Shrnutí/expanze Množství textu bez odkazů je v jednom dokumentu větší než v druhém Shrnutí z většího množství textu bez odkazů do menšího Expanze z menšího množství textu bez odkazů do většího

Ekvivalence/srovnání Není to žádný z předcházejících typů odkazů Ekvivalence silnější odkazy Srovnání slabší odkazy

Protiklad Množství nepropojeného textu obou dokumentů je výrazně vysoké

Tangent Z/do dokumentu vede málo odkazů

Konstrukce různých typů odkazů TT odkazy Termy (T) TS/ST odkazy Stránky (S) SS odkazy

Konstrukce různých typů odkazů 2 SS (TT) odkazy mezi dokumenty (termy) míra podobnosti mezi dokumenty (termy) i a j pro každý dokument (term) i lze spočítat seznam podobných dokumentů (termů) seřazený podle míry podobnosti odkaz se přidá mezi dokumenty (termy) i a j, pokud podobnost přesáhne daný práh ST odkazy jako váhu odkazu lze použít váhu termu v dokumentu odkaz se přidá mezi dokumenty a termy, pokud podobnost přesáhne daný práh

Konstrukce různých typů odkazů 3 1) The Computation of Clustering for Information Retrieval 2)Clusters of Computer Networks 3)Data Retrieval with Hypertextual Networks váhy: |XY| / |X  Y| network comput hypertext cluster retriev inform data 2/5 1/6 1 2 3 1 1/2 1/3 1/7

Ohodnocení IR na webu Hypotézy o jednotlivých komponentách IR systém jako celek charakteristiky dat, uživatele efektivita - indexování, vyhledávání Experimenty laboratorní provozní

Experimenty Celý web Vyhledávače Techniky odhad počtu stránek geografická distribuce množiny str. indexované různými vyhledávači Vyhledávače porovnání vyhledávačů na stejných dotazech Techniky

Problémy ohodnocování IR na webu Dynamičnost webu a vyhledávačů Různorodost dokumentů a odkazů Odkazy mezi stránkami

Cranfieldův model Testovací kolekce (D, Q, R) Předpoklady D množina testovacích dokumentů Q množina testovacích dotazů R informace o relevanci dokumentů vůči dotazům Předpoklady D a Q jsou reprezentativní vzorky R může poskytnout informaci o každé dvojici (dotaz, dokument)

Reprezentativnost Obtížné zvolit reprezentativní vzorek (hlavně D) zvětšuje se počet stránek zvětšuje se různorodost zvětšuje se počet uživatel různé algoritmy vyhledávačů efektivita závisí na výběru dotazů

Relevance relevance závisí nejen na obsahu na vstupním a výstupním stupni o relevanci vypovídá více prohlížení než zpracování dotazu uživatelé berou v úvahu předchozí stránky

Relevance 2 Relevantní stránka p s kladným vstupním stupněm stránka odkazující na p je relevantní odkaz umožní získat relevantní data Relevantní stránka q s kladným výstupním stupněm q je relevantnější než p odkaz přinese další relevantní data

Měření efektivnosti Přesnost a úplnost neberou v úvahu odkazy mezi dokumenty Nové míry změny v počtu relevantních stránek po použití odkazu B(q) - stránky získané zpracováním dotazu B(q, i) - stránky získané po použití odkazu i z B(q) uživatele zajímají nově získané relevantní stránky uživatele více obtěžují nově získané nerelevantní stránky

Měření efektivnosti Novelty V Noise S poměr počtu nových relevantních stránek v daném kroku vůči počtu všech relevantních stránek efektivita procházení webu úplnost je speciálním případem novelty Noise S poměr počtu nových nerelevantních stránek v daném kroku vůči počtu všech nově získaných stránek cena procházení webu doplněk přesnosti je speciálním případem noise

Měření efektivnosti B(q. i) B(q) B(q, i, j) B(q) AND R B(q, i, j) AND NOT B(q, i) AND NOT B(q) AND R Relevantní stránky (R) B(q, i) AND NOT B(q) AND R

Měření efektivnosti novelty = úplnost = 1/3 noise = 1-přesnost = 4/5 novelty = 1/3 noise = 4/6 novelty = 0 noise = 3/6

Rozsah Databáze vyhledávačů se málo překrývají S větším množstvím zaindexovaných stránek roste úplnost a klesá přesnost Efektivnost vyhledávacích robotů

Předmět dotazu Efektivita vyhledávače může záviset na typu dotazu Množiny vrácených dotazů mohou být rozdílné Testovací dotazy by měly být „nezaujaté“

Rozhraní Rozdílní uživatelé Technologie

Zdroje: Maristella Agosti and Massimo Melucci: Information Retrieval on the Web Wikipedia (www.wikipedia.org)