1 Metavyhledávací stroj Jak vybudovat efektivní a výkonný Metavyhledávací stroj.

Slides:

Advertisements

Podobné prezentace

PLAYBOY Kalendar 2007.

Advertisements

PKML.

Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.

Města ČR – orientace na mapě

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.

Napoleon Bonaparte.

11 Udržovatelnost a servisní logistika

*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.

Příprava R&R studie Obsluha by měla měřit alespoň 10 dílů - nebo více Vyberte díly, které reprezentují výrobní proces z dlouhodobého hlediska Vyberte alespoň.

19.1 Odčítání v oboru do 100 s přechodem přes desítku

Diskrétní matematika Opakování - příklady.

Monitoring letové aktivity Návrh na zpracování výsledků.

Student: Ing. Olga Minaříková školitel: doc.akad.soch. Miroslav Zvonek, PhD. srpen 2009.

Téma 3 ODM, analýza prutové soustavy, řešení nosníků

Urči název a zařaď do příslušné skupiny

Dynamické rozvozní úlohy

Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .

Výzkumy volebních preferencí za ČR a kraje od

NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ

Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2

Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.

Nejmenší společný násobek

VY_32_INOVACE_INF_RO_12 Digitální učební materiál

Počítání s řemesly II. MALÍŘKA LÉKAŘKA ZDRAVOTNÍ SESTŘIČKA PRODAVAČKA

Animace Demo Animace - Úvodní animace 1. celé najednou.

Elektronická učebnice - I

MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.

VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)

Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.

Získávání informací Získání informací o reálném systému

Zábavná matematika.

Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA

Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA

Název školyIntegrovaná střední škola technická, Vysoké Mýto, Mládežnická 380 Číslo a název projektuCZ.1.07/1.5.00/ Inovace vzdělávacích metod EU.

Letokruhy Projekt žáků Střední lesnické školy a střední odborné školy sociální ve Šluknově.

Jazyk vývojových diagramů

Nejmenší společný násobek

Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.

Únorové počítání.

Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.

52_INOVACE_ZBO2_1364HO Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Rozvoj vzdělanosti.

Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.

73.1 Zaokrouhlování desetinných čísel

Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA

Náhoda, generátory náhodných čísel

Sexuální život u pacientů s mentálním postižením v ÚSP

Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)

Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.

SČÍTÁNÍ A ODČÍTÁNÍ V OBORU DO 100

TRUHLÁŘ II.ročník Výrobní zařízení Střední škola stavební Teplice

Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.

DĚLITELNOST Prvočísla Dělitel Násobek Znaky dělitelnosti Čísla složená.

DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ

Fyzika 2 – ZS_4 OPTIKA.

Vyhledávání podobností v datech s využitím singulárního rozkladu

Pojmy a interpretace.

Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2

1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.

Technické kreslení.

Úkoly nejen pro holky.

END 1.Přítelem 2.Druhem 3.Milencem 4.Bratrem 5.Otcem 6.Učitelem 7.Vychovatelem 8.Kuchařem 9.Elektrikářem 10.Instalatérem 11.Mechanikem 12.Návrhářem 13.Stylistou.

Přednost početních operací

DĚLENÍ ČÍSLEM 5 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ Zpracovala: Mgr. Jana Francová, výukový materiál EU-OP VK-III/2 ICT DUM 50.

Slovní úlohy řešené soustavou rovnic

ELEKTRICKÉ VLASTNOSTI LÁTEK

Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.

KONTROLNÍ PRÁCE.

Gymnázium, Broumov, Hradební 218

Autor: Ondřej Šimeček Verze: 1.1.3

Porovnání výroby a prodejů vozidel ve světě

Transkript prezentace:

1 Metavyhledávací stroj Jak vybudovat efektivní a výkonný Metavyhledávací stroj

2 Metavyhledávací stroj Co to je? Kde se používá? Jak funguje? Proč ho vůbec vytvářet?

3 Příklad Vyhledávač 1Vyhledávač 2Vyhledávač 3 Globální rozhraní

4 Ideální stroj Podmínky –Najde všechny relevantní dokumenty s co nejmenšími náklady –Seřadí všechny nalezené dokumenty podle užitečnosti pro uživatele V podstatě ale nelze udělat –Nevíme, co je pro uživatele užitečné Každý člověk se vyjadřuje jinak Ten samý člověk může chtít něco jiného v různou dobu

5 Užitečný dokument Podobnostní funkce –Určuje podobnost dokumentu a daného dotazu. Potenciálně užitečný dokument a)Je mezi n dotazu nejpodobnějšími dokumenty. b)Jeho podobnost dotazu je větší než zadaný práh. Obě podmínky jsou ekvivalentní.

6 Co budeme potřebovat… Výběrčí databáze –Vybere ty databáze, ve kterých jsou nějaké potenciálně užitečné dokumenty Výběrčí dokumentu –Z výsledků jednotlivých databází vybere ty správné dokumenty. Slučovač výsledků –Z částečných výsledků vrácených výběrčím dokumentu vybere n nejlepších.

7 Možné problémy Výběr se řídí podobnostními funkcemi Lokální vyhledávače jsou nezávislé Lokální vyhledávače jsou heterogenní –Indexační metoda, ohodnocování termů, podobnostní funkce, databáze, dokumenty Globální rozhraní a lokální vyhledávače jsou heterogenní

8 Co budeme potřebovat… Výběrčí databáze –Vybere ty databáze, ve kterých jsou nějaké potenciálně užitečné dokumenty Výběrčí dokumentu –Z výsledků jednotlivých databází vybere ty správné dokumenty. Slučovač výsledků –Z částečných výsledků vrácených výběrčím dokumentu vybere n nejlepších.

9 Výběr databází pro hledání Možné přístupy výběru –Naivní –Hrubý –Jakostní –Množstevní –Výběr založený na učení se

10 Naivní výběr Neprovádí žádnou selekci Dotaz se hledá ve všech databázích Výhody –Žádná data ani počítání navíc Nevýhody –Prohledávají se i databáze, kde se nic nenalezne

11 Výběr databází pro hledání Možné přístupy výběru –Naivní –Hrubý –Jakostní –Množstevní –Výběr založený na učení se

12 Hrubý přístup Výběrčí má informace o každé databázi –V textové formě daného formátu –Většinou psáno člověkem Výběrčí porovná podobnost uživatelova dotazu a informace o databázi Při určité shodě ji vybere pro dotaz, jinak zahodí

13 Výhody hrubého přístupu Malý objem redundantních dat Lehká rozšiřitelnost Informace se lehce získávají a udržují Čísla se lehce spočítají

14 Nevýhody hrubého přístupu Výsledné skóre databáze není samovysvětlující Nepřesnost ve výběru databáze –Nepočítá se, kolik je termů v dokumentu –Nepočítá se počet relevantních dokumentů v databázi

15 Výběr databází pro hledání Možné přístupy výběru –Naivní –Hrubý –Jakostní –Množstevní –Výběr založený na učení se

16 Jakostní přístup Značení –q = (t 1,..,t M ) značí dotaz na termy t 1,..,t M Jakostní přístup počítá vhodnost každé databáze vzhledem k dotazu q –Většinou je vhodnost vyjádřena jedním číslem –Seřadí databáze podle vhodnosti vzhledem k danému dotazu

17 D-WISE Metavyhledávač si pamatuje jedno číslo ke každé databázi Počítá s df ij –Počet dokumentů v databázi i, které obsahují term j U každé databáze i si pamatuji CV ij každého termu j

18 D-WISE CVV j je roztyl Cv ij r i je výsledné ohodnocení databáze i výběrčím databáze (M je počet termů v dotazu q) Čím větší r i, tím lepší dokumenty v databázi jsou CV ij vyjadřuje, jak moc odlišuje j-tý term databázi i od ostatních.

19 Výhody a nevýhody D-WISE Výhody –Málo místa potřebného navíc –Lehká škálovatelnost, jednoduché počítání Nevýhody –r i je těžko srozumitelné pro laika –Neberou se v úvahu frekvence termu v rámci dokumentu

20 CORI net Také používá df ij Přidává inverzní databázovou frekvenci –1/počet databází obsahující term j Počítá se nakonec s oběmi veličinami Zabírá dvakrát více místa než D-WISE Stejná metoda se dá použít ke spočítání užitečnosti dokumentu

21 gGlOSS Ke každé databázi si výběrčí pamatuje dvojici (df i,W i ) df i je počet dokumentů obsahující i-tý term W i součet vah i-tého termu ve všech dokumentech dané databáze Ke každému termu t i dotazu q je dána jeho váha q i Uživatel zadá práh T určující mezní podobnost Užitečnost databáze je součet podobností dokumentů, jež překročily mezní podobnost T gGlOSS používá dva přístupy, založené na rozdílných předpokladech

22 gGlOSS – předpoklad vysoké souvztažnosti Předpoklad –Pro každou databázi platí, že pokud term t j se vyskytuje alespoň v tolika dokumentech jako term t k, pak každý dokument obsahující t k obsahuje i t j Počet dokumentů s podobností je df 1 Obecně je df j – df j-1 dokumentů s podobností

23 gGlOSS – předpoklad vysoké souvztažnosti Nalezneme číslo p takové, že a) b) Výsledná vhodnost databáze je Což se rovná

24 gGlOSS – předpoklad nezávislosti Předpoklad –Pro každou databázi platí, že každý dokument obsahuje nejvýše jeden term t j z dotazu q Pak je vhodnost databáze

25 gGlOSS Problémy –Předpoklad vysoké souvztažnosti nadhodnocuje databázi –Předpoklad nezávislosti podhodnocuje databázi Řešení –Často se oba přístupy kombinují Dostaneme tím odhad shora a zdola

26 Výběr databází pro hledání Možné přístupy výběru –Naivní –Hrubý –Jakostní –Množstevní –Výběr založený na učení se

27 Množstevní přístup Jakostní přístup –Která databáze je nejvhodnější pro daný dotaz Množstevní přístup –Jak moc je která databáze vhodná pro dotaz –Nejlépe kolik se v které databázi nalézá relevantních dokumentů Budeme potřebovat informace o jednotlivých dokumentech

28 Množstevní přístup - BIM Binary independet model –Víme dokumentové frekvence termů –Víme pravděpodobnosti výskytu termů –U X s je pravděpodobnost, že nějaký dokument má podobnost s s dotazem q –Sečteme tedy všechny koeficienty u X s, pro s>T Součet*N je počet užitečných dokumentů v databázi

29 Množstevní přístup - BDM Binary dependent model –Stále binární model –Pamatujeme si ale i závislosti mezi termy Dvojice, trojice,…, n-tice termů –Náročné na místo Máme uloženy pouze významné závislosti

30 Výběr databází pro hledání Možné přístupy výběru –Naivní –Hrubý –Jakostní –Množstevní –Výběr založený na učení se

31 Výběr založený na učení se Myšlenka –Výběrčí si pro každou databázi zapamatuje dobré dokumenty vrátila na daný dotaz Pro každou databázi mám vektor (w 1,..,w n ) w i je míra zastoupenosti termu i v databázi –tzn. kolik je tam dokumentů obsahujících term i

32 Výběr založený na učení se S q,e – jak moc je databáze dobrá na dotaz q I t i – inverzní frekvence termu t i p h – potrestání za málo dokumentů p r - potrestání za dlouhý čas odezvy

33 Výběr založený na učení se Myšlenka –Váhu w i každého termu t i použitého v dotazu q změním Zmenším, pokud jsem nic nenašel Zvětším, pokud jsem něco našel –Změním o 1/k (k je počet termů v dotazu)

34 Výhody a nevýhody výběru založeném na učení se Málo dat navíc – w i a I i Střední úsilí na obnovu informace Není moc přesná Všechny termy v dotazu penalizovány/odměněny stejně Nefunguje dobře ze začátku a pro termy, které nebyly mnohokrát použity

35 Srovnání přístupů Přesnost Škálovatelnost Udržovatelnost

36 Přesnost Jak dobře odhaduje použitelnost dané databáze –Naivní –Hrubý Lepší než naivní –Jakostní D-WISE,gGlOSS,CORI net –Množstevní –Založený na učení se

37 Škálovatelnost Záleží na množství uložených dat –Naivní –Hrubý –Jakostní D-WISE – m, gGlOSS, CORI net – 2m –Množstevní –Založený na učení se 2cm

38 Udržovatelnost Jak snadno se informace shromažďují a udržují –Naivní –Hrubý –Jakostní –Množstevní –Založený na učení se

39 Co budeme potřebovat… Výběrčí databáze –Vybere ty databáze, ve kterých jsou nějaké potenciálně užitečné dokumenty Výběrčí dokumentů –Z výsledků jednotlivých databází vybere ty správné dokumenty. Slučovač výsledků –Z částečných výsledků vrácených výběrčím dokumentu vybere n nejlepších.

40 Výběrčí dokumentů Pro každou databázi vybere správný počet relevantních záznamů Relevantních = podle globální podobnostní funkce Správný počet je zadán uživatelem

41 Možné přístupy výběrčího dokumentů Místní rozhodnutí Uživatelovo rozhodnutí Vážená alokace Přístupy založené na učení se Zaručený výběr

42 Místní rozhodnutí Místní systémy určí, kolik dokumentů vrátit Problém –Nevíme, kolik to bude Můžeme dostat tisíce dokumentů

43 Uživatelovo rozhodnutí Uživatel rozhodne, kolik dokumentů chce z které databáze vybrat –Když nerozhodne, vezme se předvolená hodnota Problémy –Při velkém počtu databází může být pro uživatele otravné –Při nezadání se vybírají nezajímavé a zahazují zajímavé dokumenty

44 Vážená alokace Každá databáze je označena číslem, jak dobře je dotaz databází pokryt Číslo může být –Stejné jako u jakostního přístupu –Stejné jako u množstevního přístupu –Počet dokumentů s podobností větší než daná mez –…

45 Vážená alokace v D-WISE Použijí se ohodnocení databáze r i Chceme celkem n dokumentů z N databází Z i-té vybereme

46 Vážená alokace v CORI net Chceme opět n dokumentů z N databází Máme seřazené databáze podle užitečnosti Z i-té databáze vybereme

47 Přístupy založené na učení se Používá trénovací dotazy První možnost –Každé databázi je přiřazen vektor –r i – minimální počet dokumentů k vybrání, aby v nich bylo i relevantních Druhá možnost –Shlukneme podobné dotazy a spočítáme centroid shluku Ke každé databázi a shluk i si pamatujeme w i – počet relevantních dokumentů mezi T nejvýše ohodnocenými –Dotaz umístíme do nejpodobnějšího shluku –Z i-té databáze vybereme dokumentů

48 Zaručený výběr G – globální podobnostní funkce L – lokální podobnostní funkce Chceme zjistit práh T’, aby když G(q,d)>T platilo, že L(q,d)>T’ První krok –Seřadíme databáze podle G(q,d), kde d je nejvýše postavený dokument ve výsledku dané databáze

49 Zaručený výběr Druhý krok –a) Z s nejlepších databází vyber nejlepší dokumenty –b) Spočti o=min G(q,d) pro tyto dokumenty –c) Vyber všechny dokumenty, jejichž G(q,d) je větší než o –d) Máš-li víc než n dokumentů, pak skonči –e) Podívej se na nejlepší dokument s+1-ní databáze. o=min (o,G(q,d)) –f) Běž na krok c)

50 Zaručený výběr Lze dokázat, že tento postup vydá n nejlépe dotazu odpovídajících dokumentů

51 Co budeme potřebovat… Výběrčí databáze –Vybere ty databáze, ve kterých jsou nějaké potenciálně užitečné dokumenty Výběrčí dokumentu –Z výsledků jednotlivých databází vybere ty správné dokumenty. Slučovač výsledků –Z částečných výsledků vrácených výběrčím dokumentu vybere n nejlepších.

52 Slučovač výsledků Jak sloučit výsledky různých databází do jednoho konzistentního výstupu? Problémy –Lokální určení vhodnosti –Různá indexace (výtahy, celé dokumenty) –Ořezávání slov na jejich kořeny –Inverzní frekvence termů

53 Metody řešení Normalizace podobností –Normalizuje různé podobnosti na jeden fixní rozsah Upravení podobností –Upraví lokální podobnosti na základě dalších informací Odhadnutí podobností –Odhadne globální podobnost vrácených dokumentů

54 Normalizace podobností Problém –Lokální podobnosti mohou mít různý rozsah –(0,1), [1,1000],… Řešení –Převedu na horní mez rozsahu nejlepší dokument a určím koeficient k –Přenásobím koeficientem k všechny L(q,d) zbylých dokumentů

55 Upravení pravděpodobností Upraví lokální podobnosti na základě ohodnocení vhodnosti databáze Spočteme váhu databáze –Někdy již už máme spočtenou Např. u kvalitativního a kvantitativního přístupu Lokální podobnost se zohlední vůči váze databáze

56 Odhadnutí podobností První metoda – přinesení dokumentů –Stáhnu celé dokumenty z databáze –Spočtu frekvence termů –Vyber n nejlepších Problémy –Pomalé Můžu je ale stahovat paralelně z jednotlivých databází Lze tolerovat u malých dokumentů

57 Odhadnutí podobností Druhá metoda – získání znalostí –Musíme znát lokální podobnostní funkci –Přídavnými dotazy zjistíme další údaje Např. pokud je lokální fce lze pomocí dotazů na jednotlivé q i získat váhy termů v databázi. Nevýhody –Musíme znát lokální funkci

58 Slučovač výsledků Porovnání –Normalizace podobností Snadné na implementování Nejsou potřeba žádné další informace Pouze heuristika –Upravení pravděpodobností Snadné na implementování Nejsou potřeba žádné další informace Pouze heuristika –Odhadnutí podobností Přesnější Ale dražší, nelze použít vždy…

59 Závěr Pro Metavyhledávací stroj potřebujeme tři komponenty –Výběrčí databází, Výběrčí dokumentů a Slučovač výsledků Každou z nich lze položit na jiné myšlence Je ještě spousta problémů a aspektů ke zdokonalení a výzkumu