Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
Vektorový model vyhledávání dokumentů Princip (1): Dokumenty D1 , …, DN i dotaz Q chápány jako vektory Dokument Di : Wi,j je váha (klíčového) slova Sj (j = 1, …K) Dotaz Q:
Vektorový model vyhledávání dokumentů Princip (2): Počítá se míra podobnosti mezi dotazem a dokumentem jako míra podobnosti dvou vektorů. Míra podobnosti se použije pro: sestupné uspořádání vyhledaných dokumentů omezení počtu dokumentů poskytovaných uživateli optimalizaci dotazu na základě již nalezených podobných dokumentů
Míra podobnosti dotazu a dokumentu Dokument D: Dotaz Q: Kosinová míra: Diceova míra:
Vektorový model – příklad (kosinová míra)
Vektorový model – poznámky Je více možností, jak počítat míru podobnosti dvou vektorů. Problém je mimo jiné ve vzájemné závislosti jednotlivých slov. (Použití slova "CD-ROM" např. zvyšuje pravděpodobnost použití slova "Informace".) Výhodou je možnost snadného přeformulování dotazu na základě již nalezených relevantních dokumentů. Nezahrnuje logické spojky, tedy např. nerozliší dotazy „Windows OR Unix" a „Windows AND Unix“. Předmět výzkumu, viz např.: Václav Snášel: Jednotná teorie vyhledávacích problémů viz http://keg.vse.cz/seminar.php?datetime=2005-03-24
Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
Automatická klasifikace dokumentů CÍL: Rozdělit dokumenty do shluků (clusterů) vzájemně podobných dokumentů tak, aby bylo možno: operací typu browse prohlížet podobné dokumenty k jednomu nalezenému využít shluky k vyhledávání podle podobnosti dokumentů.
Příklad shluků – e-maily firmy ENRON Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava
Metody vytváření shluků Shluková analýza je disciplína matematické statistiky pracující s obecnými objekty. Budeme se zabývat pouze dokumenty. Vychází se z matice koeficientů párových podobností dokumentů D1, … , DN. D1 D2 D3 .… DN D1 D2 D3 . DN
Hierarchické metody vytváření shluků DIVIZIVNÍ METODY: Na počátku tvoří všechny dokumenty jeden shluk, který se postupně dělí na menší shluky. AGLOMERATIVNÍ METODY: Na počátku tvoří každý dokument jeden shluk. Jednotlivé shluky se postupně sdružují do větších shluků.
Algoritmus aglomerativní metody 1) Spočti matici koeficientů párových podobností. 2) Z každého dokumentu vytvoř samostatný shluk. 3) Vytvoř nový shluk ze dvou nejpodobnějších shluků i a j. Z matice podobností vynechej řádky shluků i a j. Do matice podobností doplň řádek pro nový shluk. 4) Krok 3 opakuj tak dlouho, pokud jsou dva shluky které lze sloučit.
Příklad matice koeficientů párových podobností Koeficient podobnosti může být pro jednoduchost určen např. jako počet stejných deskriptorů:
Vytvoření nového shluku (1) B K M N Z B . 3 8 6 4 K 3 . 3 8 8 M 8 3 . 5 4 N 6 8 5 . 9 Z 4 6 4 9 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) B K M NZ B . 3 8 6 K 3 . 3 8 M 8 3 . 5 NZ 6 8 5 .
Vytvoření nového shluku (2) B K M NZ B . 3 8 6 K 3 . 3 8 M 8 3 . 5 NZ 6 8 5 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K NZ BM . 3 6 K 3 . 8 NZ 6 8 .
Vytvoření nového shluku (3) BM K NZ BM . 3 6 K 3 . 8 NZ 6 8 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K(NZ) BM . 6 K(NZ) 6 .
Vytvořené shluky B M K N Z
Příklad shluků – e-maily firmy ENRON Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava kosinová míra podobnosti e-mailů
Výpočet koeficientu podobnosti dvou shluků metoda nejbližšího souseda: Koeficient podobnosti shluků A, B = maximum ze všech koeficientů podobnosti (a, b), kde a je ze shluku A, b je ze shluku B. metoda nejvzdálenějšího souseda ... metoda průměru skupiny ...
Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně
TOPIC - cíle Zpracovat a zpřístupnit data nemající formu databázových systémů Dosáhnout 2x lepší výsledky než klasické vyhledávací systémy Pracovat nezávisle na hardwarovém i softwarovém prostředí
TOPIC - poznámky 95% úplnost poskytuje dokumenty setříděné podle zajímavosti nový standard ve vyhledávacích systémech Kosek J. - Šimůnek M.: Systém TOPIC - verze 4.0 VŠE, 1996, 63 s. firma Verity - http://www.verity.com/ firma Tovek - http://www.tovek.cz/
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně
Systém TOPIC – jednoduchý dotaz „Internet“
TOPIC – příklad výsledku dotazu „Internet“
TOPIC – příklad výsledku dotazu „Internet“
TOPIC – jednoduchý dotaz „WWW“
TOPIC – příklad výsledku dotazu „WWW“
TOPIC – příklad výsledku dotazu „WWW“
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně
TOPIC – příklad tématického dotazu Téma „ekonomie“ Ukázky jednoduchých dotazů Tématický dotaz
TOPIC – jednoduchý dotaz „ekonomie“
TOPIC – příklad výsledku dotazu „ekonomie“
TOPIC – jednoduchý dotaz „poptávka“
TOPIC – příklad výsledku dotazu „poptávka“
TOPIC – jednoduchý dotaz „nabídka“
TOPIC – příklad výsledku dotazu „nabídka“
TOPIC – příklad výsledku dotazu „nabídka“ !
TOPIC – jednoduchý dotaz „hrubý domácí produkt“
TOPIC – příklad výsledku dotazu „hrubý domácí produkt“
TOPIC – jednoduchý dotaz „HDP “
TOPIC – příklad výsledku dotazu „HDP“
TOPIC – tématický dotaz „ekonomie“ 8. pro „ekonomie“ 1. pro „ekonomie“ 13. pro „HDP“ 10. pro „ekonomie“ 4. pro „nabídka“ 18. pro „HDP“
TOPIC – tématický dotaz „ekonomie“
TOPIC – tématický dotaz „ekonomie“
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně
Topic v Národní knihovně
Topic v Národní knihovně
Topic v Národní knihovně
Topic v Národní knihovně