Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilBřetislav Švec
1
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů
Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství
2
Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
3
Vektorový model vyhledávání dokumentů
Princip (1): Dokumenty D1 , …, DN i dotaz Q chápány jako vektory Dokument Di : Wi,j je váha (klíčového) slova Sj (j = 1, …K) Dotaz Q:
4
Vektorový model vyhledávání dokumentů
Princip (2): Počítá se míra podobnosti mezi dotazem a dokumentem jako míra podobnosti dvou vektorů. Míra podobnosti se použije pro: sestupné uspořádání vyhledaných dokumentů omezení počtu dokumentů poskytovaných uživateli optimalizaci dotazu na základě již nalezených podobných dokumentů
5
Míra podobnosti dotazu a dokumentu
Dokument D: Dotaz Q: Kosinová míra: Diceova míra:
6
Vektorový model – příklad (kosinová míra)
7
Vektorový model – poznámky
Je více možností, jak počítat míru podobnosti dvou vektorů. Problém je mimo jiné ve vzájemné závislosti jednotlivých slov. (Použití slova "CD-ROM" např. zvyšuje pravděpodobnost použití slova "Informace".) Výhodou je možnost snadného přeformulování dotazu na základě již nalezených relevantních dokumentů. Nezahrnuje logické spojky, tedy např. nerozliší dotazy „Windows OR Unix" a „Windows AND Unix“. Předmět výzkumu, viz např.: Václav Snášel: Jednotná teorie vyhledávacích problémů viz
8
Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
9
Automatická klasifikace dokumentů
CÍL: Rozdělit dokumenty do shluků (clusterů) vzájemně podobných dokumentů tak, aby bylo možno: operací typu browse prohlížet podobné dokumenty k jednomu nalezenému využít shluky k vyhledávání podle podobnosti dokumentů.
10
Příklad shluků – e-maily firmy ENRON
Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava
11
Metody vytváření shluků
Shluková analýza je disciplína matematické statistiky pracující s obecnými objekty. Budeme se zabývat pouze dokumenty. Vychází se z matice koeficientů párových podobností dokumentů D1, … , DN. D D D … DN D1 D2 D3 . DN
12
Hierarchické metody vytváření shluků
DIVIZIVNÍ METODY: Na počátku tvoří všechny dokumenty jeden shluk, který se postupně dělí na menší shluky. AGLOMERATIVNÍ METODY: Na počátku tvoří každý dokument jeden shluk. Jednotlivé shluky se postupně sdružují do větších shluků.
13
Algoritmus aglomerativní metody
1) Spočti matici koeficientů párových podobností. 2) Z každého dokumentu vytvoř samostatný shluk. 3) Vytvoř nový shluk ze dvou nejpodobnějších shluků i a j. Z matice podobností vynechej řádky shluků i a j. Do matice podobností doplň řádek pro nový shluk. 4) Krok 3 opakuj tak dlouho, pokud jsou dva shluky které lze sloučit.
14
Příklad matice koeficientů párových podobností
Koeficient podobnosti může být pro jednoduchost určen např. jako počet stejných deskriptorů:
15
Vytvoření nového shluku (1)
B K M N Z B K M N Z nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) B K M NZ B K M NZ
16
Vytvoření nového shluku (2)
B K M NZ B K M NZ nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K NZ BM K NZ
17
Vytvoření nového shluku (3)
BM K NZ BM K NZ nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K(NZ) BM K(NZ)
18
Vytvořené shluky B M K N Z
19
Příklad shluků – e-maily firmy ENRON
Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava kosinová míra podobnosti ů
20
Výpočet koeficientu podobnosti dvou shluků
metoda nejbližšího souseda: Koeficient podobnosti shluků A, B = maximum ze všech koeficientů podobnosti (a, b), kde a je ze shluku A, b je ze shluku B. metoda nejvzdálenějšího souseda ... metoda průměru skupiny ...
21
Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání
22
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně
23
TOPIC - cíle Zpracovat a zpřístupnit data nemající formu databázových systémů Dosáhnout 2x lepší výsledky než klasické vyhledávací systémy Pracovat nezávisle na hardwarovém i softwarovém prostředí
24
TOPIC - poznámky 95% úplnost
poskytuje dokumenty setříděné podle zajímavosti nový standard ve vyhledávacích systémech Kosek J. - Šimůnek M.: Systém TOPIC - verze 4.0 VŠE, 1996, 63 s. firma Verity - firma Tovek -
25
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně
26
Systém TOPIC – jednoduchý dotaz „Internet“
27
TOPIC – příklad výsledku dotazu „Internet“
28
TOPIC – příklad výsledku dotazu „Internet“
29
TOPIC – jednoduchý dotaz „WWW“
30
TOPIC – příklad výsledku dotazu „WWW“
31
TOPIC – příklad výsledku dotazu „WWW“
32
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně
33
TOPIC – příklad tématického dotazu
Téma „ekonomie“ Ukázky jednoduchých dotazů Tématický dotaz
34
TOPIC – jednoduchý dotaz „ekonomie“
35
TOPIC – příklad výsledku dotazu „ekonomie“
36
TOPIC – jednoduchý dotaz „poptávka“
37
TOPIC – příklad výsledku dotazu „poptávka“
38
TOPIC – jednoduchý dotaz „nabídka“
39
TOPIC – příklad výsledku dotazu „nabídka“
40
TOPIC – příklad výsledku dotazu „nabídka“
!
41
TOPIC – jednoduchý dotaz „hrubý domácí produkt“
42
TOPIC – příklad výsledku dotazu „hrubý domácí produkt“
43
TOPIC – jednoduchý dotaz „HDP “
44
TOPIC – příklad výsledku dotazu „HDP“
45
TOPIC – tématický dotaz „ekonomie“
8. pro „ekonomie“ 1. pro „ekonomie“ 13. pro „HDP“ 10. pro „ekonomie“ 4. pro „nabídka“ 18. pro „HDP“
46
TOPIC – tématický dotaz „ekonomie“
47
TOPIC – tématický dotaz „ekonomie“
48
Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně
49
Topic v Národní knihovně
50
Topic v Národní knihovně
51
Topic v Národní knihovně
52
Topic v Národní knihovně
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.