Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.

Podobné prezentace


Prezentace na téma: "Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."— Transkript prezentace:

1 Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů
Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

2 Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

3 Vektorový model vyhledávání dokumentů
Princip (1): Dokumenty D1 , …, DN i dotaz Q chápány jako vektory Dokument Di : Wi,j je váha (klíčového) slova Sj (j = 1, …K) Dotaz Q:

4 Vektorový model vyhledávání dokumentů
Princip (2): Počítá se míra podobnosti mezi dotazem a dokumentem jako míra podobnosti dvou vektorů. Míra podobnosti se použije pro: sestupné uspořádání vyhledaných dokumentů omezení počtu dokumentů poskytovaných uživateli optimalizaci dotazu na základě již nalezených podobných dokumentů

5 Míra podobnosti dotazu a dokumentu
Dokument D: Dotaz Q: Kosinová míra: Diceova míra:

6 Vektorový model – příklad (kosinová míra)

7 Vektorový model – poznámky
Je více možností, jak počítat míru podobnosti dvou vektorů. Problém je mimo jiné ve vzájemné závislosti jednotlivých slov. (Použití slova "CD-ROM" např. zvyšuje pravděpodobnost použití slova "Informace".) Výhodou je možnost snadného přeformulování dotazu na základě již nalezených relevantních dokumentů. Nezahrnuje logické spojky, tedy např. nerozliší dotazy „Windows OR Unix" a „Windows AND Unix“. Předmět výzkumu, viz např.: Václav Snášel: Jednotná teorie vyhledávacích problémů viz

8 Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

9 Automatická klasifikace dokumentů
CÍL: Rozdělit dokumenty do shluků (clusterů) vzájemně podobných dokumentů tak, aby bylo možno: operací typu browse prohlížet podobné dokumenty k jednomu nalezenému využít shluky k vyhledávání podle podobnosti dokumentů.

10 Příklad shluků – e-maily firmy ENRON
Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava

11 Metody vytváření shluků
Shluková analýza je disciplína matematické statistiky pracující s obecnými objekty. Budeme se zabývat pouze dokumenty. Vychází se z matice koeficientů párových podobností dokumentů D1, … , DN. D D D … DN D1 D2 D3 . DN

12 Hierarchické metody vytváření shluků
DIVIZIVNÍ METODY: Na počátku tvoří všechny dokumenty jeden shluk, který se postupně dělí na menší shluky. AGLOMERATIVNÍ METODY: Na počátku tvoří každý dokument jeden shluk. Jednotlivé shluky se postupně sdružují do větších shluků.

13 Algoritmus aglomerativní metody
1) Spočti matici koeficientů párových podobností. 2) Z každého dokumentu vytvoř samostatný shluk. 3) Vytvoř nový shluk ze dvou nejpodobnějších shluků i a j. Z matice podobností vynechej řádky shluků i a j. Do matice podobností doplň řádek pro nový shluk. 4) Krok 3 opakuj tak dlouho, pokud jsou dva shluky které lze sloučit.

14 Příklad matice koeficientů párových podobností
Koeficient podobnosti může být pro jednoduchost určen např. jako počet stejných deskriptorů:

15 Vytvoření nového shluku (1)
B K M N Z B K M N Z nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) B K M NZ B K M NZ

16 Vytvoření nového shluku (2)
B K M NZ B K M NZ nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K NZ BM K NZ

17 Vytvoření nového shluku (3)
BM K NZ BM K NZ nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K(NZ) BM K(NZ)

18 Vytvořené shluky B M K N Z

19 Příklad shluků – e-maily firmy ENRON
Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava kosinová míra podobnosti ů

20 Výpočet koeficientu podobnosti dvou shluků
metoda nejbližšího souseda: Koeficient podobnosti shluků A, B = maximum ze všech koeficientů podobnosti (a, b), kde a je ze shluku A, b je ze shluku B. metoda nejvzdálenějšího souseda ... metoda průměru skupiny ...

21 Další přístupy k ukládání a vyhledávání textových dokumentů
Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

22 Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně

23 TOPIC - cíle Zpracovat a zpřístupnit data nemající formu databázových systémů Dosáhnout 2x lepší výsledky než klasické vyhledávací systémy Pracovat nezávisle na hardwarovém i softwarovém prostředí

24 TOPIC - poznámky 95% úplnost
poskytuje dokumenty setříděné podle zajímavosti nový standard ve vyhledávacích systémech Kosek J. - Šimůnek M.: Systém TOPIC - verze 4.0 VŠE, 1996, 63 s. firma Verity - firma Tovek -

25 Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně

26 Systém TOPIC – jednoduchý dotaz „Internet“

27 TOPIC – příklad výsledku dotazu „Internet“

28 TOPIC – příklad výsledku dotazu „Internet“

29 TOPIC – jednoduchý dotaz „WWW“

30 TOPIC – příklad výsledku dotazu „WWW“

31 TOPIC – příklad výsledku dotazu „WWW“

32 Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně

33 TOPIC – příklad tématického dotazu
Téma „ekonomie“ Ukázky jednoduchých dotazů Tématický dotaz

34 TOPIC – jednoduchý dotaz „ekonomie“

35 TOPIC – příklad výsledku dotazu „ekonomie“

36 TOPIC – jednoduchý dotaz „poptávka“

37 TOPIC – příklad výsledku dotazu „poptávka“

38 TOPIC – jednoduchý dotaz „nabídka“

39 TOPIC – příklad výsledku dotazu „nabídka“

40 TOPIC – příklad výsledku dotazu „nabídka“
!

41 TOPIC – jednoduchý dotaz „hrubý domácí produkt“

42 TOPIC – příklad výsledku dotazu „hrubý domácí produkt“

43 TOPIC – jednoduchý dotaz „HDP “

44 TOPIC – příklad výsledku dotazu „HDP“

45 TOPIC – tématický dotaz „ekonomie“
8. pro „ekonomie“ 1. pro „ekonomie“ 13. pro „HDP“ 10. pro „ekonomie“ 4. pro „nabídka“ 18. pro „HDP“

46 TOPIC – tématický dotaz „ekonomie“

47 TOPIC – tématický dotaz „ekonomie“

48 Systém TOPIC Úvod, princip Příklady jednoduchých dotazů
Příklad tématického dotazu Topic v Národní knihovně

49 Topic v Národní knihovně

50 Topic v Národní knihovně

51 Topic v Národní knihovně

52 Topic v Národní knihovně


Stáhnout ppt "Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."

Podobné prezentace


Reklamy Google