Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.

Podobné prezentace


Prezentace na téma: "Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."— Transkript prezentace:

1 Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

2 2 Další přístupy k ukládání a vyhledávání textových dokumentů  Vektorový model  Automatická klasifikace dokumentů  Systém TOPIC – pojmové vyhledávání

3 3 Princip (1): Dokumenty D 1, …, D N i dotaz Q chápány jako vektory Dokument D i : Vektorový model vyhledávání dokumentů W i,j je váha (klíčového) slova S j (j = 1, …K) Dotaz Q:

4 4 Princip (2): Počítá se míra podobnosti mezi dotazem a dokumentem jako míra podobnosti dvou vektorů. Míra podobnosti se použije pro:  sestupné uspořádání vyhledaných dokumentů  omezení počtu dokumentů poskytovaných uživateli  optimalizaci dotazu na základě již nalezených podobných dokumentů Vektorový model vyhledávání dokumentů

5 5 Dokument D: Dotaz Q: Kosinová míra: Diceova míra: Míra podobnosti dotazu a dokumentu

6 6 Vektorový model – příklad (kosinová míra)

7 7  Je více možností, jak počítat míru podobnosti dvou vektorů.  Problém je mimo jiné ve vzájemné závislosti jednotlivých slov. (Použití slova "CD-ROM" např. zvyšuje pravděpodobnost použití slova "Informace".)  Výhodou je možnost snadného přeformulování dotazu na základě již nalezených relevantních dokumentů.  Nezahrnuje logické spojky, tedy např. nerozliší dotazy „Windows OR Unix" a „Windows AND Unix“.  Předmět výzkumu, viz např.: Václav Snášel: Jednotná teorie vyhledávacích problémů viz Vektorový model – poznámky

8 8 Další přístupy k ukládání a vyhledávání textových dokumentů  Vektorový model  Automatická klasifikace dokumentů  Systém TOPIC – pojmové vyhledávání

9 9 CÍL: Rozdělit dokumenty do shluků (clusterů) vzájemně podobných dokumentů tak, aby bylo možno:  operací typu browse prohlížet podobné dokumenty k jednomu nalezenému  využít shluky k vyhledávání podle podobnosti dokumentů. Automatická klasifikace dokumentů

10 10 Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava Příklad shluků – y firmy ENRON

11 11 Shluková analýza je disciplína matematické statistiky pracující s obecnými objekty. Budeme se zabývat pouze dokumenty. Vychází se z matice koeficientů párových podobností dokumentů D 1, …, D N. D 1 D 2 D 3. D N D 1 D 2 D 3. … D N Metody vytváření shluků

12 12 DIVIZIVNÍ METODY: Na počátku tvoří všechny dokumenty jeden shluk, který se postupně dělí na menší shluky. AGLOMERATIVNÍ METODY: Na počátku tvoří každý dokument jeden shluk. Jednotlivé shluky se postupně sdružují do větších shluků. Hierarchické metody vytváření shluků

13 13 1) Spočti matici koeficientů párových podobností. 2) Z každého dokumentu vytvoř samostatný shluk. 3) Vytvoř nový shluk ze dvou nejpodobnějších shluků i a j. Z matice podobností vynechej řádky shluků i a j. Do matice podobností doplň řádek pro nový shluk. 4) Krok 3 opakuj tak dlouho, pokud jsou dva shluky které lze sloučit. Algoritmus aglomerativní metody

14 14 Koeficient podobnosti může být pro jednoduchost určen např. jako počet stejných deskriptorů: Příklad matice koeficientů párových podobností

15 15 nový shluk: dva nejpodobnější shluky B K M N Z B K M N Z Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) B K M NZ B K M NZ Vytvoření nového shluku (1)

16 16 B K M NZ B K M NZ nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K NZ BM. 3 6 K 3. 8 NZ 6 8. Vytvoření nového shluku (2)

17 17 BM K NZ BM. 3 6 K 3. 8 NZ 6 8. nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K(NZ) BM. 6 K(NZ) 6. Vytvoření nového shluku (3)

18 18 B M K N Z Vytvořené shluky

19 19 Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava Příklad shluků – y firmy ENRON kosinová míra podobnosti ů

20 20  metoda nejbližšího souseda: Koeficient podobnosti shluků A, B = maximum ze všech koeficientů podobnosti (a, b), kde a je ze shluku A, b je ze shluku B.  metoda nejvzdálenějšího souseda...  metoda průměru skupiny... Výpočet koeficientu podobnosti dvou shluků

21 21 Další přístupy k ukládání a vyhledávání textových dokumentů  Vektorový model  Automatická klasifikace dokumentů  Systém TOPIC – pojmové vyhledávání

22 22 Systém TOPIC  Úvod, princip  Příklady jednoduchých dotazů  Příklad tématického dotazu  Topic v Národní knihovně

23 23 TOPIC - cíle  Zpracovat a zpřístupnit data nemající formu databázových systémů  Dosáhnout 2x lepší výsledky než klasické vyhledávací systémy  Pracovat nezávisle na hardwarovém i softwarovém prostředí

24 24  95% úplnost  poskytuje dokumenty setříděné podle zajímavosti  nový standard ve vyhledávacích systémech  Kosek J. - Šimůnek M.: Systém TOPIC - verze 4.0 VŠE, 1996, 63 s.  firma Verity -  firma Tovek - TOPIC - poznámky

25 25 Systém TOPIC  Úvod, princip  Příklady jednoduchých dotazů  Příklad tématického dotazu  Topic v Národní knihovně

26 26 Systém TOPIC – jednoduchý dotaz „Internet“

27 27 TOPIC – příklad výsledku dotazu „Internet“

28 28 TOPIC – příklad výsledku dotazu „Internet“

29 29 TOPIC – jednoduchý dotaz „WWW“

30 30 TOPIC – příklad výsledku dotazu „WWW“

31 31 TOPIC – příklad výsledku dotazu „WWW“

32 32 Systém TOPIC  Úvod, princip  Příklady jednoduchých dotazů  Příklad tématického dotazu  Topic v Národní knihovně

33 33 Téma „ekonomie“ TOPIC – příklad tématického dotazu  Ukázky jednoduchých dotazů  Tématický dotaz

34 34 TOPIC – jednoduchý dotaz „ekonomie“

35 35 TOPIC – příklad výsledku dotazu „ekonomie“

36 36 TOPIC – jednoduchý dotaz „poptávka“

37 37 TOPIC – příklad výsledku dotazu „poptávka“

38 38 TOPIC – jednoduchý dotaz „nabídka“

39 39 TOPIC – příklad výsledku dotazu „nabídka“

40 40 TOPIC – příklad výsledku dotazu „nabídka“ !

41 41 TOPIC – jednoduchý dotaz „hrubý domácí produkt“

42 42 TOPIC – příklad výsledku dotazu „hrubý domácí produkt“

43 43 TOPIC – jednoduchý dotaz „HDP “

44 44 TOPIC – příklad výsledku dotazu „HDP“

45 45 4. pro „nabídka“ 1. pro „ekonomie“ 8. pro „ekonomie“ 10. pro „ekonomie“ 13. pro „HDP“ 18. pro „HDP“ TOPIC – tématický dotaz „ekonomie“

46 46 TOPIC – tématický dotaz „ekonomie“

47 47 TOPIC – tématický dotaz „ekonomie“

48 48 Systém TOPIC  Úvod, princip  Příklady jednoduchých dotazů  Příklad tématického dotazu  Topic v Národní knihovně

49 49 Topic v Národní knihovně

50 50 Topic v Národní knihovně

51 51 Topic v Národní knihovně

52 52 Topic v Národní knihovně


Stáhnout ppt "Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."

Podobné prezentace


Reklamy Google