Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 1 / 12 Vyhledávání informací a multimediální aplikace Information.

Podobné prezentace


Prezentace na téma: "Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 1 / 12 Vyhledávání informací a multimediální aplikace Information."— Transkript prezentace:

1 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 1 / 12 Vyhledávání informací a multimediální aplikace Information Retrieval and Multimedia Applications [ ]http://www.fit.vutbr.cz/~chmelarp/pdb/ [ ]http://www.dcs.gla.ac.uk/ssms07/material.html

2 2 Vědecké paradigma Teorie Experiment Realita Top-down approach Bottom-up approach Věda čtení myšlení psaní

3 3 Konceptuální úroveň Geometrická logická úroveň Obraz fyzická úroveň Reprezentace Vnímání Semantic Gap Vidění Binární reprezentace

4 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 4 / 12 Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IR je vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]

5 5 Objekt IR Vstupy / výstupy  Dokument Novinové články, web… Fotografie Řeč a zvuk Video  Dotaz Cokoliv ▲ Relevance? za následující odbočkou …

6 6 Pozadí  Data Strukturovaná Čísla Písmena Slova  Informace Rozdíl? ▲ Relevance? … DotazováníIR potřeba data shodná informace relevantní dotaz strukturovaný kompletní přirozený nekompletní odvození dedukceindukce shoda přesnánejlepší možná model deterministickýpravděpodobnostní … přisoudíme význam smysl v daný okamžik

7 7 Modely Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB:  Jaké dokumenty mají být výsledkem dotazu?  Jaké bude jejich uspořádání pro prezentaci uživateli?  Klasické modely Booleovský model Pravděpodobnostní modely Vektorové modely  Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … QueryDocument Evaluation Model

8 8 Klasický booleovský model Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. Termy jsou obvykle podstatná jména (bez některých vybraných). Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). Dotazy jsou tvořeny termy a logickými spojkami and, or, not a závorkami. Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… Binární porovnávání  Jednoduché  Jaccardovo Diceovo Kosinové

9 9 Teorie informace Term frequency  četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu  váha termínu - důležitost Inverse document frequency  inverzní log četnosti dokumentů, ve kterých se tem vyskytuje  informační hodnota termínu [ Shannon, Keith ]

10 10 Vektorový model Váhový vektor přiřazen dotazu q i dokumentům d j … pak vzdálenost (kosinová) je ale může být i Eukleidovská, nebo dokonce Manhattan. O vzdálenosti platí: dist(x, y) ≥ 0 dist(x, x) = 0 dist(x, y) = dist(y, x) dist(x, y) ≤ dist(x, z) + dist(z, y) → navazující přednáška  q djdj

11 11 Pravděpodobnostní model Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. Řešení: Bayesem marginal probability  A P(B | a i )P(a i ) likehood prior information posterior probability

12 12 Probability ranking principle Princip ohodnocení dle pravděpodobnosti Potřebujeme zjistit relevanci (True / False) daného dokumentu P(T | d): Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantního dokumentu to bude d.   je relevantní

13 13 Taxonomie Úplnost Přesnost

14 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 14 / 12 Experiment. Funguje teorie?  Text TREC evaluace a porovnání … relevance systémů  WWW Google, Yahoo, Altavista, Jyxo, Seznam, …  Multimedia? TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, …

15 15 Fulltextové databáze Fulltextové vyhledávací funkce v databázích Oracle create index docs_index on docs(text) indextype is ctxsys.context; select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0 order by ctxsys.score(1) desc; MySQL ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); SELECT * FROM Clanky WHERE MATCH(nazev, anotace, text) AGAINST (‘vyhledávání informací’ IN BOOLEAN MODE);

16 16 TRECVid  Video data 100h (2007) + 156h (2006) + 140h (2005) (předtím) Shot detection, ASR, MT, … Annotations  Tasks Shot boundary detection Detecting semantic concepts / features (39) [ Alan Smeaton ] Searching based on topics  Automatic  Manual  Interactive Automatic summarization LSCOM Large Scale Concept Ontology for Mm

17 17 Koncepty [ Cees Noek ]

18 18 Multimodalita Kombinace více způsobů… [ Alex Hauptmann ]

19 19 Demonstrace  Přísně tajné, neveřejné, …  CuVid Columbia Video Search System  MediaMill  Informedia (dočasně nefunkční demo)  ESP Game  Flickr & Tiltomo &  MultimediaN N9C Eculture project  LTU Visual Search on Royalty-Free images

20 20 Software  Finding Out About  BRISC Image Retrieval System  Octagon - content based image retrieval software  Chuckwalla (MediaWay)  IBM DB2 AIV Extenders  interMedia  Váš projekt :)

21 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 21 / 12 Praxe? Experimenty prokázaly, že teorie nefunguje a že nic lepšího neexistuje. [ Churchill ] Multimodální? Sémantické?

22 22 Literatura  CHMELAŘ, Petr. Multimediální databáze  Teaching SSMS  Rijsbergen, van C.J., Keith. Information Retrieval  Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press, s. ISBN  TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy

23 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 23 / 12 Díky Otázky?


Stáhnout ppt "Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? 1 / 12 Vyhledávání informací a multimediální aplikace Information."

Podobné prezentace


Reklamy Google