Vyhledávání informací a multimediální aplikace Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.html ]
Věda Vědecké paradigma Teorie Experiment Realita myšlení psaní čtení Top-down approach Věda Experiment Bottom-up approach Realita
Reprezentace Konceptuální úroveň Geometrická logická úroveň Obraz fyzická úroveň Vnímání Semantic Gap Vidění Binární reprezentace
Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IR je vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]
Objekt IR Relevance? Vstupy / výstupy Dokument Novinové články, web… Fotografie Řeč a zvuk Video Dotaz Cokoliv ▲ Relevance? za následující odbočkou …
Pozadí Relevance? Data Strukturovaná Čísla Písmena Slova Informace Dotazování IR potřeba data shodná informace relevantní dotaz strukturovaný kompletní přirozený nekompletní odvození dedukce indukce shoda přesná nejlepší možná model deterministický pravděpodobnostní … Data Strukturovaná Čísla Písmena Slova Informace Rozdíl? ▲ Relevance? … přisoudíme význam smysl v daný okamžik
Modely Model Document Query Evaluation Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: Jaké dokumenty mají být výsledkem dotazu? Jaké bude jejich uspořádání pro prezentaci uživateli? Klasické modely Booleovský model Pravděpodobnostní modely Vektorové modely Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … Model Document Query Evaluation
Klasický booleovský model Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. Termy jsou obvykle podstatná jména (bez některých vybraných). Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). Dotazy jsou tvořeny termy a logickými spojkami and, or, not a závorkami. Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… Binární porovnávání Jednoduché Jaccardovo Diceovo Kosinové
Teorie informace Term frequency četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu váha termínu - důležitost Inverse document frequency inverzní log četnosti dokumentů, ve kterých se tem vyskytuje informační hodnota termínu [ Shannon, Keith ]
Vektorový model Váhový vektor přiřazen dotazu q i dokumentům dj … dj pak vzdálenost (kosinová) je ale může být i Eukleidovská, nebo dokonce Manhattan. O vzdálenosti platí: dist(x, y) ≥ 0 dist(x, x) = 0 dist(x, y) = dist(y, x) dist(x, y) ≤ dist(x, z) + dist(z, y) → navazující přednáška dj q
Pravděpodobnostní model Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. Řešení: Bayesem likehood prior information posterior probability marginal probability AP(B | ai)P(ai)
Probability ranking principle Princip ohodnocení dle pravděpodobnosti Potřebujeme zjistit relevanci (True / False) daného dokumentu P(T | d): Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantního dokumentu to bude d. je relevantní
Taxonomie Úplnost Přesnost
Experiment. Funguje teorie? Text TREC evaluace a porovnání … relevance systémů WWW Google, Yahoo, Altavista, Jyxo, Seznam, … Multimedia? TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, … http://trec.nist.gov/tracks.html http://pets2007.net/ http://www.clear-evaluation.org/
Fulltextové databáze Fulltextové vyhledávací funkce v databázích Oracle create index docs_index on docs(text) indextype is ctxsys.context; select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0 order by ctxsys.score(1) desc; MySQL ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); SELECT * FROM Clanky WHERE MATCH(nazev, anotace, text) AGAINST (‘vyhledávání informací’ IN BOOLEAN MODE); http://en.wikipedia.org/wiki/Special:Search?search=information+retrieval&fulltext=Search
TRECVid Video data 100h (2007) + 156h (2006) + 140h (2005) + 150 (předtím) Shot detection, ASR, MT, … Annotations Tasks Shot boundary detection Detecting semantic concepts / features (39) [ Alan Smeaton ] Searching based on topics Automatic Manual Interactive Automatic summarization LSCOM Large Scale Concept Ontology for Mm http://www.lscom.org/ http://www-nlpir.nist.gov/projects/tv2007/tv2007.html#2.3
Koncepty [ Cees Noek ]
Multimodalita Kombinace více způsobů… [ Alex Hauptmann ]
Demonstrace Přísně tajné, neveřejné, … CuVid Columbia Video Search System http://apollo.ee.columbia.edu/cuvidsearch/ MediaMill http://mediamill.nl/ Informedia (dočasně nefunkční demo) http://www.informedia.cs.cmu.edu/ ESP Game http://www.espgame.org/ Flickr & Tiltomo http://flickr.com/ & http://www.tiltomo.com/ MultimediaN N9C Eculture project http://e-culture.multimedian.nl/ LTU Visual Search on Royalty-Free images http://corbis.ltutech.com/
Software Finding Out About http://www.cse.ucsd.edu/~rik/foa/ BRISC Image Retrieval System http://sourceforge.net/projects/brisc Octagon - content based image retrieval software http://octagon.viitala.eu/ Chuckwalla (MediaWay) http://www.chuckwallainc.com/ IBM DB2 AIV Extenders http://www-306.ibm.com/software/data/db2/extenders/aiv/ interMedia http://www.oracle.com/technology/ Váš projekt :)
Praxe? Experimenty prokázaly, že teorie nefunguje a že nic lepšího neexistuje. [ Churchill ] Multimodální? Sémantické?
Literatura CHMELAŘ, Petr. Multimediální databáze. 2006. http://www.fit.vutbr.cz/~chmelarp/pdb/ Teaching Material @ SSMS 2007 http://www.dcs.gla.ac.uk/ssms07/material.html Rijsbergen, van C.J., Keith. Information Retrieval. 1999. http://www.dcs.gla.ac.uk/ssms07/teaching-material/ir/index.htm Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press, 1999. 513 s. ISBN 978-0-201-39829-8. TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy http://www.nkp.cz/o_knihovnach/Slovnik/index.htm
Díky Otázky?