Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání informací a multimediální aplikace

Podobné prezentace


Prezentace na téma: "Vyhledávání informací a multimediální aplikace"— Transkript prezentace:

1 Vyhledávání informací a multimediální aplikace
Information Retrieval and Multimedia Applications [ ] [ ]

2 Věda Vědecké paradigma Teorie Experiment Realita myšlení psaní čtení
Top-down approach Věda Experiment Bottom-up approach Realita

3 Reprezentace Konceptuální úroveň Geometrická logická úroveň Obraz
fyzická úroveň Vnímání Semantic Gap Vidění Binární reprezentace

4 Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IR je vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]

5 Objekt IR Relevance? Vstupy / výstupy Dokument Novinové články, web…
Fotografie Řeč a zvuk Video Dotaz Cokoliv ▲ Relevance? za následující odbočkou …

6 Pozadí Relevance? Data Strukturovaná Čísla Písmena Slova Informace
Dotazování IR potřeba data shodná informace relevantní dotaz strukturovaný kompletní přirozený nekompletní odvození dedukce indukce shoda přesná nejlepší možná model deterministický pravděpodobnostní Data Strukturovaná Čísla Písmena Slova Informace Rozdíl? ▲ Relevance? přisoudíme význam smysl v daný okamžik

7 Modely Model Document Query Evaluation
Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: Jaké dokumenty mají být výsledkem dotazu? Jaké bude jejich uspořádání pro prezentaci uživateli? Klasické modely Booleovský model Pravděpodobnostní modely Vektorové modely Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … Model Document Query Evaluation

8 Klasický booleovský model
Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. Termy jsou obvykle podstatná jména (bez některých vybraných). Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). Dotazy jsou tvořeny termy a logickými spojkami and, or, not a závorkami. Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… Binární porovnávání Jednoduché Jaccardovo Diceovo Kosinové

9 Teorie informace Term frequency
četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu  váha termínu - důležitost Inverse document frequency inverzní log četnosti dokumentů, ve kterých se tem vyskytuje  informační hodnota termínu [ Shannon, Keith ]

10 Vektorový model Váhový vektor přiřazen dotazu q i dokumentům dj … dj
pak vzdálenost (kosinová) je ale může být i Eukleidovská, nebo dokonce Manhattan. O vzdálenosti platí: dist(x, y) ≥ 0 dist(x, x) = 0 dist(x, y) = dist(y, x) dist(x, y) ≤ dist(x, z) + dist(z, y) → navazující přednáška dj q

11 Pravděpodobnostní model
Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. Řešení: Bayesem likehood prior information posterior probability marginal probability AP(B | ai)P(ai)

12 Probability ranking principle
Princip ohodnocení dle pravděpodobnosti Potřebujeme zjistit relevanci (True / False) daného dokumentu P(T | d): Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantního dokumentu to bude d.  je relevantní

13 Taxonomie Úplnost Přesnost

14 Experiment. Funguje teorie?
Text TREC evaluace a porovnání … relevance systémů WWW Google, Yahoo, Altavista, Jyxo, Seznam, … Multimedia? TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, …

15 Fulltextové databáze Fulltextové vyhledávací funkce v databázích
Oracle create index docs_index on docs(text) indextype is ctxsys.context; select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0 order by ctxsys.score(1) desc; MySQL ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); SELECT * FROM Clanky WHERE MATCH(nazev, anotace, text) AGAINST (‘vyhledávání informací’ IN BOOLEAN MODE);

16 TRECVid Video data 100h (2007) + 156h (2006) + 140h (2005) (předtím) Shot detection, ASR, MT, … Annotations Tasks Shot boundary detection Detecting semantic concepts / features (39) [ Alan Smeaton ] Searching based on topics Automatic Manual Interactive Automatic summarization LSCOM Large Scale Concept Ontology for Mm

17 Koncepty [ Cees Noek ]

18 Multimodalita Kombinace více způsobů… [ Alex Hauptmann ]

19 Demonstrace Přísně tajné, neveřejné, …
CuVid Columbia Video Search System MediaMill Informedia (dočasně nefunkční demo) ESP Game Flickr & Tiltomo & MultimediaN N9C Eculture project LTU Visual Search on Royalty-Free images

20 Software Finding Out About http://www.cse.ucsd.edu/~rik/foa/
BRISC Image Retrieval System Octagon - content based image retrieval software Chuckwalla (MediaWay) IBM DB2 AIV Extenders interMedia Váš projekt :)

21 Praxe? Experimenty prokázaly, že teorie nefunguje a že nic lepšího neexistuje [ Churchill ] Multimodální? Sémantické?

22 Literatura CHMELAŘ, Petr. Multimediální databáze Teaching SSMS 2007 Rijsbergen, van C.J., Keith. Information Retrieval Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press,  s. ISBN TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy

23 Díky Otázky?


Stáhnout ppt "Vyhledávání informací a multimediální aplikace"

Podobné prezentace


Reklamy Google