Vyhledávání informací a multimediální aplikace

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Produkce odpadů 2002 – 2007 obce ORP Šumperk
Překlad Bath profilu 2.0 Martin Vojnar
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV Předběžné výsledky projektu Helena Kučerová VOŠIS Praha 1.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Jak se stát miláčkem vyhledávačů
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
Mezinárodní konkurenceschopnost, její faktory a aplikace na ČR
New Catholic Encyklopedia Gale Virtual Reference Library (producent Thomson Gale)
SEO pro novou firmu Bartošová Lenka 3MA
Metodický list Pořadové číslo: VY_32_INOVACE_ I.C.12 Název pro školu:EU AJ 1.stupeň 12 Název materiálu:Sports and games Autor:Mgr. Hana Opálková Vzdělávací.
Fakulta elektrotechniky a informatiky
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
Lego Mindstorms Martin Flusser.
Diagramy případů užití.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Informatika pro ekonomy II přednáška 11
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Databázové systémy 1 Cvičení č. 2 Fakulta elektrotechniky a informatiky Univerzita Pardubice.
Manažerské informační systémy Ing. Dagmar Řešetková
INTERNETOVÉ VYHLEDÁVAČE
Praktikum základů genomiky, zima 2007 Základy genomiky I. Úvod do bioinformatiky Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky.
DOK.
Úvod do databází Databáze.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Jazyk vývojových diagramů
Informatizace veřejných knihoven Internet a veřejné knihovny jako informační centra měst a obcí PhDr. Ivana Štrossová Okresní knihovna Havlíčkův Brod.
Řízené slovníky databází ISTA, LLIS/FTXT, LISA. Obecně: Řízený slovník – controlled vocabulary Slovník lexikálních jednotek selekčního jazyka uspořádaný.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace
EBSCO Knihovna FSS MU a Osnova EIZ – co, proč, kde EBSCO Vychytávky Procvičování.
1  Ex Libris Ltd., Internal and Confidential NISPEZ IV. konference 13. listopadu 2012 Martin Vojnar
Případové usuzování v expertním systému NEST Vladimír Laš, Petr Berka Vysoká škola ekonomická, Praha.
Softwareová architektura
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Relační databáze.
Seznamy digitálních knihoven
Označení DUM Pl - DUM Autor Příjmení a jméno: Pavelková Irena, Bc. Škola: Základní škola a Mateřská škola Štěpánkovice, příspěvková organizace.
Speech – a micro-intro Honza Černocký BUT
Evaluace jako metoda zvyšování kvality řízení projektů
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Setkání účastníků neformálního konsorcia Praha
Databázové systémy I Cvičení č. 6 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2013.
Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
Datové typy a struktury
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
Jak vytvořit webovou stránku HTML Je základ každé webové stránky. Naučit se jej není složité a můžete říct „tento web jsem udělal/a já“
EVALUACE WWW ELEKTRONICKÉ INFORMAČNÍ ZDROJE Petr Sejk
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
MIS - Manažerské informační systémy 1. cvičení – Internet a informace
Abychom neobjevovali znovu kolo!!! „Východiskem vědeckého studia musí být pečlivé prostudování existující literatury o dané otázce, abychom nezjišťovali.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Selekční jazyky Současné trendy Přednáška č. 6 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Vymezení problému výzkumu Volba oblasti výzkumu Volba metodologického přístupu Formulace hypotéz !REŠERŠE! proč?
Fulltextové technologie a jejich využití v UIS Bc. Miroslav Prachař datamanagement
Dobývání znalostí z databází fulltext
Fulltextové vyhledávání
Spojitá a kategoriální data Základní popisné statistiky
VIKMA06 Vyhledávání informací
Rešeršní činnost Mgr. Petr Šmejkal
Ústav lékařské informatiky, 2. LF UK
Transkript prezentace:

Vyhledávání informací a multimediální aplikace Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.html ]

Věda Vědecké paradigma Teorie Experiment Realita myšlení psaní čtení Top-down approach Věda Experiment Bottom-up approach Realita

Reprezentace Konceptuální úroveň Geometrická logická úroveň Obraz fyzická úroveň Vnímání Semantic Gap Vidění Binární reprezentace

Teorie! Vyhledávání informací je činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IR je vyhledávání v nestrukturovaných datech. [ TDKIV, Keith, RBY-MIR ]

Objekt IR Relevance? Vstupy / výstupy Dokument Novinové články, web… Fotografie Řeč a zvuk Video Dotaz Cokoliv ▲ Relevance? za následující odbočkou …

Pozadí Relevance? Data Strukturovaná Čísla Písmena Slova Informace Dotazování IR potřeba data shodná informace relevantní dotaz strukturovaný kompletní přirozený nekompletní odvození dedukce indukce shoda přesná nejlepší možná model deterministický pravděpodobnostní … Data Strukturovaná Čísla Písmena Slova Informace Rozdíl? ▲ Relevance? … přisoudíme význam smysl v daný okamžik

Modely Model Document Query Evaluation Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: Jaké dokumenty mají být výsledkem dotazu? Jaké bude jejich uspořádání pro prezentaci uživateli? Klasické modely Booleovský model Pravděpodobnostní modely Vektorové modely Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent semantic indexing, hypertext model, … Model Document Query Evaluation

Klasický booleovský model Klasický model předpokládá, že dokument d je popsán množinou reprezentativních klíčových slov – indexační termíny k. Termy jsou obvykle podstatná jména (bez některých vybraných). Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost). Dotazy jsou tvořeny termy a logickými spojkami and, or, not a závorkami. Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání… Binární porovnávání Jednoduché Jaccardovo Diceovo Kosinové

Teorie informace Term frequency četnost výskytu klíčového slova nebo jiné lingvistické jednotky v … dokumentu  váha termínu - důležitost Inverse document frequency inverzní log četnosti dokumentů, ve kterých se tem vyskytuje  informační hodnota termínu [ Shannon, Keith ]

Vektorový model Váhový vektor přiřazen dotazu q i dokumentům dj … dj pak vzdálenost (kosinová) je ale může být i Eukleidovská, nebo dokonce Manhattan. O vzdálenosti platí: dist(x, y) ≥ 0 dist(x, x) = 0 dist(x, y) = dist(y, x) dist(x, y) ≤ dist(x, z) + dist(z, y) → navazující přednáška dj q 

Pravděpodobnostní model Relevance v IR nejistá → pravděpodobnost a teorie rozhodování! Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající pravděpodobností relevance, bude efektivita systému nejlepší možná. Řešení: Bayesem likehood prior information posterior probability marginal probability AP(B | ai)P(ai)

Probability ranking principle Princip ohodnocení dle pravděpodobnosti Potřebujeme zjistit relevanci (True / False) daného dokumentu P(T | d): Základem je, že minimalizujeme průměrnou (celkovou) chybu: pravď. že při získání nerelevantního dokumentu to bude d.   je relevantní

Taxonomie Úplnost Přesnost

Experiment. Funguje teorie? Text TREC evaluace a porovnání … relevance systémů WWW Google, Yahoo, Altavista, Jyxo, Seznam, … Multimedia? TRECvid… PETS Performance Evaluation of Tracking and Surveillance CLEAR, VACE, ETISEO, … http://trec.nist.gov/tracks.html http://pets2007.net/ http://www.clear-evaluation.org/

Fulltextové databáze Fulltextové vyhledávací funkce v databázích Oracle create index docs_index on docs(text) indextype is ctxsys.context; select id, title, text, ctxsys.score(1) score from docs where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0 order by ctxsys.score(1) desc; MySQL ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text); SELECT * FROM Clanky WHERE MATCH(nazev, anotace, text) AGAINST (‘vyhledávání informací’ IN BOOLEAN MODE); http://en.wikipedia.org/wiki/Special:Search?search=information+retrieval&fulltext=Search

TRECVid Video data 100h (2007) + 156h (2006) + 140h (2005) + 150 (předtím) Shot detection, ASR, MT, … Annotations Tasks Shot boundary detection Detecting semantic concepts / features (39) [ Alan Smeaton ] Searching based on topics Automatic Manual Interactive Automatic summarization LSCOM Large Scale Concept Ontology for Mm http://www.lscom.org/ http://www-nlpir.nist.gov/projects/tv2007/tv2007.html#2.3

Koncepty [ Cees Noek ]

Multimodalita Kombinace více způsobů… [ Alex Hauptmann ]

Demonstrace Přísně tajné, neveřejné, … CuVid Columbia Video Search System http://apollo.ee.columbia.edu/cuvidsearch/ MediaMill http://mediamill.nl/ Informedia (dočasně nefunkční demo) http://www.informedia.cs.cmu.edu/ ESP Game http://www.espgame.org/ Flickr & Tiltomo http://flickr.com/ & http://www.tiltomo.com/ MultimediaN N9C Eculture project http://e-culture.multimedian.nl/ LTU Visual Search on Royalty-Free images http://corbis.ltutech.com/

Software Finding Out About http://www.cse.ucsd.edu/~rik/foa/ BRISC Image Retrieval System http://sourceforge.net/projects/brisc Octagon - content based image retrieval software http://octagon.viitala.eu/ Chuckwalla (MediaWay) http://www.chuckwallainc.com/ IBM DB2 AIV Extenders http://www-306.ibm.com/software/data/db2/extenders/aiv/ interMedia http://www.oracle.com/technology/ Váš projekt :)

Praxe? Experimenty prokázaly, že teorie nefunguje a že nic lepšího neexistuje. [ Churchill ] Multimodální? Sémantické?

Literatura CHMELAŘ, Petr. Multimediální databáze. 2006. http://www.fit.vutbr.cz/~chmelarp/pdb/ Teaching Material @ SSMS 2007 http://www.dcs.gla.ac.uk/ssms07/material.html Rijsbergen, van C.J., Keith. Information Retrieval. 1999. http://www.dcs.gla.ac.uk/ssms07/teaching-material/ir/index.htm Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press, 1999. 513 s. ISBN 978-0-201-39829-8. TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy http://www.nkp.cz/o_knihovnach/Slovnik/index.htm

Díky Otázky?