Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Slides:

Advertisements

Podobné prezentace

Paralelní výpočet SVD s aplikacemi pro vyhledávání informací

Advertisements

Nový přístup k aplikacím Vema

Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy

Přednáška č. 3 Normalizace dat, Datová a funkční analýza

Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták

 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.

Modernizace studijních opor Představení LMS Moodle

Mechanika s Inventorem

DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.

Přednáška č. 5 Proces návrhu databáze

Filtr významnosti jako framework pro prezentační vrstvu

ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING

Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky

Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.

Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák

Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák

Databáze Jiří Kalousek.

1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.

Vyhledávání podobností v datech s využitím singulárního rozkladu

Systémy pro podporu managementu 2

Relační databáze.

Algoritmy vyhledávání a řazení

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Informatika pro ekonomy II přednáška 10

Databázové systémy Přednáška č. 4 Proces návrhu databáze.

Modelování a simulace MAS_02

Definice, druhy, chyby, abstrakce

Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.

IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.

Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)

Realtime identifikace osob podle hlasu

Databázové modelování

Databázové systémy Informatika pro ekonomy, př. 18.

Filtr významnosti jako framework pro prezentační vrstvu Ing. Igor Kopetschke – TUL, NTI

Definice fraktální (vnitřní) dimenze a její aplikace v databázích

Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha

XML data na disku jako databáze Kamil Toman

Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.

Počítačová chemie (5. přednáška)

Personalizace výuky prostřednictvím e-learningu. Struktura učebnice pro e-learning Obsah učebnice = struktura předmětu, kapitol cíleTabulka aktivni slovesa.docTabulka.

Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.

Vícerozměrný přístup pro indexování XML dat

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.

Kombinovaná analýza srážek z meteorologických radarů a srážkoměrů a jejich užití v hydrologických modelech Milan Šálek

ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.

Ověření Možnosti Využití Jazyka XML a Formátu SVG Pro Potřeby Metainformačního Systému CAGI Zpracovatel:tomáš duchoslav Vedoucí: ing. Jan růžička.

Metrické indexování vektorových modelů v oblasti Information Retrieval

Návrh a implementace algoritmů pro údržbu,

Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,

Perzistence XML dat Kamil Toman

Geografické informační systémy pojetí, definice, součásti

Model struktury strategického managementu

České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.

Přednáška č. 9 Hodnocení veřejných zakázek Úvod do veřejných zakázek a věcné hodnocení Ladislav Kavřík

Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.

Geoinformatické modelování RNDr. Blanka Malá, Ph.D.

Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)

Úvod do databázových systémů

Podklady pro zpracování semestrální práce

Výpočetní technika VY_32_INOVACE_17_16_internetový vyhledávač.

Geografické informační systémy

Dobývání znalostí z databází znalosti

VIKMA06 Rešeršní a studijně rozborová činnost

Fulltextové vyhledávání

Informatika pro ekonomy přednáška 8

Optimalizace SQL dotazů

Geografické informační systémy

Transkript prezentace:

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod

Organizační záležitosti alespoň 50% účast na cvičeních i přednáškách obsah cvičení = prezentované referáty 2 referáty (studenti) na 1 cvičení – 2x 45 minut účel: rozpracování výkladu z přednášky nebo příklady aplikací 30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse úroveň referátu zohledněna u zkoušky (ta je ústní) 11. a 18.10. výběr/konzultace témat, od 8.11. prezentování pro zájemce: témata diplomových, příp. i dizertačních prací (PhD) sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal

Rozsah kurzu vyhledávání v multimediálních databázích (similarity search in multimedia databases) computer graphics database systems data mining MDB pattern matching information retrieval

O čem to bude podobnostní vyhledávání (content-based similarity retrieval) query-by-example dotazy extrakce vlastností základní metody rychlého a kvalitního vyhledávání některé aplikace

O čem to nebude správa multimediálních souborů využívání relačních databází pro správu MM objektů distribuované a P2P systémy hybridní a text-based systémy, filtrovací služby komunikace a síťování pro MDB služby (např. VoIP, internetová televize, streamování)

Motivace (1) klasické (relační, objektové) databáze pevně daná struktura i sémantika (schéma databáze, tj. typované atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.) „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně interpretovatelné atributy) víme co hledáme = stačí dotazy na úplnou shodu multimediální databáze kolekce obrázků, audia, videa, časových řad, textů, XML, atd. obecně kolekce nestrukturovaných dat (dokument) vnitřní struktura i sémantika je skrytá a nejednoznačná - závislá na aplikaci, datech, i subjektivitě uživatele „analogová“ povaha dat (digitalizace signálů/senzorových dat) nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou shodu

Příklady multimediálních dat (1) obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších... video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.) geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data

Příklady multimediálních dat (2) časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd. biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin melodie - notové partitury - MIDI soubory

Příklady multimediálních dat (3) text, hyper-text - digitální knihovny, archivy, e-mail - web atd. „document-centric“ XML data, semi-strukturovaná data

Motivace (2) klasické (relační, objektové) databáze dotaz lze jednoduše formulovat, např. pomocí SQL dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně nerelevantní možný výstup výsledek dotazu není dále strukturován (všechno je stejně relevantní) propracované přístupové metody = rychlé vykonávání dotazu SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35 multimediální databáze jak vůbec formulovat dotaz? jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní? co je to vlastně relevance dokumentu k dotazu? jak dotaz provést efektivně (rychle)?

Náplň kurzu (osnova) První část (obecné aspekty, architektury, modelování): struktura MDB systémů, modality vyhledávání, dotazy na podobnost extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání mapování a redukce dimenze aplikace, ukázky existujících systémů (důraz na kvalitu vyhledávání) Druhá část (implementace, indexování): metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) principy indexování pomocí MAM statické MAM, dynamické MAM přibližné a pravděpodobnostní vyhledávání ostatní... (důraz na rychlost vyhledávání)

Typy MDB systémů text-based retrieval systémy vyhledávání pouze podle textové anotace (meta-informace) automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz, případně název souboru obrázku) ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov výhoda – využití stávající implementace fulltextových vyhledávačů nevýhody nelze aplikovat na neanotované kolekce, ruční anotování je drahé anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.) získané dokumenty můžou být úplně irelevantní nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace content-based retrieval systémy vyhledávání pouze podle obsahu různé metody popisu obsahu výhody vyhledávání podle skutečného obsahu nezávislost na anotaci, nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat? hybridní systémy kombinují výše zmíněné dva

Ukázka text-retrieval systému images.google.com, klíčové slovo „sun“

Modality vyhledávání dotazování (querying) prohlížení (browsing) dotaz v kontextu dokumentu dokument chápán jako databáze, kde hledáme dílčí fragment rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích, apod. dotaz v kontextu kolekce celý dokument představuje sémantickou jednotku databázový přístup prohlížení (browsing) navigace v celé kolekci hierarchická struktura kolekce okolí (web, ontologie) vhodné pro interaktivní hledání formou zpřesňování

Potřeby pro modelování relevance vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní věrná aproximace lidského posuzování relevance jednoduchost modelování relevance pro různé aplikační domény a uživatele, podpora alternativních relevancí jednoduchost modelování samotného dotazu potřeba obecně použitelného formalismu  míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(Di, Dj)=číslo s( , ) = 100

Formalizace potřeba reprezentace dokumentu D modelovým objektem O potřebujeme zjednodušit a uchopit problém, proto formalizace objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou mírou podobnosti souhrn těchto vlastností generují universum U všech možných modelových objektů, tj. O U, universum konečné i nekonečné tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu databáze je reprezentována datovou sadou S  U míra podobnosti je potom definována jako s: U × U  R vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů často je praktičtější používat míru odlišnosti d (vzdálenost) vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )

Reprezentace dokumentů různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze objekt je posloupnost prvků – universum je uzávěr na prvcích spec. případ je řetězec, universum uzávěr na abecedě objekt je množina prvků – universum je potenční množina na prvcích objekt je graf objekt je 2D/3D geometrie a další reprezentace, např. spojité funkce míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou nelze oddělit volbu metody extrakce a volbu míry konkrétní význam extrakce a míry je silně závislý na aplikační doméně metody redukce dimenze mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady) redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat podobnosti mezi starými a mezi novými vektory

Dotazování podle podobnosti k closest pairs similarity join a další query-by-example typy dotazů ptáme se přímo nějakým dokumentem (ať dokumentem z databáze ve které hledáme, nebo z jiným) navíc specifikujeme rozsah dotazu nebo výsledku bodový dotaz rozsahový dotaz – práh r k nejbližších sousedů - k reverzních k nejbližších sousedů – k a další...

Vlastnosti měr podobnosti topologické vlastnosti metrické axiomy reflexivita d(Oi, Oi) = 0 pozitivita d(Oi, Oj) > 0  Oi ≠ Oj symetrie d(Oi, Oj) = d(Oj, Oi) trojúhelníková nerovnost d(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok) ostatní vlastnosti adaptabilita (učení, zpětná vazba) závislost na kontextu (na množství dat, okolí, čase)

Kritika metrických vlastností 50 ad reflexivita: objekt nemusí být sám sobě podobný ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání) ad trojúhelníková nerovnost: obecně neplatí tranzitivita 50 80 30 20 200

Kvalita vyhledávání vs. efektivita vyhledávání kvalita vyhledávání (retrieval effectiveness) je úspěšnost vyhledání dokumentů vzhledem k očekávání uživatele vždy subjektivní, nelze dosáhnout dokonalosti měření na základě subjektivně ohodnocené kolekce nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel| rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU náklady potřeba speciálních přístupových metod, resp. indexování, sekvenční průchod je u velkých databází nereálný kolekce odpověď Odp relevantní Rel RelOdp

Indexování minimalizace výpočtů vzdáleností minimalizace I/O operací obecně 2 strategie vyhledávání využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně ohraničující metrika nebo i nemetrika mapování do vektorového prostoru, pak aplikace Lp metrik využití prostorových i metrických přístupových metod minimalizace I/O operací konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury stromové (ala B-strom) hašovací logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce metody přibližného vyhledávání paralelizace, distribuované indexy, P2P vyhledávání

Prostorové přístupové metody použitelné pokud objekty jsou vektory a používáme Lp metriky R*-strom, X-strom, UB-strom, atd. problém prokletí dimenzionality u dimenzí větších 10~20 tyto metody selhávají výhody indexace nezávislá na metrice, lze používat různé metriky během dotazování nevýhody pouze vektorová data indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje optimálně distribuci vzdáleností v sadě použití omezeno na jednoduché metriky, např. Lp

Metrické přístupové metody obecně použitelné pro objekty libovolného metrického prostoru M-strom, D-index, atd. problém vysoké vnitřní dimenze zobecnění prokletí dimenzionality do metrických prostorů výhody indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové metody libovolná metrická data nevýhody pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování) aniž by byl vytvořen jiný index

Další témata přibližné a pravděpodobnostní vyhledávání nemetrické vyhledávání otevřené problémy