Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Podobné prezentace


Prezentace na téma: "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK"— Transkript prezentace:

1 Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
1. Úvod

2 Organizační záležitosti
alespoň 50% účast na cvičeních i přednáškách obsah cvičení = prezentované referáty 2 referáty (studenti) na 1 cvičení – 2x 45 minut účel: rozpracování výkladu z přednášky nebo příklady aplikací 30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse úroveň referátu zohledněna u zkoušky (ta je ústní) 11. a výběr/konzultace témat, od prezentování pro zájemce: témata diplomových, příp. i dizertačních prací (PhD) sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal

3 Rozsah kurzu vyhledávání v multimediálních databázích (similarity search in multimedia databases) computer graphics database systems data mining MDB pattern matching information retrieval

4 O čem to bude podobnostní vyhledávání (content-based similarity retrieval) query-by-example dotazy extrakce vlastností základní metody rychlého a kvalitního vyhledávání některé aplikace

5 O čem to nebude správa multimediálních souborů
využívání relačních databází pro správu MM objektů distribuované a P2P systémy hybridní a text-based systémy, filtrovací služby komunikace a síťování pro MDB služby (např. VoIP, internetová televize, streamování)

6 Motivace (1) klasické (relační, objektové) databáze
pevně daná struktura i sémantika (schéma databáze, tj. typované atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.) „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně interpretovatelné atributy) víme co hledáme = stačí dotazy na úplnou shodu multimediální databáze kolekce obrázků, audia, videa, časových řad, textů, XML, atd. obecně kolekce nestrukturovaných dat (dokument) vnitřní struktura i sémantika je skrytá a nejednoznačná - závislá na aplikaci, datech, i subjektivitě uživatele „analogová“ povaha dat (digitalizace signálů/senzorových dat) nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou shodu

7 Příklady multimediálních dat (1)
obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších... video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.) geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data

8 Příklady multimediálních dat (2)
časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd. biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin melodie - notové partitury - MIDI soubory

9 Příklady multimediálních dat (3)
text, hyper-text - digitální knihovny, archivy, - web atd. „document-centric“ XML data, semi-strukturovaná data

10 Motivace (2) klasické (relační, objektové) databáze
dotaz lze jednoduše formulovat, např. pomocí SQL dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně nerelevantní možný výstup výsledek dotazu není dále strukturován (všechno je stejně relevantní) propracované přístupové metody = rychlé vykonávání dotazu SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35 multimediální databáze jak vůbec formulovat dotaz? jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní? co je to vlastně relevance dokumentu k dotazu? jak dotaz provést efektivně (rychle)?

11 Náplň kurzu (osnova) První část (obecné aspekty, architektury, modelování): struktura MDB systémů, modality vyhledávání, dotazy na podobnost extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání mapování a redukce dimenze aplikace, ukázky existujících systémů (důraz na kvalitu vyhledávání) Druhá část (implementace, indexování): metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) principy indexování pomocí MAM statické MAM, dynamické MAM přibližné a pravděpodobnostní vyhledávání ostatní... (důraz na rychlost vyhledávání)

12 Typy MDB systémů text-based retrieval systémy
vyhledávání pouze podle textové anotace (meta-informace) automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz, případně název souboru obrázku) ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov výhoda – využití stávající implementace fulltextových vyhledávačů nevýhody nelze aplikovat na neanotované kolekce, ruční anotování je drahé anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.) získané dokumenty můžou být úplně irelevantní nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace content-based retrieval systémy vyhledávání pouze podle obsahu různé metody popisu obsahu výhody vyhledávání podle skutečného obsahu nezávislost na anotaci, nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat? hybridní systémy kombinují výše zmíněné dva

13 Ukázka text-retrieval systému
images.google.com, klíčové slovo „sun“

14 Modality vyhledávání dotazování (querying) prohlížení (browsing)
dotaz v kontextu dokumentu dokument chápán jako databáze, kde hledáme dílčí fragment rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích, apod. dotaz v kontextu kolekce celý dokument představuje sémantickou jednotku databázový přístup prohlížení (browsing) navigace v celé kolekci hierarchická struktura kolekce okolí (web, ontologie) vhodné pro interaktivní hledání formou zpřesňování

15 Potřeby pro modelování relevance
vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní věrná aproximace lidského posuzování relevance jednoduchost modelování relevance pro různé aplikační domény a uživatele, podpora alternativních relevancí jednoduchost modelování samotného dotazu potřeba obecně použitelného formalismu  míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(Di, Dj)=číslo s( , ) = 100

16 Formalizace potřeba reprezentace dokumentu D modelovým objektem O
potřebujeme zjednodušit a uchopit problém, proto formalizace objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou mírou podobnosti souhrn těchto vlastností generují universum U všech možných modelových objektů, tj. O U, universum konečné i nekonečné tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu databáze je reprezentována datovou sadou S  U míra podobnosti je potom definována jako s: U × U  R vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů často je praktičtější používat míru odlišnosti d (vzdálenost) vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )

17 Reprezentace dokumentů
různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze objekt je posloupnost prvků – universum je uzávěr na prvcích spec. případ je řetězec, universum uzávěr na abecedě objekt je množina prvků – universum je potenční množina na prvcích objekt je graf objekt je 2D/3D geometrie a další reprezentace, např. spojité funkce míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou nelze oddělit volbu metody extrakce a volbu míry konkrétní význam extrakce a míry je silně závislý na aplikační doméně metody redukce dimenze mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady) redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat podobnosti mezi starými a mezi novými vektory

18 Dotazování podle podobnosti
k closest pairs similarity join a další query-by-example typy dotazů ptáme se přímo nějakým dokumentem (ať dokumentem z databáze ve které hledáme, nebo z jiným) navíc specifikujeme rozsah dotazu nebo výsledku bodový dotaz rozsahový dotaz – práh r k nejbližších sousedů - k reverzních k nejbližších sousedů – k a další...

19 Vlastnosti měr podobnosti
topologické vlastnosti metrické axiomy reflexivita d(Oi, Oi) = 0 pozitivita d(Oi, Oj) > 0  Oi ≠ Oj symetrie d(Oi, Oj) = d(Oj, Oi) trojúhelníková nerovnost d(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok) ostatní vlastnosti adaptabilita (učení, zpětná vazba) závislost na kontextu (na množství dat, okolí, čase)

20 Kritika metrických vlastností
50 ad reflexivita: objekt nemusí být sám sobě podobný ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání) ad trojúhelníková nerovnost: obecně neplatí tranzitivita 50 80 30 20 200

21 Kvalita vyhledávání vs. efektivita vyhledávání
kvalita vyhledávání (retrieval effectiveness) je úspěšnost vyhledání dokumentů vzhledem k očekávání uživatele vždy subjektivní, nelze dosáhnout dokonalosti měření na základě subjektivně ohodnocené kolekce nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel| rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU náklady potřeba speciálních přístupových metod, resp. indexování, sekvenční průchod je u velkých databází nereálný kolekce odpověď Odp relevantní Rel RelOdp

22 Indexování minimalizace výpočtů vzdáleností minimalizace I/O operací
obecně 2 strategie vyhledávání využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně ohraničující metrika nebo i nemetrika mapování do vektorového prostoru, pak aplikace Lp metrik využití prostorových i metrických přístupových metod minimalizace I/O operací konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury stromové (ala B-strom) hašovací logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce metody přibližného vyhledávání paralelizace, distribuované indexy, P2P vyhledávání

23 Prostorové přístupové metody
použitelné pokud objekty jsou vektory a používáme Lp metriky R*-strom, X-strom, UB-strom, atd. problém prokletí dimenzionality u dimenzí větších 10~20 tyto metody selhávají výhody indexace nezávislá na metrice, lze používat různé metriky během dotazování nevýhody pouze vektorová data indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje optimálně distribuci vzdáleností v sadě použití omezeno na jednoduché metriky, např. Lp

24 Metrické přístupové metody
obecně použitelné pro objekty libovolného metrického prostoru M-strom, D-index, atd. problém vysoké vnitřní dimenze zobecnění prokletí dimenzionality do metrických prostorů výhody indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové metody libovolná metrická data nevýhody pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování) aniž by byl vytvořen jiný index

25 Další témata přibližné a pravděpodobnostní vyhledávání
nemetrické vyhledávání otevřené problémy


Stáhnout ppt "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK"

Podobné prezentace


Reklamy Google