Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod.

Podobné prezentace


Prezentace na téma: "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod."— Transkript prezentace:

1 Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod

2 Organizační záležitosti alespoň 50% účast na cvičeních i přednáškách obsah cvičení = prezentované referáty  2 referáty (studenti) na 1 cvičení – 2x 45 minut  účel: rozpracování výkladu z přednášky nebo příklady aplikací  30 min. prezentace v PowerPointu nebo PDF + 10 min. diskuse  úroveň referátu zohledněna u zkoušky (ta je ústní)  11. a výběr/konzultace témat, od prezentování pro zájemce: témata diplomových, příp. i dizertačních prací (PhD) sledujte stránky předmětu DBI030 na urtax.ms.mff.cuni.cz/skopal

3 Rozsah kurzu vyhledávání v multimediálních databázích (similarity search in multimedia databases) computer graphics data mining pattern matching database systems information retrieval MDB

4 O čem to bude podobnostní vyhledávání (content-based similarity retrieval) query-by-example dotazy extrakce vlastností základní metody rychlého a kvalitního vyhledávání některé aplikace

5 O čem to nebude správa multimediálních souborů využívání relačních databází pro správu MM objektů distribuované a P2P systémy hybridní a text-based systémy, filtrovací služby komunikace a síťování pro MDB služby (např. VoIP, internetová televize, streamování)

6 Motivace (1) klasické (relační, objektové) databáze  pevně daná struktura i sémantika (schéma databáze, tj. typované atributy, tabulky, integritní omezení, funkční závislosti, dědičnost, atd.)  „umělá“ povaha dat (člověkem vytvářené atributy a jednoznačně interpretovatelné atributy)  víme co hledáme = stačí dotazy na úplnou shodu multimediální databáze  kolekce obrázků, audia, videa, časových řad, textů, XML, atd.  obecně kolekce nestrukturovaných dat (dokument)  vnitřní struktura i sémantika je skrytá a nejednoznačná - závislá na aplikaci, datech, i subjektivitě uživatele  „analogová“ povaha dat (digitalizace signálů/senzorových dat)  nevíme pořádně co hledáme ani jak se ptát = nestačí dotazy na úplnou shodu

7 obrazové databáze - biometrické databáze (otisky prstů, oční duhovky, obličejové rysy) - medicínské snímky (rentgen, tomografie, ultrazvuk, atd.) - satelitní snímky, meteorologický radar - snímky materiálových řezů - heterogenní kolekce (web) a mnoho dalších... video kolekce - TV zpravodajství - filmové kolekce, domácí video - záznamy z bezpečnostních kamer (letiště, supermarkety, centra měst, atd.) - „netradiční“ sekvence (medicínské, průmyslové, atd.) geometrické kolekce - CAD modely - opět biometrické databáze - geografická, kartografická a GIS data Příklady multimediálních dat (1)

8 časové řady, audio, (obecně diskrétní signály) - vývoj kurzů akcií, měn, atd. - medicínská data - EEG, EKG, atd. - řeč (obecně zvuk) atd. biologické databáze - chemické látky (molekuly, sloučeniny, atd.) - sekvence DNA, bílkovin melodie - notové partitury - MIDI soubory Příklady multimediálních dat (2)

9 Příklady multimediálních dat (3) text, hyper-text - digitální knihovny, archivy, - web atd. „document-centric“ XML data, semi-strukturovaná data

10 Motivace (2) klasické (relační, objektové) databáze  dotaz lze jednoduše formulovat, např. pomocí SQL  dotaz na úplnou shodu přesně určuje jak vypadá plně relevantní a plně nerelevantní možný výstup  výsledek dotazu není dále strukturován (všechno je stejně relevantní)  propracované přístupové metody = rychlé vykonávání dotazu SELECT * FROM zamestnanec WHERE vek BETWEEN 25 AND 35 multimediální databáze  jak vůbec formulovat dotaz?  jak dopředu kvantifikovat co pro mně (ještě) je a co (už) není relevantní?  co je to vlastně relevance dokumentu k dotazu?  jak dotaz provést efektivně (rychle)?

11 Náplň kurzu (osnova) První část (obecné aspekty, architektury, modelování): struktura MDB systémů, modality vyhledávání, dotazy na podobnost extrakce vlastností, míry podobnosti, kvalita a rychlost vyhledávání mapování a redukce dimenze aplikace, ukázky existujících systémů (důraz na kvalitu vyhledávání) Druhá část (implementace, indexování): metrické přístupové metody (MAM) vs. prostorové přístupové metody (SAM) principy indexování pomocí MAM statické MAM, dynamické MAM přibližné a pravděpodobnostní vyhledávání ostatní... (důraz na rychlost vyhledávání)

12 Typy MDB systémů text-based retrieval systémy  vyhledávání pouze podle textové anotace (meta-informace) automatické anotování (např. images.google.com využívá textu na stránce, kde je na obrázek odkaz, případně název souboru obrázku) ruční anotace – většinou kvalitnější, anotuje expert, který ví, jak anotovat  dotazy podobně jako u fulltextových vyhledávačů, tj. množina klíčových slov  výhoda – využití stávající implementace fulltextových vyhledávačů  nevýhody nelze aplikovat na neanotované kolekce, ruční anotování je drahé anotace je vždy nějak nepřesná (subjektivní, neúplná, zavádějící, atd.)  získané dokumenty můžou být úplně irelevantní  nezískali jsme dokumenty, které jsou relevantní - „netrefili“ jsme se do anotace content-based retrieval systémy  vyhledávání pouze podle obsahu  různé metody popisu obsahu  výhody vyhledávání podle skutečného obsahu nezávislost na anotaci,  nevýhody – mnoho různých metod modelování struktury a sémantiky obsahu, kterou vybrat? hybridní systémy  kombinují výše zmíněné dva

13 Ukázka text-retrieval systému images.google.com, klíčové slovo „sun“

14 Modality vyhledávání dotazování (querying)  dotaz v kontextu dokumentu dokument chápán jako databáze, kde hledáme dílčí fragment rozpoznávání/analýza obrazu, vyhledávání v DNA sekvencích, řetězcích, apod.  dotaz v kontextu kolekce celý dokument představuje sémantickou jednotku databázový přístup prohlížení (browsing)  navigace v celé kolekci hierarchická struktura kolekce okolí (web, ontologie)  vhodné pro interaktivní hledání formou zpřesňování

15 Potřeby pro modelování relevance vícehodnotová relevance (ne pouze binární) dokumentu k dotazu, zavedení pojmu „hodně“ nebo „málo“ relevantní věrná aproximace lidského posuzování relevance jednoduchost modelování relevance pro různé aplikační domény a uživatele, podpora alternativních relevancí jednoduchost modelování samotného dotazu potřeba obecně použitelného formalismu  míra podobnosti jako funkce přiřazující dvěma dokumentům skóre jejich podobnosti – vzájemná relevance s(D i, D j )=číslo s(, ) = 100

16 Formalizace potřeba reprezentace dokumentu D modelovým objektem O  potřebujeme zjednodušit a uchopit problém, proto formalizace  objekt O je popsán těmi vlastnosti dokumentu D, které jsou využívány danou mírou podobnosti  souhrn těchto vlastností generují universum U všech možných modelových objektů, tj. O  U, universum konečné i nekonečné  tzv. extrakce vlastností – zjednodušení problému popisu obsahu dokumentu  databáze je reprezentována datovou sadou S  U míra podobnosti je potom definována jako s: U × U  R  vyšší skóre objektů se interpretuje jako vyšší podobnost dokumentů často je praktičtější používat míru odlišnosti d (vzdálenost)  vyšší skóre objektů se interpretuje jako nižší podobnost dokumentů  k míře podobnosti lze vždy najít ekvivalentní míru odlišnosti (např. d() = – s() )

17 Reprezentace dokumentů různé typy extrakce vlastností, tj. tvorba reprezentací dokumentů  objekt je nejčastěji vektor – universum je diskrétní vektorový prostor konečné dimenze  objekt je posloupnost prvků – universum je uzávěr na prvcích spec. případ je řetězec, universum uzávěr na abecedě  objekt je množina prvků – universum je potenční množina na prvcích  objekt je graf  objekt je 2D/3D geometrie  a další reprezentace, např. spojité funkce míra podobnosti/odlišnosti „rozumí“ dané reprezentaci, resp. pracuje s její extrahovanou strukturou a sémantikou  nelze oddělit volbu metody extrakce a volbu míry konkrétní význam extrakce a míry je silně závislý na aplikační doméně metody redukce dimenze  mechanismy jak u vektorových reprezentací snížit dimenzi (a tím prostorové náklady)  redukované vektory by měly dobře zachovávat distribuci podobnosti, tj. zachovávat podobnosti mezi starými a mezi novými vektory

18 Dotazování podle podobnosti k closest pairs similarity join a další query-by-example typy dotazů  ptáme se přímo nějakým dokumentem (ať dokumentem z databáze ve které hledáme, nebo z jiným)  navíc specifikujeme rozsah dotazu nebo výsledku bodový dotaz rozsahový dotaz – práh r k nejbližších sousedů - k reverzních k nejbližších sousedů – k a další...

19 Vlastnosti měr podobnosti topologické vlastnosti  metrické axiomy reflexivita d(Oi, Oi) = 0 pozitivita d(Oi, Oj) > 0  Oi ≠ Oj symetrie d(Oi, Oj) = d(Oj, Oi) trojúhelníková nerovnost d(Oi, Oj) + d(Oj, Ok) ≥ d(Oi, Ok) ostatní vlastnosti  adaptabilita (učení, zpětná vazba)  závislost na kontextu (na množství dat, okolí, čase)

20 ad reflexivita: objekt nemusí být sám sobě podobný ad pozitivita: objekt je maximálně podobný (totožný) jinému objektu ad symetrie: objekt 1 je podobný objektu 2 jinak, než je tomu naopak (záleží na směru porovnávání) ad trojúhelníková nerovnost: obecně neplatí tranzitivita Kritika metrických vlastností

21 Kvalita vyhledávání vs. efektivita vyhledávání kvalita vyhledávání (retrieval effectiveness) je úspěšnost vyhledání dokumentů vzhledem k očekávání uživatele  vždy subjektivní, nelze dosáhnout dokonalosti  měření na základě subjektivně ohodnocené kolekce  nejčastěji přesnost P = |RelOdp|/|Odp| a úplnost R = |RelOdp|/|Rel| rychlost vyhledávání (retrieval efficiency) ovlivňuje reálnou použitelnost a škálovatelnost  I/O operace, množství výpočtů podobností/vzdáleností, ostatní CPU náklady  potřeba speciálních přístupových metod, resp. indexování, sekvenční průchod je u velkých databází nereálný kolekce odpověď Odp relevantní Rel RelOdp

22 Indexování minimalizace výpočtů vzdáleností  obecně 2 strategie vyhledávání využití trojúhelníkové nerovnosti, resp. metrických axiomů – metrické přístupové metody nalezení levně spočitatelné náhrady za původní vzdálenost, pak lze hledat i sekvenčně  ohraničující metrika nebo i nemetrika  mapování do vektorového prostoru, pak aplikace Lp metrik  využití prostorových i metrických přístupových metod minimalizace I/O operací  konstrukce indexu jako pomocné externí struktury pro rychlé vyhledávání  perzistentní, dynamické (škálovatelné), vyvážené (robustní) struktury stromové (ala B-strom) hašovací  logaritmické nebo lepší složitosti přístupu, lineární složitosti konstrukce metody přibližného vyhledávání paralelizace, distribuované indexy, P2P vyhledávání

23 Prostorové přístupové metody použitelné pokud objekty jsou vektory a používáme Lp metriky  R*-strom, X-strom, UB-strom, atd. problém prokletí dimenzionality  u dimenzí větších 10~20 tyto metody selhávají výhody  indexace nezávislá na metrice, lze používat různé metriky během dotazování nevýhody  pouze vektorová data  indexace nezávislá na metrice, struktura není „šitá na míru“, nekopíruje optimálně distribuci vzdáleností v sadě  použití omezeno na jednoduché metriky, např. Lp

24 Metrické přístupové metody obecně použitelné pro objekty libovolného metrického prostoru  M-strom, D-index, atd. problém vysoké vnitřní dimenze  zobecnění prokletí dimenzionality do metrických prostorů výhody  indexace „šitá na míru“ dané metrice, lepší výkonnost než prostorové metody  libovolná metrická data nevýhody  pro vyhledávání nelze použít (výrazně) jiné metriky (během dotazování) aniž by byl vytvořen jiný index

25 Další témata přibližné a pravděpodobnostní vyhledávání nemetrické vyhledávání otevřené problémy


Stáhnout ppt "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 1. Úvod."

Podobné prezentace


Reklamy Google