Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Slides:



Advertisements
Podobné prezentace
OZD: Hašování RNDr. Michal Žemlička.
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
Dualita úloh lineárního programování a analýza citlivosti
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Analytické nástroje GIS
Plošná interpolace (aproximace)
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
ADT Strom.
B-Strom.
Modelování v AUTOCADU Křivky v prostoru, modelování z těles a povrchů,
TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
LOGISTICKÉ SYSTÉMY 4/14.
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
EKO/GISO – Modely prostorových dat.  Mnoho definic - jedno mají společné – Gisy pracují s prostorovými daty  Minimální GIS vždy spojuje databázi, prostorové.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
TYPY MODELŮ FYZIKÁLNÍ MATEMATICKÉ ANALYTICKÉ NUMERICKÉ.
Formulace a vlastnosti úloh lineárního programování
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Algoritmy vyhledávání a řazení
Informatika pro ekonomy II přednáška 10
Databázové systémy II Přednáška č. X Ing. Tomáš Váňa, Ing. Jiří Zechmeister Fakulta elektrotechniky a informatiky
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Shluková analýza.
Funkce více proměnných.
Reaktivní stromy. Motivace Existují algoritmy, které jsou schopny generalizovat výskyt i tvar jednotlivých objektů obsažených na mapě s daným měřítkem.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Ukládání heterogenních dat pomocí rozvolněných objektů Michal Žemlička.
Rozhodovací stromy.
Databázové modelování
Databázové systémy Informatika pro ekonomy, př. 18.
Generování sítě MIDAS GTS. Prvky pro generování sítě MIDAS má několik typů prvků, jež využívá pro generování sítě. Každý prvek je určen svými uzly (konstrukčně).
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Vektorové prostory.
XML data na disku jako databáze Kamil Toman
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prostorové datové struktury
Vyhledávání vzorů (template matching)
Metrické indexování vektorových modelů v oblasti Information Retrieval
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Perzistence XML dat Kamil Toman
Geografické informační systémy pojetí, definice, součásti
Diskový oddíl. Diskové oddíly (partition) slouží k rozdělení fyzického disku na logické oddíly, se kterými je možné nezávisle manipulovat jeden disk se.
REPREZENTACE 3D SCÉNY JANA ŠTANCLOVÁ Obrázky (popř. slajdy) převzaty od RNDr. Josef Pelikán, CSc., KSVI MFF UK.
Teorie portfolia Markowitzův model.
PROGRAMOVÁNÍ 3ITA,3ITB Jaroslav Burdys Hlavní zdroj:
Uvedení autoři, není-li uvedeno jinak, jsou autory tohoto výukového materiálu a všech jeho částí. Tento projekt je spolufinancován ESF a státním rozpočtem.
Úvod do databázových systémů
Koule těleso, tvořené množinou všech bodů prostoru, které mají od daného bodu S (střed) vzdálenost menší nebo rovnu r (poloměr)
Ing. Milan Houška KOSA PEF ČZU v Praze
Geografické informační systémy
Vlastnosti souborů Jaroslava Černá.
C-síť (circle – net) Petr Kolman.
1. ročník oboru Mechanik opravář motorových vozidel
KARTOGRAFICKÁ VIZUALIZACE
Informatika pro ekonomy přednáška 8
Geografické informační systémy
Konstruktivní úlohy na rotačních plochách
Elektronické instalace budov II
Transkript prezentace:

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 6. Metrické přístupové metody (MAM) 1. část – multidimenzionální metody a principy MAM

Osnova motivace využití multidimenzionálních metody přímé použití – indexování vektorových dat a příslušná omezení nepřímé použití – indexování mapovaných vektorů principy metrických přístupových metod míry efektivity vyhledávání reprezentace datového prostoru nadrovinové dělení prostoru hyper-kulové dělení prostoru vlastnosti metrik užívané k filtrování při dotazech

Motivace drahá podobnostní funkce (omezíme se na metriky) velký objem dat velký počet uživatelů kladoucích dotazy potřeba rychlé metody vyhledávání, minimalizující spotřebu strojového času

Multidimenzionální metody (1) původní řešení – využítí metod vícerozměrného indexování (např. R-strom, X-strom, VA-file, atd.), a to buď přímo – pokud data už jsou vektory nepřímo – indexováním vektorů, které vznikly jako výstup mapovacích metod většinou optimalizováno pro window queries (dotaz je obdélník) většinou obdélníkové regiony v prostoru jednoduchá reprezentace snadná tvorba nadregionů, slučování/rozdělování regionů, atd. snadné filtrační operace – dotazování obdélníkem někdy kulové (SS-strom) či jiné tvary regionů (pyramidový strom), případně kombinace koule/obdélník (SR-strom)

Multidimenzionální metody (2) výhody využití existujících, prověřených a optimalizovaných metod (většinou) nezávislost organizace indexu na konkrétní metrice lze využít vlastností vektorových prostorů – tj. objem, povrch, atd. lze indexovat nejen body, ale geometrie (např. polygony) – využití v CAD, GIS, atd. ovšem pro účely „bodového“ modelu podobnostního vyhledávání nepoužitelné nevýhody shlukování podle objemu či povrchu nemusí být ideální pro shlukování podle vzdáleností – vede k neoptimálnímu filtrování většinou optimalizováno pro minimalizaci pouze I/O nákladů pouze vektorová data anebo nutnost přemapovat (potom je třeba počítat s false hity a výsledek dofiltrovat) efektivita vyhledávání velmi rychle klesá s rostoucí dimenzí (tzv. prokletí dimenzionality, viz pozdější přednášky)

Přímé vs. nepřímé indexování

R-strom a varianty vyvážená hierarchie minimálních ohraničujících obdélníků, v listech data logaritmická složitost základních operací (vložení, vymazání, bodový dotaz) R*-strom vylepšená heuristika pro rozdělování přeplněných uzlů – kromě minimálního objemu MBR také povrch a překryv forced reinsert (vynucené znovuvložení) pro předcházení častých štěpení – znovuvloží se ty objekty, které jsou nejdále od středu regionu (zvyšuje se také využití uzlů) R+-strom MBR se nepřekrývají – velká režie konstrukce, obzvlášť při vysoké dimenzi

R-strom, L2-dotaz

R-strom, L1-dotaz

X-strom vychází z R*-stromu uzly se štepí tak, aby nedocházelo k překryvům využívá se historie štěpení (reprezentovaná binárním stromem) pokud dojde na štěpení vnitřního uzlu X, mohou nastat dva případy obě kořenové větve historie štepení (binárního stromu) obsahují víceméně stejný počet listů – potom dojde k rozštěpení uzlu X jedna větev historie obsahuje výrazně více listů – potom se uzel X neštěpí, ale zvětší se jeho kapacita (stane se z něj tzv. superuzel) X-strom vykazuje výrazně lepší výkonnost pro středně dimenzionální data než R*-strom pro vysokodimenzionální data ovšem selhává (jako ostatně všechno), takže je lepší použít sekvenční průchod

VA-file pole signatur, kde každá signatura aproximuje jeden datový vektor v podstatě jde o kompresi každá souřadnice se reprezentuje několika málo bity, místo několika bytů signatura aproximuje vektor, tj. lze ji chápat jako MBR, uvnitř něhož se datový vektor nachází vyhledávání v první fázi odfiltruje signatury (MBRs), které nepřekrývají dotaz – zbytek se dofiltruje jako obyčeně – na skutečných vektorech je vhodný pro indexování vysokodimenzionálních dat, protože index (pole signatur) je z disku načítáno sekvenčně, tj. rychle

VA-file, L2-dotaz O1 O7 false hit

Problém filtrace průnik dvou koulí stejné metriky – triviální jak obecně zjistit průnik dvou koulí rozdílných metrik? např. koule a obdélník, tj. L2(Q,rQ) a L(Oi,rOi), resp. vážená L diamant a elipsa, tj. L1(Q,rQ) a kvadr.forma(Oi,rOi) netriviální i ve vektorovém prostoru, natož obecně v metrickém

Metrické přístupové metody - motivace využití dobrých vlastností multidimenzionálních metod struktura indexu, diskový management, atd. + vlastnosti „šité na míru“ vyhledávání podle podobnosti rozsahové a k-NN dotazy indexování obecných metrických sad nástrojem pro tvorbu indexu je metrika (a samozřejmě data) popis dat metrickými regiony – ty jsou „kompatibilní“ s dotazovými regiony, takže lze lehce filtrovat nová míra nákladů na indexování/vyhledávání – množství výpočtů vzdáleností zobecnění (vzhledem k multidimenzionálním metodám) nejen vektorová data, ale obecně cokoliv, co lze měřit metrikou specializace (vzhledem k multidimenzionálním metodám) dopředu se specifikuje metrika, podle které se bude vyhledávat obecně nelze vyhledávat podle jiných metrik (nepočítá-li daná metoda s nějakou třídou metrik, např. Lp)

Metrické přístupové metody (1) vybudování indexu rozdělení dat do tříd ekvivalence hierarchická struktura plochá struktura vhodný popis tříd určení relevance třídy k dotazu geometrický popis nízké náklady prostorové – velikost indexu časové – zjištění relevance k dotazu

Metrické přístupové metody (2) implementace serializace indexu pro uložení na sekundární paměti vs. uložení v operační paměti statická vs. dynamická konstrukce indexu

Metrické přístupové metody (3) vyhledávání rychlé odfiltrování většiny irelevantních tříd v indexu sekvenční dofiltrování objektů v kandidátních třídách

Efektivita vyhledávání strojový čas potřebný pro indexování/vyhledávání počet realizací metriky d počet přístupů na disk (I/O náklady) interní výpočty (internal CPU costs) předpokládá se výrazně dominantní vliv výpočtů vzdáleností, potom I/O operací, nakonec interních výpočtů očekávané složitosti metod indexování – subkvadratická složitost, např. O(n log n) vyhledávání – sublineární složitost, např. O(log n)

Reprezentace datového prostoru pro vytvoření tříd ekvivalence potřebujeme geometrický popis, tj. rozdělení objektů do regionů v prostoru region by měl poskytovat hrubou informaci o distribuci objektů v něm obsažených disjunkce datového regionu a dotazového regionu garantuje irelevanci příslušných objektů vůči dotazu, naopak průnik obou regionů negarantuje přítomnost objektu v regionu dotazu operace zjištění nenulového průniku datového regionu s regionem dotazu by měla být „levná“

Hyper-kulové dělení prostoru mějme referenční objekt Oi a poloměr rOi potom (Oi, rOi) je „hyper-kulový“ region obsahující všechny objekty jejichž vzdálenost k Oi ≤ rOi (Oi, rOi) je komplementárně-kulový region, tj. celý prostor U kromě „díry“ (Oi, rOi) kulové regiony lze množinově (resp. logicky) kombinovat – sjednocení, průnik, rozdíl pozor!! - v metrických prostorech obecně nelze potvrdit průnik kulového regionu a průniku dvou koulí sjednocení dvou komplementárních koulí lze pouze vyloučit průnik na základě kombinace logických spojek

Nadrovinové dělení prostoru mějme dva referenční objekty, zbytek objektů rozdělíme do dvou tříd tak, že objekty v jedné třídě jsou všechny blíže „svému“ referenčnímu objektu, než ke druhému obě množiny definují hypotetickou hranici – zobecněnou nadrovinu (generalized hyperplane, zobecnění „hilbertovské“ nadroviny) lze zobecnit pro více referenčních objektů – kombinace nadrovin

Užívané vlastnosti metrik (1) pro dvě hyper-koule (Oi, rOi) a (Q, rQ) platí: pokud d(Oi, Q) > rOi + rQ, tak se neprotínají (a naopak) Důkaz: nechť Oj je libovolný bod uvnitř (Oi, rOi)

Užívané vlastnosti metrik (2) pro hyper-kouli (Q, rQ) a komplementárně-kulový region (Oi, rOi), tj. celý prostor s dírou (Oi, rOi), platí: pokud d(Oi, Q) + rQ < rOi, tak se neprotínují (a naopak) Důkaz: nechť Oj je libovolný bod uvnitř (Oi, rOi), potom

Užívané vlastnosti metrik (3) pro hyper-prstenec (Oi, rOiUp, rOiLow) a hyper-kouli (Q, rQ) platí: pokud d(Oi, Q) + rQ < rOiLow  d(Oi, Q) > rQ + rOiUp, potom se neprotínají (a naopak) – jinými slovy: pokud je dotaz celý uvnitř „malé“ koule nebo celý vně „velké“ koule Důkaz: vyplývá z předchozích dvou vět

Užívané vlastnosti metrik (4) pro dva nadrovinou určené regiony (na obr. levý, pravý) platí: pokud d(Oi, Q) – rQ > d(Oj, Q) + rQ, pak první (Oi) region neprotíná dotaz pokud d(Oj, Q) – rQ > d(Oi, Q) + rQ, pak druhý (Oj) region neprotíná dotaz stručně: filtrování na základě horní a dolní hranice vzdáleností objektů uvnitř dotazu kombinací podmínek lze zobecnit pro případ s více referenčními objekty Oi Oj