Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 6. Metrické přístupové metody (MAM) 1. část – multidimenzionální metody a principy MAM.

Podobné prezentace


Prezentace na téma: "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 6. Metrické přístupové metody (MAM) 1. část – multidimenzionální metody a principy MAM."— Transkript prezentace:

1 Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 6. Metrické přístupové metody (MAM) 1. část – multidimenzionální metody a principy MAM

2 Osnova motivace využití multidimenzionálních metody  přímé použití – indexování vektorových dat a příslušná omezení  nepřímé použití – indexování mapovaných vektorů principy metrických přístupových metod  míry efektivity vyhledávání  reprezentace datového prostoru nadrovinové dělení prostoru hyper-kulové dělení prostoru  vlastnosti metrik užívané k filtrování při dotazech

3 Motivace drahá podobnostní funkce (omezíme se na metriky) velký objem dat velký počet uživatelů kladoucích dotazy  potřeba rychlé metody vyhledávání, minimalizující spotřebu strojového času

4 Multidimenzionální metody (1) původní řešení – využítí metod vícerozměrného indexování (např. R-strom, X-strom, VA-file, atd.), a to buď  přímo – pokud data už jsou vektory  nepřímo – indexováním vektorů, které vznikly jako výstup mapovacích metod většinou optimalizováno pro window queries (dotaz je obdélník) většinou obdélníkové regiony v prostoru  jednoduchá reprezentace snadná tvorba nadregionů, slučování/rozdělování regionů, atd. snadné filtrační operace – dotazování obdélníkem  někdy kulové (SS-strom) či jiné tvary regionů (pyramidový strom), případně kombinace koule/obdélník (SR-strom)

5 Multidimenzionální metody (2) výhody  využití existujících, prověřených a optimalizovaných metod  (většinou) nezávislost organizace indexu na konkrétní metrice  lze využít vlastností vektorových prostorů – tj. objem, povrch, atd.  lze indexovat nejen body, ale geometrie (např. polygony) – využití v CAD, GIS, atd. ovšem pro účely „bodového“ modelu podobnostního vyhledávání nepoužitelné nevýhody  shlukování podle objemu či povrchu nemusí být ideální pro shlukování podle vzdáleností – vede k neoptimálnímu filtrování  většinou optimalizováno pro minimalizaci pouze I/O nákladů  pouze vektorová data anebo nutnost přemapovat (potom je třeba počítat s false hity a výsledek dofiltrovat)  efektivita vyhledávání velmi rychle klesá s rostoucí dimenzí (tzv. prokletí dimenzionality, viz pozdější přednášky)

6 Přímé vs. nepřímé indexování

7 R-strom a varianty vyvážená hierarchie minimálních ohraničujících obdélníků, v listech data logaritmická složitost základních operací (vložení, vymazání, bodový dotaz) R*-strom  vylepšená heuristika pro rozdělování přeplněných uzlů – kromě minimálního objemu MBR také povrch a překryv  forced reinsert (vynucené znovuvložení) pro předcházení častých štěpení – znovuvloží se ty objekty, které jsou nejdále od středu regionu (zvyšuje se také využití uzlů) R+-strom  MBR se nepřekrývají – velká režie konstrukce, obzvlášť při vysoké dimenzi

8 R-strom, L 2 -dotaz

9 R-strom, L 1 -dotaz

10 X-strom vychází z R*-stromu uzly se štepí tak, aby nedocházelo k překryvům  využívá se historie štěpení (reprezentovaná binárním stromem) pokud dojde na štěpení vnitřního uzlu X, mohou nastat dva případy  obě kořenové větve historie štepení (binárního stromu) obsahují víceméně stejný počet listů – potom dojde k rozštěpení uzlu X  jedna větev historie obsahuje výrazně více listů – potom se uzel X neštěpí, ale zvětší se jeho kapacita (stane se z něj tzv. superuzel) X-strom vykazuje výrazně lepší výkonnost pro středně dimenzionální data než R*-strom pro vysokodimenzionální data ovšem selhává (jako ostatně všechno), takže je lepší použít sekvenční průchod

11 VA-file pole signatur, kde každá signatura aproximuje jeden datový vektor v podstatě jde o kompresi každá souřadnice se reprezentuje několika málo bity, místo několika bytů signatura aproximuje vektor, tj. lze ji chápat jako MBR, uvnitř něhož se datový vektor nachází vyhledávání v první fázi odfiltruje signatury (MBRs), které nepřekrývají dotaz – zbytek se dofiltruje jako obyčeně – na skutečných vektorech je vhodný pro indexování vysokodimenzionálních dat, protože index (pole signatur) je z disku načítáno sekvenčně, tj. rychle

12 VA-file, L 2 -dotaz O1O1 O7O7 false hit

13 Problém filtrace průnik dvou koulí stejné metriky – triviální jak obecně zjistit průnik dvou koulí rozdílných metrik?  např. koule a obdélník, tj. L 2 (Q,r Q ) a L  (O i,r Oi ), resp. vážená L   diamant a elipsa, tj. L 1 (Q,r Q ) a kvadr.forma(O i,r Oi )  netriviální i ve vektorovém prostoru, natož obecně v metrickém

14 Metrické přístupové metody - motivace využití dobrých vlastností multidimenzionálních metod  struktura indexu, diskový management, atd. + vlastnosti „šité na míru“ vyhledávání podle podobnosti  rozsahové a k-NN dotazy  indexování obecných metrických sad  nástrojem pro tvorbu indexu je metrika (a samozřejmě data) popis dat metrickými regiony – ty jsou „kompatibilní“ s dotazovými regiony, takže lze lehce filtrovat nová míra nákladů na indexování/vyhledávání – množství výpočtů vzdáleností zobecnění (vzhledem k multidimenzionálním metodám)  nejen vektorová data, ale obecně cokoliv, co lze měřit metrikou specializace (vzhledem k multidimenzionálním metodám)  dopředu se specifikuje metrika, podle které se bude vyhledávat  obecně nelze vyhledávat podle jiných metrik (nepočítá-li daná metoda s nějakou třídou metrik, např. Lp)

15 Metrické přístupové metody (1) vybudování indexu  rozdělení dat do tříd ekvivalence hierarchická struktura plochá struktura  vhodný popis tříd určení relevance třídy k dotazu geometrický popis nízké náklady  prostorové – velikost indexu  časové – zjištění relevance k dotazu

16 Metrické přístupové metody (2)  implementace serializace indexu pro uložení na sekundární paměti vs. uložení v operační paměti statická vs. dynamická konstrukce indexu

17 Metrické přístupové metody (3) vyhledávání  rychlé odfiltrování většiny irelevantních tříd v indexu  sekvenční dofiltrování objektů v kandidátních třídách

18 Efektivita vyhledávání strojový čas potřebný pro indexování/vyhledávání  počet realizací metriky d  počet přístupů na disk (I/O náklady)  interní výpočty (internal CPU costs) předpokládá se výrazně dominantní vliv výpočtů vzdáleností, potom I/O operací, nakonec interních výpočtů očekávané složitosti metod  indexování – subkvadratická složitost, např. O(n log n)  vyhledávání – sublineární složitost, např. O(log n)

19 Reprezentace datového prostoru pro vytvoření tříd ekvivalence potřebujeme geometrický popis, tj. rozdělení objektů do regionů v prostoru region by měl poskytovat hrubou informaci o distribuci objektů v něm obsažených disjunkce datového regionu a dotazového regionu garantuje irelevanci příslušných objektů vůči dotazu, naopak průnik obou regionů negarantuje přítomnost objektu v regionu dotazu operace zjištění nenulového průniku datového regionu s regionem dotazu by měla být „levná“

20 Hyper-kulové dělení prostoru mějme referenční objekt Oi a poloměr rOi potom (Oi, rOi) je „hyper-kulový“ region obsahující všechny objekty jejichž vzdálenost k Oi ≤ rOi  (O i, r Oi ) je komplementárně-kulový region, tj. celý prostor U kromě „díry“ (O i, r Oi ) kulové regiony lze množinově (resp. logicky) kombinovat – sjednocení, průnik, rozdíl pozor!! - v metrických prostorech obecně nelze potvrdit průnik kulového regionu a  průniku dvou koulí  sjednocení dvou komplementárních koulí  lze pouze vyloučit průnik na základě kombinace logických spojek

21 Nadrovinové dělení prostoru mějme dva referenční objekty, zbytek objektů rozdělíme do dvou tříd tak, že objekty v jedné třídě jsou všechny blíže „svému“ referenčnímu objektu, než ke druhému obě množiny definují hypotetickou hranici – zobecněnou nadrovinu (generalized hyperplane, zobecnění „hilbertovské“ nadroviny) lze zobecnit pro více referenčních objektů – kombinace nadrovin

22 Užívané vlastnosti metrik (1) pro dvě hyper-koule (O i, r Oi ) a (Q, r Q ) platí: pokud d(O i, Q) > r Oi + r Q, tak se neprotínají (a naopak) Důkaz: nechť Oj je libovolný bod uvnitř (Oi, rOi)

23 Užívané vlastnosti metrik (2) pro hyper-kouli (Q, r Q ) a komplementárně-kulový region  (O i, r Oi ), tj. celý prostor s dírou (O i, r Oi ), platí: pokud d(O i, Q) + r Q < r Oi, tak se neprotínují (a naopak) Důkaz: nechť Oj je libovolný bod uvnitř  (Oi, rOi), potom

24 Užívané vlastnosti metrik (3) pro hyper-prstenec (O i, r Oi Up, r Oi Low ) a hyper-kouli (Q, r Q ) platí: pokud d(O i, Q) + r Q r Q + r Oi Up, potom se neprotínají (a naopak) – jinými slovy: pokud je dotaz celý uvnitř „malé“ koule nebo celý vně „velké“ koule Důkaz: vyplývá z předchozích dvou vět

25 Užívané vlastnosti metrik (4) pro dva nadrovinou určené regiony (na obr. levý, pravý) platí: pokud d(O i, Q) – r Q > d(O j, Q) + r Q, pak první (Oi) region neprotíná dotaz pokud d(O j, Q) – r Q > d(O i, Q) + r Q, pak druhý (Oj) region neprotíná dotaz  stručně: filtrování na základě horní a dolní hranice vzdáleností objektů uvnitř dotazu kombinací podmínek lze zobecnit pro případ s více referenčními objekty Oi Oj


Stáhnout ppt "Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 6. Metrické přístupové metody (MAM) 1. část – multidimenzionální metody a principy MAM."

Podobné prezentace


Reklamy Google