Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.

Podobné prezentace


Prezentace na téma: "IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání."— Transkript prezentace:

1 IGrid index Roman Krejčík

2 Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání

3 Motivace Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní. IGrid index – navržen pro indexaci vyskodimenzionálních dat

4 Prokletí dimenzionality Ve vysokých dimenzích (pro L p metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a nejvzdálenějším sousedem. Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek) (D max - D min ) / D min → 0 (ve většině případů)

5 Prokletí dimenzionality 2 Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data) Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod

6 Prokletí dimenzionality 3 Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry

7 Podobnostní míra Běžná podobnost založená na Lp vzdálenosti u i, l i – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“

8 Mřížka Rozdělení vektorového prostoru mřížkou Každá dimenze na k d intervalů každý interval obsahuje stejně objektů – tj N / k d k d konstanta zavislá na dimenzi

9 Lepší podobnost S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“

10 IGrid index Podobný invertovanému seznamu V paměti je uloženo: meze všech intervalů mřížky (tj. d ∙ k d intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice odkazovaného objektu pro příslušnou dimenzi Velikost reprezentace je lineárně závislá na počtu objektů

11 NN dotaz v IGrid indexu Podobnost měříme podle PSim 1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi 2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti 3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty 4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti

12 Složitost NN dotazu Index obsahuje N ∙ d záznamů v invertovaných seznamech Prochází se 1 / k d indexu (tj. N ∙ d / k d záznamů) Složitost závislá na parametru indexu k d Jaká je optimální hodnota ?

13 Optimální hodnota k d Vysoké k d zvyšuje rychlost vyhledávání Příliš vysoké k d → krátké intervaly → “false drop” → k d nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že k d musí být alespoň lineárně závislé na d, prakticky k d = θ ∙ d pro θ od 0.5 do 1

14 Vylepšení metody Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky

15 Korelace dimenzí Vysoký počet dimenzí → některé jsou korelované Pokud dimenze d 1,d 2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d 1 a d 2 Zohledníme korelace intervalů při výpočtu podobností

16 Podobnost CSim Spočteme korelaci pro všechny dvojice intervalů různých dimenzí c ij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako závislé CSim(X,Y): Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j

17 IGrid+ index Podobnostní míra PCSim = PSim + CSim Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic) Cheme rozumně vyvážit příspěvek od PSim i CSim f = 1 / ((d – 1) ∙ k d

18 Experimentální porovnání Smysluplnost použité podobnostï porovnání L p, PSim, PCSim Rychlost dotazů porovnání iGrid, iGrid+, VA-file Parametr k d resp. θ, neboť k d = θ ∙ d

19 Smysluplnost podobnosti Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve výsledku Data / Dimenze RandomEuclidanPSimPCSim A / 860293354386 B / 16065255636671 C / 141499253526192671 D / 39144688755802 E / 34926137115381606

20 Efektivita dotazování

21 Zdroje Charu C. Aggarwal, Philip S. Yu: The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space


Stáhnout ppt "IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání."

Podobné prezentace


Reklamy Google