Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilMaxim Tábor
1
IGrid index Roman Krejčík
2
Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání
3
Motivace Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní. IGrid index – navržen pro indexaci vyskodimenzionálních dat
4
Prokletí dimenzionality Ve vysokých dimenzích (pro L p metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a nejvzdálenějším sousedem. Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek) (D max - D min ) / D min → 0 (ve většině případů)
5
Prokletí dimenzionality 2 Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data) Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod
6
Prokletí dimenzionality 3 Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry
7
Podobnostní míra Běžná podobnost založená na Lp vzdálenosti u i, l i – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“
8
Mřížka Rozdělení vektorového prostoru mřížkou Každá dimenze na k d intervalů každý interval obsahuje stejně objektů – tj N / k d k d konstanta zavislá na dimenzi
9
Lepší podobnost S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“
10
IGrid index Podobný invertovanému seznamu V paměti je uloženo: meze všech intervalů mřížky (tj. d ∙ k d intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice odkazovaného objektu pro příslušnou dimenzi Velikost reprezentace je lineárně závislá na počtu objektů
11
NN dotaz v IGrid indexu Podobnost měříme podle PSim 1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi 2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti 3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty 4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti
12
Složitost NN dotazu Index obsahuje N ∙ d záznamů v invertovaných seznamech Prochází se 1 / k d indexu (tj. N ∙ d / k d záznamů) Složitost závislá na parametru indexu k d Jaká je optimální hodnota ?
13
Optimální hodnota k d Vysoké k d zvyšuje rychlost vyhledávání Příliš vysoké k d → krátké intervaly → “false drop” → k d nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že k d musí být alespoň lineárně závislé na d, prakticky k d = θ ∙ d pro θ od 0.5 do 1
14
Vylepšení metody Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky
15
Korelace dimenzí Vysoký počet dimenzí → některé jsou korelované Pokud dimenze d 1,d 2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d 1 a d 2 Zohledníme korelace intervalů při výpočtu podobností
16
Podobnost CSim Spočteme korelaci pro všechny dvojice intervalů různých dimenzí c ij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako závislé CSim(X,Y): Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j
17
IGrid+ index Podobnostní míra PCSim = PSim + CSim Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic) Cheme rozumně vyvážit příspěvek od PSim i CSim f = 1 / ((d – 1) ∙ k d
18
Experimentální porovnání Smysluplnost použité podobnostï porovnání L p, PSim, PCSim Rychlost dotazů porovnání iGrid, iGrid+, VA-file Parametr k d resp. θ, neboť k d = θ ∙ d
19
Smysluplnost podobnosti Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve výsledku Data / Dimenze RandomEuclidanPSimPCSim A / 860293354386 B / 16065255636671 C / 141499253526192671 D / 39144688755802 E / 34926137115381606
20
Efektivita dotazování
21
Zdroje Charu C. Aggarwal, Philip S. Yu: The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.