IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
 př. 3 Je dán vektor u=(2;-4) a bod M[3;9]. Na ose x najdi bod N tak, aby vektor MN byl s vektorem u rovnoběžný. výsledek postup řešení.
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
Dualita úloh lineárního programování a analýza citlivosti
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Třídění Seminář IVT. Definice uspořádání skupiny dat (záznamů) dle daného klíče vzestupně (od nejmenší do největší hodnoty klíče) sestupně (od největší.
Odhady parametrů základního souboru
Teorie čísel Nekonečno
Výpočetní technika Akademický rok 2006/2007 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
Plošná interpolace (aproximace)
Cvičení 6 – 25. října 2010 Heteroskedasticita
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský,
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Soustavy dvou lineárních rovnic se dvěma neznámými
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Případové usuzování v expertním systému NEST Vladimír Laš, Petr Berka Vysoká škola ekonomická, Praha.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Algoritmy vyhledávání a řazení
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání v časových řadách
Shluková analýza.
Fázová analýza Polymorfismus Izomorfismus Omezení na krystalické látky.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Realtime identifikace osob podle hlasu
Prostorové dotazy. Buffer = obalová zóna Input Features = vstupní vrstva Output Feature Class = nově vytvořená třída s výsledky (Shapefile) Distance.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Vektorová kvantizace (VQ) (Vector Quantization)
Rozpoznávání v řetězcích
ISS Úlohy o podobnosti objektů, mnohorozměrné škálování Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Tomáš Malý. Osnova  Problém aproximace rozptýlených dat  Metoda pohyblivých nejmenších čtverců  Moje implementace  Dosavadní výsledky  Plán pokračování.
Počítače a programování 1 7.přednáška. Základy Pole ve třídách a metodách Pole Arrays.
Počítačová chemie (5. přednáška)
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Prostorové dotazy.
Vícerozměrný přístup pro indexování XML dat
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prostorové datové struktury
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Perzistence XML dat Kamil Toman
Základy zpracování geologických dat R. Čopjaková.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Výpočetní technika Akademický rok 2008/2009 Letní semestr
4. cvičení
- váhy jednotlivých studií
Optimalizace SQL dotazů
Pokročilé neparametrické metody Validační techniky
Lineární regrese.
Soustava dvou lineárních rovnic se dvěma neznámými
Transkript prezentace:

IGrid index Roman Krejčík

Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání

Motivace Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní. IGrid index – navržen pro indexaci vyskodimenzionálních dat

Prokletí dimenzionality Ve vysokých dimenzích (pro L p metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a nejvzdálenějším sousedem. Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek) (D max - D min ) / D min → 0 (ve většině případů)

Prokletí dimenzionality 2 Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data) Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod

Prokletí dimenzionality 3 Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry

Podobnostní míra Běžná podobnost založená na Lp vzdálenosti u i, l i – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“

Mřížka Rozdělení vektorového prostoru mřížkou Každá dimenze na k d intervalů každý interval obsahuje stejně objektů – tj N / k d k d konstanta zavislá na dimenzi

Lepší podobnost S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“

IGrid index Podobný invertovanému seznamu V paměti je uloženo: meze všech intervalů mřížky (tj. d ∙ k d intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice odkazovaného objektu pro příslušnou dimenzi Velikost reprezentace je lineárně závislá na počtu objektů

NN dotaz v IGrid indexu Podobnost měříme podle PSim 1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi 2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti 3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty 4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti

Složitost NN dotazu Index obsahuje N ∙ d záznamů v invertovaných seznamech Prochází se 1 / k d indexu (tj. N ∙ d / k d záznamů) Složitost závislá na parametru indexu k d Jaká je optimální hodnota ?

Optimální hodnota k d Vysoké k d zvyšuje rychlost vyhledávání Příliš vysoké k d → krátké intervaly → “false drop” → k d nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že k d musí být alespoň lineárně závislé na d, prakticky k d = θ ∙ d pro θ od 0.5 do 1

Vylepšení metody Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky

Korelace dimenzí Vysoký počet dimenzí → některé jsou korelované Pokud dimenze d 1,d 2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d 1 a d 2 Zohledníme korelace intervalů při výpočtu podobností

Podobnost CSim Spočteme korelaci pro všechny dvojice intervalů různých dimenzí c ij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako závislé CSim(X,Y): Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j

IGrid+ index Podobnostní míra PCSim = PSim + CSim Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic) Cheme rozumně vyvážit příspěvek od PSim i CSim f = 1 / ((d – 1) ∙ k d

Experimentální porovnání Smysluplnost použité podobnostï porovnání L p, PSim, PCSim Rychlost dotazů porovnání iGrid, iGrid+, VA-file Parametr k d resp. θ, neboť k d = θ ∙ d

Smysluplnost podobnosti Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve výsledku Data / Dimenze RandomEuclidanPSimPCSim A / B / C / D / E /

Efektivita dotazování

Zdroje Charu C. Aggarwal, Philip S. Yu: The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space