Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
Komplexní čísla. Komplexní číslo je uspořádaná dvojice [x, y], kde číslo x představuje reálnou část a číslo y imaginární část. Pokud je reálná část nulová,
Statistická indukce Teorie odhadu.
Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
Testování statistických hypotéz
Problematika a metody zpracování biomed. dat z pohledu jejich klasifikace Marcel Jiřina.
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Lekce 9 Metoda molekulární dynamiky III Technologie Osnova 1. Výpočet sil 2. Výpočet termodynamických parametrů 3. Ekvilibrizační a simulační část MD simulace.
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Počítačová grafika III – Monte Carlo integrování
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Lineární algebra.
Diskrétní rozdělení a jejich použití
Základní číselné množiny
T.A. Edison Tajemství úspěchu v životě není v tom, že děláme, co se nám líbí, ale, že nacházíme zalíbení v tom, co děláme.
Získávání informací Získání informací o reálném systému
Odhad genetických parametrů
Fakulty informatiky a statistiky
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
TI 7.1 NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6. TI 7.2 Nejkratší cesty z jednoho uzlu Seznámíme se s následujícími pojmy: w-vzdálenost (vzdálenost na.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Data s diskrétním rozdělením
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Fyzikální systémy hamiltonovské Celková energie systému je vyjádřená Hamiltonovou funkcí H – hamiltoniánem Energie hamiltonovského systému je funkcí zobecněné.
Shluková analýza.
Funkce více proměnných.
Dokumentace informačního systému
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Odhad metodou maximální věrohodnost
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
Experimentální fyzika I. 2
Rozpoznávání v řetězcích
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Reprezentativita: chyba výběru Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Hustota pravděpodobnosti – případ dvou proměnných
Metrické indexování vektorových modelů v oblasti Information Retrieval
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Klasifikace a rozpoznávání Lineární klasifikátory.
Teorie portfolia Markowitzův model.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Úvod do databázových systémů
Reprezentativita: chyba výběru Jindřich Krejčí
- váhy jednotlivých studií
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Funkce více proměnných.
Parciální korelace Regresní analýza
ANALÝZA A KLASIFIKACE DAT
Základy statistiky.
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 9. Vnitřní dimenze a aproximativní vyhledávání

Osnova prokletí dimenzionality vnitřní dimenze aproximativní vyhledávání přibližné vyhledávání pravděpodobnostní vyhledávání kombinace (tzv. PAC queries)

Prokletí dimenzionality předpoklady: vektorová sada, uniformní distribuce (resp. nízká korelace souřadnic) se vzrůstající dimenzí rostou efekty prokletí dimenzionality prokletí = většina efektů je nepříznivých pro potřeby vyhledávání (i jiné potřeby) řešení aproximativní vyhledávání redukce dimenze

Efekty vysokých dimenzí (1) objemy uvažujme L2 kouli vepsanou do n-rozměrné jednotkové krychle – střed koule je tedy [0.5, 0.5, ..., 0.5] dále uvažujme bod [0.51, 0.51, ..., 0.51] – tedy bod, který je v každé dimenzi vzdálen od středu koule o 0.1 pro dimenzi n < 25 je bod uvnitř koule n = 25 je bod přesně na hranici koule n > 25 je bod vně koule

Efekty vysokých dimenzí (2) objemy S rostoucí dimenzí klesá poměr objemu koule a krychle. Data jsou řídká – exponenciální objem vs. konst. data

Efekty vysokých dimenzí (3) povrchy počet k-rozměrných krychlí (kvadrantů) „dotýkajících se„ n-rozměrné krychle Data jsou blízko os, jejich vektory jsou téměř ortogonální. (viz náhodné projekce – ortogonalita sloupců matice)

Efekty vysokých dimenzí (4) vzdálenosti S rostoucí dimenzí se vzdálenosti bodů (k počátku) přibližují. Nejbližší a nejvzdálenější soused (čehokoliv) mají srovnatelné vzdálenosti.

Vnitřní dimenze (1) vektorová (embedding) dimenze neříká nic o distribuci dat, např. vektory [x, y, y, y, ..., y] jsou sice vysokorozměrné, ale vlastně pouze 2-rozměrné vektory [x, 2*x, 3*x,..., d*x] leží na přímce jak měřit dimenzi u nevektorových dat? odpověď: vnitřní dimenze

Vnitřní dimenze (2) zobecnění vektorové dimenze, resp. popis struktury dat (a ne struktury prostoru) mnoho definic vnitřní/fraktální dimenze „statistická“ vnitřní dimenze (Chávez et al.) kde  je průměr 2 rozptyl vzdáleností (mezi všemi objekty) v datové sadě tato definice je „zpětně kompatibilní“, tj. vnitřní dimenze všech (nebo velkého počtu náhodně vybraných) bodů vektorového prostoru dimenze n je O(n)

Vnitřní dimenze (3) příklad nízká vnitřní dimenze vysoká vnitřní dimenze (2D vektorová sada a L1) (30D vektorová sada a L1)

Vysoká vnitřní dimenze a MAMs všechny objekty jsou víceméně stejně (hodně) vzdálené neexistují těsné shluky všechny regiony MAM se překrývají s libovolným dotazem

Aproximativní vyhledávání přibližné vyhledávání (approximately correct search) je garantována nějaká odchylka vzdálenosti, např. násobek vzdálenosti k nejbližšímu sousedu relativně malé zrychlení vyhledávání pravděpodobnostní vyhledávání (probabilistic search) je garantována pouze pravděpodobnost, že nalezený výsledek bude správný (tj. v konkrétním případě může být úplně špatný) vyšší urychlení vyhledávání, ale také vyšší riziko false dropů/false hitů kombinace – tzv. PAC queries (probably approximately correct)

Přibližné vyhledávání (1) k-NN dotazy v M-stromu relativní chyba  hledání (1+)nejbližšího souseda, tj. takový soused není dál než (1+) násobku ke skutečnému nejbližšímu sousedu úprava algoritmu kNN: z PR jsou v každém kroku odfiltrovány ty regiony které neprotínají dynamický dotaz s poloměrem rQ’ = rQ/(1+) rychlejší, ale ne o moc

Přibližné vyhledávání (2) opět k-NN v M-stromu ukončení algoritmu, když se změna poslední hodnoty v NN (tj. vzdálenosti ke kandidátovi na k-tého souseda) za posledních několik kroků zpomalí z časové řady úprav této vzdálenosti se stanoví derivace – pokud spadne pod uživatelsky definovanou konstantu , je algoritmus zastaven a obsah NN je výsledek  lze interpretovat jako šanci, že se podaří najít lepšího kandidáta

Pravděpodobnostní vyhledávání u LAESA metod zmenšení vyhledávacího „prstence“ dělením vyhledávácího poloměru rQ aby zmenšený poloměr zaručoval stanovenou pravděpodobnost korektního vyhledávání, je definován jako kde p je počet pivotů 2 je rozptyl na distribuci vzdáleností

PAC queries kombinace aproximativních a pravděpodobnostních metod např. pro M-strom a k-NN hledá se opět (1+)-NN, ale pouze s pravděpodobností  ukončovací podmínka algoritmu je navíc rozšířena o testování poklesu dynamického poloměru rQ pod rQ, což je odhad vzdálenosti (1+)NN počítaný z distribuce vzdáleností

Compact partitions (1) – inkrementální vyhledávání předpoklad: best-first algoritmus využívající frontu PR s výsledky nebo kandidáty (viz minulé přednášky) kNN algoritmus u M-stromu (navíc pole NN) lze použít i pro obyčejný rozsahový dotaz, kde poloměr je fixní a tedy se nezmenšuje jako u kNN hlavní idea – limitace počtu aplikací metriky jakmile je algoritmus ve stavu kdy je spočítáno M vzdáleností, je výpočet zastaven a uživateli vrácen aktuální obsah PR vzhledem k tomu, že fronta je setříděna podle vzdálenosti k datazu, nedostane se (díky limitaci) na neperspektivní objekty/zóny jiná terminologie: region = zóna

Compact partitions (2) – inkrementální vyhledávání

Compact partitions (3) – hodnocení zón (zone ranking) zobecnění předchozího definováním dalších heuristik pro setřídění fronty PR původní heuristika dLB = d(Q, center(Z)) – rZ vzdálenost dotazu k nejbližšímu možnému objektu v zóně d(Q, center(Z)) - vzdálenost dotazu k centru zóny d(Q, center(Z)) + rZ - vzdálenost k nejvzdálenějšímu možnému objektu v zóně dynamic beta = b(d(Q, center(Z)) – rZ) b = 1/(1.0 – center(Z)/mcr), kde mcr je maximální možný poloměr zóny podobný princip jako u pravděpodobnostní LAESA

Region proximity (1) region proximity – „datová“ vzdálenost dvou regionů pravděpodobnost, že dva regiony (Ox, rx), (Oy, ry) mají ve svém průniku společný objekt O (náhodně vybraný) – jak ji spočítat? triviální aproximace: v metrickém prostoru nemáme objem, tj. průnik musíme kvantifikovat alternativně, např. tento přístup je jednoduchý, nicméně nezohledňuje distribuci datových objektů a tudíž to není dobrá aproximace

Region proximity (2) region proximity – „datová“ vzdálenost dvou regionů aproximace zohledňující distribuci vzdáleností: celková vzdálenost párů regionů se stejnou vzdáleností mezi centry Ox, Oy jak ji spočítat? – uvažujme spojenou podmíněnou hustotu což je pravděpodobnost, že d(Ox, O) = x a d(Oy, O) = y za předpokladu d(Ox, Oy) = dxy potom lze Xdxy spočítat jako bohužel, neznáme analytickou formu

Region proximity (3) region proximity – „datová“ vzdálenost dvou regionů místo toho autoři navrhují aproximaci Xdxy jako kde fX, Y(x,y) je spojená hustota vzdáleností, tj. fX, Y(x,y) = fX (x) fY(y), nicméně X a Y jsou nezávislé náhodné proměnné, takže lze místo fX, Y použít f(x) (ta lze získat jednoduše nasamplováním z databáze) f(x) vlatně aproximuje původní bx, by jsou jisté funkce, které umožňují použít různé aproximace (ortogonální, rovnoběžnou, diagonální a normalizovanou) využití při pravděpodobnostním vyhledávání, jsou prohledány pouze takové datové regiony, které mají vzdálenost (proximity) ke koule dotazu vyšší než daná prahová hodnota

Semimetrické vyhledávání (1) uvažujme rostoucí funkci s počátkem v 0 libovolná taková funkce aplikovaná na podobnostní míru zachovává podobnostní uspořádání, tj. pokud ji použijeme k sekvenčnímu vzhodnocení, obdržíme stejný výsledek jako s původní mírou pokud tato funkce bude konvexní, aplikací na metriku obdržíme funkci vzdálenosti, která bude vykazovat nižší vnitřní dimenzi (vyhledem k libovolné databázi) bohužel tato nová míra může být pouze semimetrikou, tj. nemusí se zachovat trojúhelníková nerovnost

Semimetrické vyhledávání (2) takto vzniklou semimetriku můžeme použít v libovolné MAM tím, že vnitřní dimenze je nižší, je i vyhledávání rychlejší na druhou stranu absence trojúhelníkové nerovnosti může vést k nekorektnímu filtrování a tedy ke ztrátě přesnosti výsledku toto lze korigovat volbou modifikující funkce tak, aby její konvexita narušovala trojúhelníkovou nerovnost v dostatečně malé míře

Zdroje Bustos and Navarro: Probabilistic proximity searching algorithms based on compact partitions, Journal of Discrete Algorithms 2(1):115-134, 2004 Amato et al.: Region proximity in metric spaces and its use for approximate similarity search, ACM TODS 21(2):192-227, 2003 Skopal et al.: Metric Indexing for the Vector Model in Text Retrieval, SPIRE 2004