Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.

Slides:



Advertisements
Podobné prezentace
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
Advertisements

Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK Odpřednášeno
Rovnice roviny Normálový tvar rovnice roviny
Aplikace GNSS v IG Grečnár Jiří.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Filtr významnosti jako framework pro prezentační vrstvu
Co to je STR? STR je fyzikální teorie publikovaná r Albertem Einsteinem Nahrazuje Newtonovy představy o prostoru a čase Nazývá se speciální, protože.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
Úvod do Teorie množin.
DOK.
Statistika Vypracoval: Mgr. Lukáš Bičík
Shlukovací algoritmy založené na vzorkování
Obsah statistiky Jana Zvárová
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Shluková analýza.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Inerciální měřící systémy
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Definice, druhy, chyby, abstrakce
MS ACCESS.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Shluková analýza.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Nová metoda pro generování 2D farmakoforového modelu David Hoksza 1,2, Daniel Svozil 2 SIRET Research Group MFF UK Laboratoř informatiky a chemie FCHT.
Lineární zobrazení.
Ukládání heterogenních dat pomocí rozvolněných objektů Michal Žemlička.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Definice fraktální (vnitřní) dimenze a její aplikace v databázích
Vektorové prostory.
III. Analýza nabídky Přehled témat 8. Technologie 9. Minimalizace nákladů 10. Maximalizace zisku 11. Alternativní teorie firmy.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
8. Prostorové vytyčovací sítě - Běžně se polohová a výšková složka určuje odděleně (obzvláště při vyšších požadavcích na přesnost). -Souřadnicový systém.
4 Základy - pojmy Střed promítání ,,O“ Hlavní bod snímku ,,H“ Konstanta komory ,,f“ Osa záběru Střed snímku ,,M“ Rámová značka (měřický snímek) Úvod do.
Diplomová práce Autor: Ondřej Renner
Vícerozměrný přístup pro indexování XML dat
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
ROZHODOVÁNÍ Osnova: 1. Východiska
ROZHODOVÁNÍ Osnova: Východiska Procesní stránka rozhodování
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Iontová výměna Změna koncentrace kovu v profilovém elementu toku Faktor  modelově zohledňuje relativní úbytek H + v roztoku související s vymýváním dalších.
Metrické indexování vektorových modelů v oblasti Information Retrieval
SGEO2B Témata závěrečných prací. Ukázka.. Formální stránka práce Titulní strana: škola, název práce, autor, datum Písmo vel. 12, řádkování 1,5 Okraje:
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Moderní informační systémy - úvod do teorie, druhy IS v cestovním ruchu.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Úvod do databázových systémů
Programování ENUM, SWITCH,pole jednorozměrná a vícerozměrná, deklarace, inicializace, kopírování, porovnání Erik Král.
Databázové systémy 1 – KIT/IDAS1 Ing. Monika Borkovcová, Ph.D.
Fulltextové vyhledávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
ANALÝZA A KLASIFIKACE DAT
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Základy statistiky.
8. Prostorové vytyčovací sítě
ANALÝZA A KLASIFIKACE DAT
Náhodné výběry a jejich zpracování
Transkript prezentace:

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad

Osnova Motivace  mapování do vektorů jako součást extrakce vlastností  vlastnosti mapování, důsledky pro vyhledávání Mapování vektorových sad  kontraktivní triviální redukce dimenze  aproximativní LSI (resp. SVD) náhodné projekce Mapování metrických sad  kontraktivní pivot-based metody modifikovaný SparseMap  aproximativní FastMap SparseMap MetricMap

Motivace Mapování (mapping, embedding) = zobrazení objektů datové sady S do vektorového prostoru dimenze k tak, že původní vzdálenosti d(*,*) mezi objekty jsou (částečně) zachovány i mezi zobrazenými vektory (vzhledem ke vzdálenosti  (*,*) ve vektorovém prostoru) proč mapovat?  rychlost vyhledávání – drahá funkce podobnosti d vs. levná funkce  (např.  je L p metrika O(k), kdežto d je třeba editační vzdálenost O(m*n))  redukce dimenze konstantní dimenze k – lepší správa dat (např. řetězce mají proměnlivou délku) snížení prostorových nároků na ukládání/vyhledávání objektů nižší dimenze = (někdy) lepší možnosti indexování  využití prostorových (vektorových) metod indexování (např. R-strom, atd.)  d nemusí být metrika, kdežto  většinou je (takže lze lépe indexovat)

Mapování jako extrakce vlastností kolekce multimediálních dokumentů + lidské vnímání podobnosti sada objektů S  U + míra podobnosti/odlišnosti na U klasická extrakce vlastností: 1) „ruční“ návrh reprezentace dokumentů – schéma univerza U 2) „ruční“ návrh měření podobnosti/odlišnosti – míra d na U 3) „ruční“ návrh metody extrakce – doménově závislá metoda mapování: 1) automatický návrh reprezentace dokumentů – vektory dimenze k 2) automatický návrh měření vzdálenosti – předdefinovaná metrika (např. L 2 ) 3) automatická extrakce – jedna z univerzálních metod (viz dále) sada vektorů S’  R k + metrika na R k

Mapování – definice a vlastnosti zobrazení (vnoření) prostoru (S, d) do (R k,  ) formálně F: S  R k 1/c 1 * d(O 1,O 2 )   (F(O 1, O 2 ))  c 2 * d(O 1, O 2 )  nejmenší c 1 *c 2 určuje zkreslení vzdáleností (distortion)  obecně zkreslení nemusí existovat, resp. může být nekonečné  každý konečný metrický prostor lze vnořit do Euklidovského prostoru (tj. do (R k, L 2 )) tak, že zkreslení dosahuje O(log |S|) pokud c 1 > 1 a c 2 > 1, je mapování aproximativní pokud c 2 = 1, je mapování kontraktivní, tj.  (F(O 1, O 2 ))  d(O 1, O 2 ) alternativní mírou zachování vzdáleností je stress  O 1,O 2 (  (F(O 1 ), F(O 2 )) – d(O 1, O 2 )) 2 /  O 1,O 2 d(O 1, O 2 ) 2  stress měří celkovou odchylku vzdáleností, tj. rozsah, ve kterém se odlišují  existují varianty

Mapování a dotazy (1) dotaz často nepochází z datové sady, tj. Q  U – S datová sada S je často budována dynamicky je žádoucí uvažovat F: U  R k místo F’: S  R k, jinak:  pro dynamicky rostoucí S nebo pro Q  U – S vzroste zkreslení např. kontraktivita F’ už není zaručena pro F  lze aplikovat v případě, kdy se F konstruuje nezávisle na S, tj. přímo ze znalosti U (a případně nějakých konstantních dat)  bohužel, někdy to nejde, v tom případě se spoléhá na uniformitu dat i dotazů (tj. že se zkreslení zásadně nezvýší) pro konstrukci F se použije dostatečně velký vzorek S, u kterého se předpokládá, že je reprezentativní (popisuje distribuci i zbytku dat, včetně dotazů)

Mapování a dotazy (2) nechť QR orig je výsledek dotazu provedeného v původním prostoru (S, d) a QR map je výsledek dotazu provedeného v novém prostoru (R k,  ), potom  objekt Oi  QR map a zároveň Oi  QR orig je false hit  objekt Oi  QR map a zároveň Oi  QR orig je false drop obecně při nenulovém zkreslení vzdáleností (aproximativní mapování) dochází i ke zkreslení výsledků dotazů  může nastat QR orig ≠ QR map, přičemž QR orig  QR map a QR map  QR orig  dochází jak k „false hits“, tak k „false drops“, tj. snižuje se relativní přesnost, resp. relativní úplnost (vzhledem ke QR orig ) u kontraktivního mapování dochází u rozsahových dotazů (Q, r Q ) pouze k false hits (tj. relativní úplnost je 100%)  vždy platí QR orig  QR map  k false drop nemůže dojít, protože d(Q, O i )  r Q   (F(Q), F(O i ))  r Q  neplatí pro kNN dotazy! (lze dosáhnout kombinací vyhledávání v obou prostorech)

Mapování a dotazy (3) Důsledky mapování pro vyhledávání: aproximativní mapování  aproximativní vyhledávání (false hits a false drops), tj. nižší relativní přesnost a úplnost  může výrazně zrychlit vyhledávání levnější funkce odlišnosti ve vektorovém prostoru (navíc metrika) změna distribuce dat v prostoru – tvorba shluků  chyba vyhledávání (přesnost a úplnost) především závisí na velikosti dimenze k a na metrice kontraktivní mapování  přesné vyhledávání (vzhledem k původnímu prostoru) – false hits ve výsledku dotazu jsou odfiltrovány v druhé fázi vyhledávání (pomocí původní podobnosti), false drops nejsou  zrychlení vyhledávání levnější funkce odlišnosti ve vektorovém prostoru (navíc metrika) pro první fázi filtrování nicméně původní drahou podobnostní funkci je třeba použít pro druhou fázi filtrování  efektivita filtrování závisí na velikosti dimenze k a na metrice

Mapování vektorů do vektorů Důvody pro „přemapování“ vektorů: redukce dimenze z N do k, kde k << N  nižší nároky na uložení i vyhledávání levnější funkce podobnosti (metrika)  díky nižší dimenzi  nižší složitost (např. od kvadratické formy k L 2 ) zanedbání méně významných dimenzí (resp. podprostorů) tak, že přesnost a úplnost je ovlivněna pouze marginálně

Triviální redukce dimenze prosté zanedbání některých dimenzí  ručně, uživatel určí nejméně důležité dimenze  automaticky, statistickou analýzou „příspěvků“ dimenzí  omezené využití – tam, kde jsou dimenze striktně nezávislé a výrazně se liší distribuce na jednotlivých dimenzích  výhoda: nezávislost mapování na S a dotazech, tj. F: U  R k kontraktivní např. pro L p metriky  důkaz triviální: ubereme „ příspěvek“ dané dimenze = zmenšení celkové vzdálenosti

Indexování latentní sémantiky - LSI indexační schéma využívající aproximativního mapování F: R N  R k pomocí singulárního rozkladu (SVD) datové matice, kde d =  = L 2 původně navrženo pro textové dokumenty (vektorový model DIS), nicméně používá se v širším kontextu Information Retrieval odkrývá latentní sémantiku v datech – odhaluje skryté vzory ve vektorech, tzv. koncepty (lineární kombinace původních dimenzí) nový prostor „konceptů“, vektory „vah konceptů“ koncepty jsou navíc seřazeny podle důležitosti, tj. méně důležité koncepty (vlastně šum) lze zanedbat – další redukce dimenze

LSI – popis Datová matice A řádu N x |S|, sloupce tvoří vektory (dimenze N) objektů z S. Plný SVD rozklad: A = V  W T, kde sloupcové vektory ve V (řádu N*N) tvoří levou singulární bázi, sloupcové vektory ve W (řádu |S|*|S|) tvoří pravou singulární bázi a diagonální matice  (řádu N*|S|) obsahuje klesající singulární čísla  1 ≥  2 ≥... ≥  min(N,|S|) příslušná k singulárním vektorům. Popis matic důležitých pro LSI: V – sloupce tvoří bázi konceptů v původním prostoru  W T – sloupcemi jsou namapované vektory (vyjádřené v bázi konceptů) V T q– projekce dotazového vektoru q do cílového prostoru, používá se pro porovnávání s vektory (  W T ) i

Redukovaný SVD rozklad Místo plného SVD rozkladu se používá redukovaný rank-k SVD rozklad: A k = V k  k W k T kde k << N, V k obsahuje prvních k sloupců z V,  k obsahuje prvních k singulárních čísel a W k T obsahuje prvních k řádků W T, tj. obdržíme namapované vektory dimenze k (sloupce  k W k T ) A k je nejlepší aproximace A (důkaz Eckart aYoung) ze všech matic hodnosti k ve smyslu Frobeniovy normy, tj. pro A k je minimální ||A – A k || F = sqrt(  2 k+1 +  2 k+2 +  2 k  2 rA ) Pro rank-k SVD existují rychlé numerické metody - “Lanczos”, “Arnoldi”...

kolekce 730 obrázků domů Příklad LSI na obrázcích (1)

Nechť matice A reprezentuje kolekci obrázků. Každý sloupec v A je jeden “dlouhý” vektor, v případě obrázků vektor jasů všech pixelů. a) Skenujeme pixely každého obrázku a vytvoříme vektor obrázku V i : b) Vektor obrázku V i : V i = (251,250,251,251,249,247,252,249,244,242,216,227,...) T A = N = výška*šířka např = 60*80 Nechť počet obrázků v kolekci je |S|, potom matice A je řádu N x |S| např * 730 Příklad LSI na obrázcích (2)

Vizualizace matice A (prvních 20 sloupcových vektorů obrázků):... Vizualizace matice V (levá báze singulárních vektorů – obrázkové koncepty):... Díky povaze matice A (přímo jasy pixelů) můžeme hovořit o “singulárních obrázcích” namísto levých singulárních vektorů ve V. Každý “singulární obrázek” je nějakou měrou přítomen ve všech indexovaných obrázcích. Tato míra je daná velikostí hodnot singulárních čísel  i, tj. první singulární obrázky jsou nejdůležitější (připomíná DCT frekvence.) Příklad LSI na obrázcích (3)

Příklad LSI na obrázcích (4) Důležitost levého singulárního vektoru V i (singulárního obrázku) je dána hodnotou  i. Singulárních čísel je maximálně |S|. Příklad, diagonála v  je:  = 10 5 * (2.2555, , , , , , , , , , , , 0.106, 0.1, , , , , , , ,...) k = 50

Původní obrázky (jasy) – matice A: Visualizace chyby aproximace pomocí rank-k rekonstrukce: Rank-15 SVD, rekonstruované obrázky – matice A 15 : - pouze hrubé obrysy původních obrázků Příklad LSI na obrázcích (5)

Původní obrázky – matice A: Rank-50 SVD- jemnější obrysy, hrubé detaily původních obrázků Rank-250 SVD- ještě jemnější obrysy, více detailů Příklad LSI na obrázcích (6)

Náhodné projekce (random projections - RP) LSI, resp. SVD, je výpočetně drahé mapování – levnou variantou redukce dimenze jsou náhodné projekce matice A pomocí projekční matice R se datová matice A promítne do R T A (místo projekce V T A u LSI) R se zkonstruuje tak, že její prvky jsou nezávislé náhodné proměnné a řádky matice mají nulovou střední hodnotu a jednotkový rozptyl  klasická náhodná projekce – prvky R mají normální rozložení na intervalu 0..1  jednoduchá náhodná projekce (dvě varianty) R obsahuje celá čísla {-1, 0, 1}, resp. jejich násobky  3, 0 má pravděpodobnost 2/3 a  1 má pravděpodobnost 1/6 R obsahuje celá čísla {-1, 1},  1 má pravděpodobnost ½  aby R byla projekční, musí být sloupcově ortonormální, nicméně při dostatečně velké dimenzi a výše zmíněné konstrukci je to „skoro“ pravda, tj. R T R je „skoro“ identita

Srovnání LSI a náhodných projekcí experimentální srovnání pro vektorový model (VM) v Text Retrieval data: cca dokumentů LATimes o cca termech, tj. vektory dimenze 50000, redukce do dimenze 50,100,250,500,1000 výhody náhodných projekcí  mnohem levnější než SVD (levné generování R oproti výpočtu V)  vzdálenosti jsou poměrně dobře zachovány (pro rozumné k) nevýhody proti LSI  potřeba větší k pro srovnatelné zachování vzdáleností  neexistují koncepty, sloupce projekční matice R jsou všechny „stejně důležité“