Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK

Slides:



Advertisements
Podobné prezentace
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Advertisements

Fourierova transformace Filtrování obrazu ve frekvenční doméně
MARKOVSKÉ ŘETĚZCE.
Počítačová grafika III - Cvičení Integrováví na jednotkové kouli
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
57. ročník MO Soustředění řešitelů Kategorie A Exponenciela Litoměřice 2007.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
DOK.
Databáze Jiří Kalousek.
T.A. Edison Tajemství úspěchu v životě není v tom, že děláme, co se nám líbí, ale, že nacházíme zalíbení v tom, co děláme.
EKO/GISO – Modely prostorových dat.  Mnoho definic - jedno mají společné – Gisy pracují s prostorovými daty  Minimální GIS vždy spojuje databázi, prostorové.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Biometrické Bezpečnostní Systémy Filip Orság Technologie rozpoznání mluvčího.
Rovinné útvary.
Systémy pro podporu managementu 2
Gis pro krajinné ekology
Počítačová grafika.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Informatika pro ekonomy II přednáška 10
Diskrétní Fourierova transformace
Definice, druhy, chyby, abstrakce
Datové typy a struktury
Úvod do 3D geometrie První přednáška mi vyšla na 90 minut po slajd 31 (3D representace modelů). Ten zbytek jsem pak prolítnul tak za pět minut, ale myslím.
Moderních digitální bezdrátové komunikace
Teorie relativity VŠCHT Praha, FCHT, Ústav skla a keramiky Motivace: Elektrony jsou již u relativně malých energií relativistické (10 keV). U primárních.
1 Kognitivní inspirace třídění na základě závislostí atributů Jan Burian Eurfomise centrum – Kardio, Ústav informatiky AV ČR Článek je dostupný na WWW:
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
VLASTNOSTI GRAFŮ Vlastnosti grafů - kap. 3.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Lineární regresní analýza
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Podobnost trojúhelníků
Databázové systémy Informatika pro ekonomy, př. 18.
Variační geometrie a parametrizace modelu KMA / GPM F. Ježek
Spojení a průnik podprostorů
2. Vybrané základní pojmy matematické statistiky
Mechanika a kontinuum NAFY001
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Mechanika I. Rovnoměrný pohyb po kružnici VY_32_INOVACE_10-10.
Vložené objekty 2012 O.Kánský. Typy objektů textová pole - rámce rastrové a vektorové obrázky tabulky a grafy matematické výrazy a rovnice organizační.
Vícerozměrný přístup pro indexování XML dat
Prostorové datové struktury
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
ANALÝZA A KLASIFIKACE DAT
MASKS © 2004 Invitation to 3D vision. MASKS © 2004 Část 1 Přehled a úvod.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Metrické indexování vektorových modelů v oblasti Information Retrieval
SGEO2B Témata závěrečných prací. Ukázka.. Formální stránka práce Titulní strana: škola, název práce, autor, datum Písmo vel. 12, řádkování 1,5 Okraje:
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Skalární součin 2 vektorů
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Repetitorium z matematiky Podzim 2012 Ivana Medková
Geografické informační systémy pojetí, definice, součásti
Martina Braunerová.  obrázek je složen ze základních geometrických tvarů (body, přímky, křivky, mnohoúhelníky)  je možné libovolné zmenšování či zvětšování.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Ing. Milan Houška KOSA PEF ČZU v Praze
Geografické informační systémy
vnímání velikosti a prostoru zpracování zrakové informace v mozku
Informatika pro ekonomy přednáška 8
1 Lineární (vektorová) algebra
Geografické informační systémy
Geografické informační systémy
Úvod Aritmetické a geometrické posloupnosti a jedna zajímavá funkcionální rovnice.
ANALÝZA A KLASIFIKACE DAT
Autor: Honnerová Helena
Fyzikální veličiny Míry fyzikálních vlastností: X = x [X]
Transkript prezentace:

Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 2. Modelování a podobnost

Modelová struktura multimedia retrieval systému LAN, intranet, ... web „sketch“ dotaz robot „example“ dotaz manažer dokumentů relevance feedback extraktor indexer podobnost index(y) databáze dokumentů relevantní dokumenty

Extrakce vlastností které vlastnosti extrahovat? geometrický přístup používané mírou podobnosti deskriptivní (rozlišující) relativně malý počet kompaktní (malé prostorové náklady) geometrický přístup model vektorového prostoru metrického prostoru obecně „dissimilarity space“ single-reprezentace vs. multi-reprezentace single-reprezentace – jediný komplexní objekt, složen z více podobjektů problém: jak měřit komplexní podobnost? multi-reprezentace – dokument je rozdroben na více jednoduchých objektů problém: jak při extrakci rozpoznat izolované části v dokumentu?

Vektor homogenní heterogenní kombinovaný histogram na jedné sémantické doméně např. šedotónový histogram k obrázku heterogenní kombinace nezávislých vlastností (domén) např. u notové partitury (takt, tempo, žánr, délka) kombinovaný homogenní části vektoru např. 3 histogramy pro barvy

Geometrie polygon síť polygonů

Množina otisky komplexní objekty, single-reprezentace identifikační body (více druhů) komplexní objekty, single-reprezentace např. řetězce (množina slov/vět v textu) tvary (polygony) cokoliv jiného

Posloupnost diskrétní signál v čase, extrakce vzorkováním řetězec akcie trajektorie řetězec vektor proměnné délky DCT, DFT, DWT koeficienty obecně lineární uspořádání na množině čehokoliv

Řetězec DNA termy slovník AATAGCAGCATA...

Graf XML topologie webu XML dokument reprezentován stromem (obecně grafem) sada grafů topologie webu identifikace zajímavých podgrafů např. k-souvislé komponenty modelování topologií webových komunit podgrafy tvoří objeky sady

Míry podobnosti vlastnosti učení, adaptace, relevance feedback metriky, nemetriky kvalita (teorie podobnosti vs. restrikce) učení, adaptace, relevance feedback uživatelské profilování robustní míry většinou nemetrické snížená citlivost na tzv. „outliers“, anomální objekty, kde vlastnost objektu je výrazně jiná než tato vlastnost u ostatních objektů typicky šum nebo chyba v signálu důraz na efektivní spočitatelnost

Metriky vs. nemetriky argumenty proti axiomům metriky (a) reflexivita (b) pozitivita (c) symetrie (d) trojúhelníková nerovnost

Vektorové metriky tzv. Minkowského vzdálenosti L1 L2 L5 L∞ vážená L2 kvadratická forma vážená L2

Vektorové nemetrické míry (1) kosinová míra SIMcos kosinus úhlové odchylky dvou vektorů normovaný skalární součin úhel (tj. arccos(SIMcos)) je metrika (L2 vzdálenost po povrchu jednotkové koule v radiánech) robustní vůči velikostem vektorů fractional Lp distances zobecnění Minkowského vzdáleností použitím p<1 robustní vůči extrémním rozdílům hodnot souřadnic L0.5

Vektorové nemetrické míry (2)

Vektorové nemetrické míry (3) COSIMIR třívrstvá neuronová síť vstup – dva vektory výstup – hodnota podobnosti učení pomocí back-propagation uživatelem ohodnocené vektory nebezpečí lokálních extrémů, tj. při učení nemusí konvergovat

Konvexní vs. nekonvexní regiony na tvaru regionu nezáleží „hustota“ regionů se liší metrika nemetrika metrika nemetrika

Míry pro posloupnosti lze aplikovat i vektorové míry (např. Euklidovskou) nevhodné pro porovnávání různě dlouhých posloupností omezeno na číselné posloupnosti (dynamic) time warping distance (DTW) zohledňuje časově lokální „frekvenci vzorkování“ tím, že lokálně „natahuje/zkracuje“ posloupnost s cílem najít nejmenší cenu součtu parciálních vzdáleností tzv. zarovnání posloupností (sequence alignment) i nečíselné posloupnosti (prvkem může být cokoliv „měřitelné“) není to metrika (porušena trojúhelníková nerovnost)

DTW, princip (1) matice M řádu m x n, kde m = |s1|, n = |s2|, kde s1 a s2 jsou porovnávané posloupnosti buňka matice M(i,j) odpovídá parciální vzdálenosti (s1(i),s2(j)) DTW(s1,s2) je nejkratší cesta v matici (ve smyslu součtu hodnot buněk na cestě) definice cesty – buňky na cestě mají jisté vlastnosti monotónnost – buňky uspořádány monotónně spojitost – buňka „sousedí“ s buňkou hraniční podmínka – první buňka je v matici na souřadnicích (0,0), poslední na souřadnicích (m-1, n-1)

DTW, princip (2) exponenciální počet možných cest, nicméně DTW lze spočítat v čase O(m*n) pomocí dynamického programování parametr ≥0 (tzv. Sakoe-Chibův pás) umožňuje snížit počet přípustných cest, čímž se zamezuje „patologickým cestám“ snižuje složitost výpočtu na O((m+n)* ) pro =0, m=n a (x,y) = |x-y| dostaneme Euklidovskou vzdálenost (L2) (pouze jedna cesta, zarovnává se 1:1)

Řetězcové (ne)metriky (1) editační vzdálenost (Levenshteinova metrika) je nejmenší počet operací potřebných ke konverzi jednoho řetězce do druhého operace vložení, vymazání, substituce znaku substituce se může chápat jako dvojice vložení, vymazání), tzv. indel vzdálenost (insert-delete), tj. lze se omezit pouze na indel různé váhy pro operace podobná filosofie jako u DTW koncept cest v matici, resp. alignment, dynamické programování šikmá hrana v cestě je match znaků, vertikální/horizontální je vložení/smazání Hammingova vzdálenost editační, kde je povolena pouze substituce řetězce stejné délky, v podstatě vektorová metrika indel(ATGTTAT ATCGTAC) = 4 hamming(ABCDEF BCDEFA) = 6

Řetězcové (ne)metriky (2) LCSS (longest common subsequence) hledání nejdelšího společného podřetězce (podposloupnosti) myslí se podposloupnost, která může být „prokládaná“, tj. LCSS(ABCD, ACBD) = 3 (buď ABD nebo ACD) opět podobná filosofie jako u DTW rovněž koncept cest v matici, resp. alignment, dynamické programování pouze binární ohodnocení vztahu prvků v posloupnostech (match / mismatch) šikmá hrana je match, rovná hrana mismatch využití zejména v DNA databázích nemetrika

Množinové metriky (1) Jaccard distance (normed overlap distance) normovaná velikost průniku dvou množin Hausdorffova metrika měří „nejvzdálenějšího nejbližšího souseda“ pro všechny prvky A se spočítají vzdálenosti k nejbližšímu sousedu v B a vezme se maximum dNO({kočka, pes, myš}, {klávesnice, myš}) = 0.75

Množinové metriky (2) Hausdorffova metrika a shape retrieval - multi-reprezentace (sada objektů příslušející jednomu dokumentu) -  je vzdálenost dvou úseček (obecně kusů polygonu) sada objektů příslušející jednomu dokumentu výsledek – nejbližší objekt, resp. odpovídající dokument dotaz source: Michael Leventon's pages

Množinové metriky (2) Hausdorffova metrika a otisky prstů - single-reprezentace -  je Euklidova vzdálenost dvou bodů (identifikační body)

Grafové metriky měření strukturální podobnosti stromová editační vzdálenost novější obdoba řetězcové editační vzdálenosti je nejmenší počet operací potřebných ke konverzi jednoho stromu do druhého operace přejmenování uzlu, vymazání uzlu, vložení uzlu

Robustní míry k-median distances fractional Lp distances uvažuje (k-té) nejpodobnější části v objektu operátor k-med (výběr k-té nejmenší hodnoty) se aplikuje na setříděnou posloupnost parciálních vzdáleností fractional Lp distances redukuje se vliv „outlier dimenzí“

k-median Hausdorff distance single-reprezentace  je Hausdorffova metrika (jako u multi-reprezentace) k = 3 (vrací vzdálenost třetího nejpodobnějšího objektu) outliers

Black-box míry zcela neznámá analytická definice black-box algoritmus HW zařízení