Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava
Information Retrieval vyhledávání v kolekcích (multimediálních) dokumentů klasické modely IR: boolovský model (teorie množin) vektorový model (lineární algebra) pravděpodobnostní model (teorie pravděpodobnosti) kvalita modelu určena koeficienty přesnosti a úplnosti různé modely = různá efektivita (kvalita) + různá implementace použitelnost IR modelu determinuje kromě kvality také „implementovatelnost“ boolovský model je efektivně implementovatelný – invertované seznamy
Vektorový model kvalitativně lepší než boolovský dokument je reprezentován vektorem vah termů v dokumentu, tj. dimenze je velmi velká, např. 100.000 řídká matice termů-dokumentů, sloupce jsou vektory dokumentů podobnost dvou dokumentů je definována jako kosinus odchylky jejich vektorů – tvz. kosinová míra pomocí funkce podobnosti se vyhodnocují dotazy Problém: v současné době neexistuje efektivní implementace (indexovací schéma), vyhodnocování probíhá sekvenčně, což znamená: sekvenční načtení celé matice (až v řádu GB) mnohonásobné volání „drahé“ funkce podobnosti (např. milionkrát)
Matice termů-dokumentů vektorového modelu Transponovaná matice termů-dokumentů
LSI (indexování latentní sémantiky) algebraické rozšíření vektorového modelu z matice termů-dokumentů se „vyrobí“ matice konceptů-dokumentů SVD rozkladem (koncepty = levé singulární vektory) významných konceptů je daleko méně než termů, např. stovky redukuje se dimenze, ale matice konceptů-dokumentů není řídká samotné LSI vlastně není indexování (nevzniká pravý index), vyhledávání probíhá opět sekvenčně nad maticí konceptů-dokumentů přínos především z hlediska odhalování latentní (skryté) sémantiky významné koncepty reprezentují témata, LSI tedy již není vázáno přímo na termy nevýznamné koncepty jsou ignorovány jako „šum“
Metrické indexování naším cílem je vytvořit nad maticí (ať termů-dokumentů nebo konceptů-dokumentů) index, který umožňuje: přístup pouze k malé části matice šetří diskové operace volat funkci podobnosti mnohem méně šetří CPU M-strom perzistentní, vyvážený strom indexující objekty jen na základě metriky; hierarchie metrických regionů shlukuje „podobné“ objekty (dokumenty) v metrických regionech místo kosinové míry lze použít např. odchylkovou metriku přímo implementuje dotazy na podobnost, které vyžaduje také vektorový model vyšší odolnost vůči tzv. „prokletí dimenzionality“
Experimenty Předběžné experimenty ukazují např. na rostoucí efektivitu s rostoucím počtem dokumentů.
Další práce jiné konfigurace M-stromu a metrik, např. použití vážené odchylkové metriky přibližné vyhledávání pomocí „podobnost zachovávajících“ semi-metrik nová datová struktura vycházející z M-stromu použití „metric-preserving“ funkcí shlukujících vzdálené dokumenty