Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Metrické indexování vektorových modelů v oblasti Information Retrieval
Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava
2
Information Retrieval
vyhledávání v kolekcích (multimediálních) dokumentů klasické modely IR: boolovský model (teorie množin) vektorový model (lineární algebra) pravděpodobnostní model (teorie pravděpodobnosti) kvalita modelu určena koeficienty přesnosti a úplnosti různé modely = různá efektivita (kvalita) + různá implementace použitelnost IR modelu determinuje kromě kvality také „implementovatelnost“ boolovský model je efektivně implementovatelný – invertované seznamy
3
Vektorový model kvalitativně lepší než boolovský
dokument je reprezentován vektorem vah termů v dokumentu, tj. dimenze je velmi velká, např řídká matice termů-dokumentů, sloupce jsou vektory dokumentů podobnost dvou dokumentů je definována jako kosinus odchylky jejich vektorů – tvz. kosinová míra pomocí funkce podobnosti se vyhodnocují dotazy Problém: v současné době neexistuje efektivní implementace (indexovací schéma), vyhodnocování probíhá sekvenčně, což znamená: sekvenční načtení celé matice (až v řádu GB) mnohonásobné volání „drahé“ funkce podobnosti (např. milionkrát)
4
Matice termů-dokumentů vektorového modelu
Transponovaná matice termů-dokumentů
5
LSI (indexování latentní sémantiky)
algebraické rozšíření vektorového modelu z matice termů-dokumentů se „vyrobí“ matice konceptů-dokumentů SVD rozkladem (koncepty = levé singulární vektory) významných konceptů je daleko méně než termů, např. stovky redukuje se dimenze, ale matice konceptů-dokumentů není řídká samotné LSI vlastně není indexování (nevzniká pravý index), vyhledávání probíhá opět sekvenčně nad maticí konceptů-dokumentů přínos především z hlediska odhalování latentní (skryté) sémantiky významné koncepty reprezentují témata, LSI tedy již není vázáno přímo na termy nevýznamné koncepty jsou ignorovány jako „šum“
6
Metrické indexování naším cílem je vytvořit nad maticí (ať termů-dokumentů nebo konceptů-dokumentů) index, který umožňuje: přístup pouze k malé části matice šetří diskové operace volat funkci podobnosti mnohem méně šetří CPU M-strom perzistentní, vyvážený strom indexující objekty jen na základě metriky; hierarchie metrických regionů shlukuje „podobné“ objekty (dokumenty) v metrických regionech místo kosinové míry lze použít např. odchylkovou metriku přímo implementuje dotazy na podobnost, které vyžaduje také vektorový model vyšší odolnost vůči tzv. „prokletí dimenzionality“
7
Experimenty Předběžné experimenty ukazují např. na rostoucí efektivitu s rostoucím počtem dokumentů.
8
Další práce jiné konfigurace M-stromu a metrik, např. použití vážené odchylkové metriky přibližné vyhledávání pomocí „podobnost zachovávajících“ semi-metrik nová datová struktura vycházející z M-stromu použití „metric-preserving“ funkcí shlukujících vzdálené dokumenty
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.