Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Metrické indexování vektorových modelů v oblasti Information Retrieval

Podobné prezentace


Prezentace na téma: "Metrické indexování vektorových modelů v oblasti Information Retrieval"— Transkript prezentace:

1 Metrické indexování vektorových modelů v oblasti Information Retrieval
Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava

2 Information Retrieval
vyhledávání v kolekcích (multimediálních) dokumentů klasické modely IR: boolovský model (teorie množin) vektorový model (lineární algebra) pravděpodobnostní model (teorie pravděpodobnosti) kvalita modelu určena koeficienty přesnosti a úplnosti různé modely = různá efektivita (kvalita) + různá implementace použitelnost IR modelu determinuje kromě kvality také „implementovatelnost“ boolovský model je efektivně implementovatelný – invertované seznamy

3 Vektorový model kvalitativně lepší než boolovský
dokument je reprezentován vektorem vah termů v dokumentu, tj. dimenze je velmi velká, např řídká matice termů-dokumentů, sloupce jsou vektory dokumentů podobnost dvou dokumentů je definována jako kosinus odchylky jejich vektorů – tvz. kosinová míra pomocí funkce podobnosti se vyhodnocují dotazy Problém: v současné době neexistuje efektivní implementace (indexovací schéma), vyhodnocování probíhá sekvenčně, což znamená: sekvenční načtení celé matice (až v řádu GB) mnohonásobné volání „drahé“ funkce podobnosti (např. milionkrát)

4 Matice termů-dokumentů vektorového modelu
Transponovaná matice termů-dokumentů

5 LSI (indexování latentní sémantiky)
algebraické rozšíření vektorového modelu z matice termů-dokumentů se „vyrobí“ matice konceptů-dokumentů SVD rozkladem (koncepty = levé singulární vektory) významných konceptů je daleko méně než termů, např. stovky redukuje se dimenze, ale matice konceptů-dokumentů není řídká samotné LSI vlastně není indexování (nevzniká pravý index), vyhledávání probíhá opět sekvenčně nad maticí konceptů-dokumentů přínos především z hlediska odhalování latentní (skryté) sémantiky významné koncepty reprezentují témata, LSI tedy již není vázáno přímo na termy nevýznamné koncepty jsou ignorovány jako „šum“

6 Metrické indexování naším cílem je vytvořit nad maticí (ať termů-dokumentů nebo konceptů-dokumentů) index, který umožňuje: přístup pouze k malé části matice  šetří diskové operace volat funkci podobnosti mnohem méně  šetří CPU M-strom perzistentní, vyvážený strom indexující objekty jen na základě metriky; hierarchie metrických regionů shlukuje „podobné“ objekty (dokumenty) v metrických regionech místo kosinové míry lze použít např. odchylkovou metriku přímo implementuje dotazy na podobnost, které vyžaduje také vektorový model vyšší odolnost vůči tzv. „prokletí dimenzionality“

7 Experimenty Předběžné experimenty ukazují např. na rostoucí efektivitu s rostoucím počtem dokumentů.

8 Další práce jiné konfigurace M-stromu a metrik, např. použití vážené odchylkové metriky přibližné vyhledávání pomocí „podobnost zachovávajících“ semi-metrik nová datová struktura vycházející z M-stromu použití „metric-preserving“ funkcí shlukujících vzdálené dokumenty


Stáhnout ppt "Metrické indexování vektorových modelů v oblasti Information Retrieval"

Podobné prezentace


Reklamy Google