Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava.

Podobné prezentace


Prezentace na téma: "Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava."— Transkript prezentace:

1 Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava

2 Information Retrieval vyhledávání v kolekcích (multimediálních) dokumentů klasické modely IR: –boolovský model (teorie množin) –vektorový model (lineární algebra) –pravděpodobnostní model (teorie pravděpodobnosti) kvalita modelu určena koeficienty přesnosti a úplnosti různé modely = různá efektivita (kvalita) + různá implementace použitelnost IR modelu determinuje kromě kvality také „implementovatelnost“ boolovský model je efektivně implementovatelný – invertované seznamy

3 Vektorový model kvalitativně lepší než boolovský dokument je reprezentován vektorem vah termů v dokumentu, tj. dimenze je velmi velká, např řídká matice termů-dokumentů, sloupce jsou vektory dokumentů podobnost dvou dokumentů je definována jako kosinus odchylky jejich vektorů – tvz. kosinová míra pomocí funkce podobnosti se vyhodnocují dotazy Problém: v současné době neexistuje efektivní implementace (indexovací schéma), vyhodnocování probíhá sekvenčně, což znamená: –sekvenční načtení celé matice (až v řádu GB) –mnohonásobné volání „drahé“ funkce podobnosti (např. milionkrát)

4 Matice termů-dokumentů vektorového modelu Transponovaná matice termů-dokumentů

5 LSI (indexování latentní sémantiky) algebraické rozšíření vektorového modelu z matice termů-dokumentů se „vyrobí“ matice konceptů-dokumentů SVD rozkladem (koncepty = levé singulární vektory) významných konceptů je daleko méně než termů, např. stovky redukuje se dimenze, ale matice konceptů-dokumentů není řídká samotné LSI vlastně není indexování (nevzniká pravý index), vyhledávání probíhá opět sekvenčně nad maticí konceptů- dokumentů přínos především z hlediska odhalování latentní (skryté) sémantiky –významné koncepty reprezentují témata, LSI tedy již není vázáno přímo na termy –nevýznamné koncepty jsou ignorovány jako „šum“

6 Metrické indexování naším cílem je vytvořit nad maticí (ať termů-dokumentů nebo konceptů-dokumentů) index, který umožňuje: –přístup pouze k malé části matice  šetří diskové operace –volat funkci podobnosti mnohem méně  šetří CPU M-strom –perzistentní, vyvážený strom indexující objekty jen na základě metriky; hierarchie metrických regionů –shlukuje „podobné“ objekty (dokumenty) v metrických regionech –místo kosinové míry lze použít např. odchylkovou metriku –přímo implementuje dotazy na podobnost, které vyžaduje také vektorový model –vyšší odolnost vůči tzv. „prokletí dimenzionality“

7 Experimenty Předběžné experimenty ukazují např. na rostoucí efektivitu s rostoucím počtem dokumentů.

8 Další práce jiné konfigurace M-stromu a metrik, např. použití vážené odchylkové metriky přibližné vyhledávání pomocí „podobnost zachovávajících“ semi-metrik nová datová struktura vycházející z M-stromu použití „metric-preserving“ funkcí shlukujících vzdálené dokumenty


Stáhnout ppt "Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava."

Podobné prezentace


Reklamy Google