Prohledávání dokumentů ve vektorovém modelu Pavel Moravec
Motivace Velké kolekce textových dokumentů Mnoho uživatelů a dotazů Malá efektivita současných implementací vektorového modelu Redukce dimenze nebo filtrace před vyhodnocením dotazu přináší zrychlení
Obsah Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr
Vektorový model Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru n je počet různých termů (slov/frází) v kolekci Souřadnice vektoru reprezentují váhy termů v dokumentu Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) Seřazení podle míry podobnosti
Váhy termů v dokumentech Tři složky vah termů [Salton88]: Frekvence termu v dokumentu (tf) – kolikrát je term v dokumentu zmíněn (nejčastěji počet výskytů termu v dokumentu) Frekvence termu v kolekci – počet výskytů termů v kolekci (nejčastěji idf – inverzní frekvence dokumentu) Normalizace – zda má být délka vektoru během výpočtu vah termů normalizována
Signatura Bitový vektor o F bitech; F je délkou signatury Zaznamenává možný výskyt termů v dokumentu Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů
Ukázka signatur SlovoSignatura ukázka použití vrstvená signatura DotazSignatura ukázka hit příklad není shoda falešný falešný hit
Běžné signatury ve vektorovém modelu Relevantní dokument nemusí obsahovat všechny termy obsažené v dotaze => eliminace dokumentů, relevantních ve vektorovém modelu. Při snižování počtu termů dotazu, které musí být v dokumentu obsaženy prudce roste počet chybných výběrů. Proměnná váha signatur termů na základě váhy termu v dokumentu, některé relevantní dokumenty mohou být stále vynechány
Weight-Partitioned signature files Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tf i, i – frekvence termu v dokumentu) Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence
Tvorba signatur podle frekvence termů
WPSF - Dotazování Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. Dvě možné metody: LH nebo HL LH: začínáme signaturovým souborem s nejmenší hodnotou tf HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity vyšší skóre dokumentu, menší přesnost) Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci
Vylepšení WPSF S-stromem Jeden S-strom (modifikace B + -stromu) pro každý signaturový soubor Signatury všech dokumentů v souboru prohledávány najednou Pokračujeme jen ve větvích, které splňují podmínku (S Q AND S D = S Q ) Lze využít metod HL i LH Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)
Přínos vylepšení WPSF S-stromy
Náhodné projekce Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n Prvky matice R jsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. Pro zachování Euklidovských vzdáleností je nutno vynásobit výsledný vektor Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.
Náhodné projekce Klasické (RP) Matice R obsahuje náhodná čísla s normovaným normálním rozdělením - N(0, 1) Zjednodušené (SRP) nebo Namísto násobení postačí přičítání a odečítání
Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnostprůměrná úplnost
Závěr Vektorový model IR je zajímavou oblastí výzkumu Stále nalézány nové metody, snažící se vylepšit jeho efektivitu Redukce dimenze a signaturové metody jsou jedním z možných řešení Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání
Publikace 1.P. Moravec, J. Pokorný, V. Snášel. Vector Query with Signature Filtering. Proceedings of 6th BIS conference, Colorado Springs, USA, T. Skopal, P. Moravec, M. Krátký, V. Snášel, J. Pokorný. An Effecient Implementation of the Vector Model in Information Retrieval. Accepted at RCDL’03 Conference, St. Petersburg, Russia, P. Moravec, M. Krátký, V. Snášel. Random Projections for Dimension Reduction in Information Retrieval Systems. Proceedings of IMAMM’03 Conference, 2003.
Literatura [Achlioptas01] Achlioptas, D. Database-friendly Random Projections. [Bingham01]Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval