Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec

Motivace Velké kolekce textových dokumentů Mnoho uživatelů a dotazů Malá efektivita současných implementací vektorového modelu Redukce dimenze nebo filtrace před vyhodnocením dotazu přináší zrychlení

Obsah Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr

Vektorový model Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru n je počet různých termů (slov/frází) v kolekci Souřadnice vektoru reprezentují váhy termů v dokumentu Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) Seřazení podle míry podobnosti

Váhy termů v dokumentech Tři složky vah termů [Salton88]: Frekvence termu v dokumentu (tf) – kolikrát je term v dokumentu zmíněn (nejčastěji počet výskytů termu v dokumentu) Frekvence termu v kolekci – počet výskytů termů v kolekci (nejčastěji idf – inverzní frekvence dokumentu) Normalizace – zda má být délka vektoru během výpočtu vah termů normalizována

Signatura Bitový vektor o F bitech; F je délkou signatury Zaznamenává možný výskyt termů v dokumentu Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů

Ukázka signatur SlovoSignatura ukázka000 001 110 010 použití100 101 100 000 vrstvená signatura 100 101 110 010 DotazSignatura ukázka000 001 110 010hit příklad010 101 010 000není shoda falešný100 100 110 000falešný hit

Běžné signatury ve vektorovém modelu Relevantní dokument nemusí obsahovat všechny termy obsažené v dotaze => eliminace dokumentů, relevantních ve vektorovém modelu. Při snižování počtu termů dotazu, které musí být v dokumentu obsaženy prudce roste počet chybných výběrů. Proměnná váha signatur termů na základě váhy termu v dokumentu, některé relevantní dokumenty mohou být stále vynechány

Weight-Partitioned signature files Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tf i, i – frekvence termu v dokumentu) Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence

Tvorba signatur podle frekvence termů

WPSF - Dotazování Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. Dvě možné metody: LH nebo HL LH: začínáme signaturovým souborem s nejmenší hodnotou tf HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity  vyšší skóre dokumentu, menší přesnost) Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci

Vylepšení WPSF S-stromem Jeden S-strom (modifikace B + -stromu) pro každý signaturový soubor Signatury všech dokumentů v souboru prohledávány najednou Pokračujeme jen ve větvích, které splňují podmínku (S Q AND S D = S Q ) Lze využít metod HL i LH Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)

Přínos vylepšení WPSF S-stromy

Náhodné projekce Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n Prvky matice R jsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. Pro zachování Euklidovských vzdáleností je nutno vynásobit výsledný vektor Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.

Náhodné projekce Klasické (RP) Matice R obsahuje náhodná čísla s normovaným normálním rozdělením - N(0, 1) Zjednodušené (SRP) nebo Namísto násobení postačí přičítání a odečítání

Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnostprůměrná úplnost

Závěr Vektorový model IR je zajímavou oblastí výzkumu Stále nalézány nové metody, snažící se vylepšit jeho efektivitu Redukce dimenze a signaturové metody jsou jedním z možných řešení Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání

Publikace 1.P. Moravec, J. Pokorný, V. Snášel. Vector Query with Signature Filtering. Proceedings of 6th BIS conference, Colorado Springs, USA, 2003. 2.T. Skopal, P. Moravec, M. Krátký, V. Snášel, J. Pokorný. An Effecient Implementation of the Vector Model in Information Retrieval. Accepted at RCDL’03 Conference, St. Petersburg, Russia, 2003. 3.P. Moravec, M. Krátký, V. Snášel. Random Projections for Dimension Reduction in Information Retrieval Systems. Proceedings of IMAMM’03 Conference, 2003.

Literatura [Achlioptas01] Achlioptas, D. Database-friendly Random Projections. [Bingham01]Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.

Podobné prezentace

Prezentace na téma: "Prohledávání dokumentů ve vektorovém modelu Pavel Moravec."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.

Podobné prezentace

Prezentace na téma: "Prohledávání dokumentů ve vektorovém modelu Pavel Moravec."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář