Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.

Podobné prezentace


Prezentace na téma: "Prohledávání dokumentů ve vektorovém modelu Pavel Moravec."— Transkript prezentace:

1 Prohledávání dokumentů ve vektorovém modelu Pavel Moravec

2 Motivace Velké kolekce textových dokumentů Mnoho uživatelů a dotazů Malá efektivita současných implementací vektorového modelu Redukce dimenze nebo filtrace před vyhodnocením dotazu přináší zrychlení

3 Obsah Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr

4 Vektorový model Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru n je počet různých termů (slov/frází) v kolekci Souřadnice vektoru reprezentují váhy termů v dokumentu Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) Seřazení podle míry podobnosti

5 Váhy termů v dokumentech Tři složky vah termů [Salton88]: Frekvence termu v dokumentu (tf) – kolikrát je term v dokumentu zmíněn (nejčastěji počet výskytů termu v dokumentu) Frekvence termu v kolekci – počet výskytů termů v kolekci (nejčastěji idf – inverzní frekvence dokumentu) Normalizace – zda má být délka vektoru během výpočtu vah termů normalizována

6 Signatura Bitový vektor o F bitech; F je délkou signatury Zaznamenává možný výskyt termů v dokumentu Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů

7 Ukázka signatur SlovoSignatura ukázka použití vrstvená signatura DotazSignatura ukázka hit příklad není shoda falešný falešný hit

8 Běžné signatury ve vektorovém modelu Relevantní dokument nemusí obsahovat všechny termy obsažené v dotaze => eliminace dokumentů, relevantních ve vektorovém modelu. Při snižování počtu termů dotazu, které musí být v dokumentu obsaženy prudce roste počet chybných výběrů. Proměnná váha signatur termů na základě váhy termu v dokumentu, některé relevantní dokumenty mohou být stále vynechány

9 Weight-Partitioned signature files Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tf i, i – frekvence termu v dokumentu) Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence

10 Tvorba signatur podle frekvence termů

11 WPSF - Dotazování Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. Dvě možné metody: LH nebo HL LH: začínáme signaturovým souborem s nejmenší hodnotou tf HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity  vyšší skóre dokumentu, menší přesnost) Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci

12 Vylepšení WPSF S-stromem Jeden S-strom (modifikace B + -stromu) pro každý signaturový soubor Signatury všech dokumentů v souboru prohledávány najednou Pokračujeme jen ve větvích, které splňují podmínku (S Q AND S D = S Q ) Lze využít metod HL i LH Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)

13 Přínos vylepšení WPSF S-stromy

14 Náhodné projekce Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n Prvky matice R jsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. Pro zachování Euklidovských vzdáleností je nutno vynásobit výsledný vektor Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.

15 Náhodné projekce Klasické (RP) Matice R obsahuje náhodná čísla s normovaným normálním rozdělením - N(0, 1) Zjednodušené (SRP) nebo Namísto násobení postačí přičítání a odečítání

16 Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnostprůměrná úplnost

17 Závěr Vektorový model IR je zajímavou oblastí výzkumu Stále nalézány nové metody, snažící se vylepšit jeho efektivitu Redukce dimenze a signaturové metody jsou jedním z možných řešení Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání

18 Publikace 1.P. Moravec, J. Pokorný, V. Snášel. Vector Query with Signature Filtering. Proceedings of 6th BIS conference, Colorado Springs, USA, T. Skopal, P. Moravec, M. Krátký, V. Snášel, J. Pokorný. An Effecient Implementation of the Vector Model in Information Retrieval. Accepted at RCDL’03 Conference, St. Petersburg, Russia, P. Moravec, M. Krátký, V. Snášel. Random Projections for Dimension Reduction in Information Retrieval Systems. Proceedings of IMAMM’03 Conference, 2003.

19 Literatura [Achlioptas01] Achlioptas, D. Database-friendly Random Projections. [Bingham01]Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval


Stáhnout ppt "Prohledávání dokumentů ve vektorovém modelu Pavel Moravec."

Podobné prezentace


Reklamy Google