LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, michal.kolovrat@vsb.cz Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004
Obsah Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí
Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A D1 D2 D3 … Dm T1 0.1 T2 0.15 T3 0.3 … Tn 0.2
Vyhledávání ve vekt. modelu Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné
Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice (SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.
Singulární rozklad Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A
k-redukovaný singulární rozklad Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Ak hodnotu ||A-C||F
Indexování latentní sémantiky (LSI) a skrytá sémantika LSI – k-redukovaný singulární rozklad matice termů v dokumentech Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu Matice dokumentů Dk= Vk Sk (resp. Dk’ = Vk) Matice termů Tk= Uk Sk (resp. Tk’ = Uk) Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkT q)
Klady a zápory LSI Klady Zápory Snížení dimenze vektorů Omezení vlivu „prokletí dimenzionality“ Nalezení skrytých vztahů v datech Až na určení redukované dimenze lze provádět zcela automaticky Zápory Časová složitost výpočtu Problematické přidávání dokumentů a termů
Dvoufázový algoritmus výpočtu LSI (Papadimitriou) Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenosti budou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.
WordNet Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index
Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature
Využití WordNetu místo LSI Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů Jak? Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních
Tvorba konceptů Započteme váhy termů do synsetů Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) Je-li potřeba, vybereme jen k nejvýznamnějších synsetů Vytvoříme projekční matici termů na synsety Promítneme matici termů v dokumentech do redukované dimenze Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici
Klady a zápory metody Klady Zápory Snížení dimenze vektorů Využití synonym, matice dokumentů stále dosti řídká Snadné přidávání nových dokumentů a termů Zvýšení úplnosti Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí Zápory Jen podstatná jména a slovesa, obsažená ve WordNetu Vyšší dimenze než u LSI
Experimenty – testovací data Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) relevantní dokumenty nerelevantní dokumenty ostatní dokumenty (pravděpodobně nerelevantní) Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech
Experimenty – provedené testy Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000 Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu
Experimenty – čas a velikost
Experimenty – přesnost a úplnost
Závěr Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy Možnost vyzkoušet jinou ontologii
Literatura D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003