Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval
Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel, Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004
2
Obsah Vektorový model Singulární rozklad Indexování latentní sémantiky
WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí
3
Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A D1 D2 D3 … Dm T1 0.1 T2 0.15 T3 0.3 … Tn 0.2
4
Vyhledávání ve vekt. modelu
Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné
5
Redukce dimenze matice A
Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice (SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.
6
Singulární rozklad Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A
7
k-redukovaný singulární rozklad
Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Ak hodnotu ||A-C||F
8
Indexování latentní sémantiky (LSI) a skrytá sémantika
LSI – k-redukovaný singulární rozklad matice termů v dokumentech Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu Matice dokumentů Dk= Vk Sk (resp. Dk’ = Vk) Matice termů Tk= Uk Sk (resp. Tk’ = Uk) Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkT q)
9
Klady a zápory LSI Klady Zápory Snížení dimenze vektorů
Omezení vlivu „prokletí dimenzionality“ Nalezení skrytých vztahů v datech Až na určení redukované dimenze lze provádět zcela automaticky Zápory Časová složitost výpočtu Problematické přidávání dokumentů a termů
10
Dvoufázový algoritmus výpočtu LSI (Papadimitriou)
Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenosti budou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.
11
WordNet Tezaurus, slovník synonym
V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index
12
Ukázka konceptů ve WordNetu
biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature
13
Využití WordNetu místo LSI
Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů Jak? Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních
14
Tvorba konceptů Započteme váhy termů do synsetů
Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) Je-li potřeba, vybereme jen k nejvýznamnějších synsetů Vytvoříme projekční matici termů na synsety Promítneme matici termů v dokumentech do redukované dimenze Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici
15
Klady a zápory metody Klady Zápory Snížení dimenze vektorů
Využití synonym, matice dokumentů stále dosti řídká Snadné přidávání nových dokumentů a termů Zvýšení úplnosti Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí Zápory Jen podstatná jména a slovesa, obsažená ve WordNetu Vyšší dimenze než u LSI
16
Experimenty – testovací data
Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) relevantní dokumenty nerelevantní dokumenty ostatní dokumenty (pravděpodobně nerelevantní) Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech
17
Experimenty – provedené testy
Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000 Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu
18
Experimenty – čas a velikost
19
Experimenty – přesnost a úplnost
20
Závěr Lepší výsledky než náhodné projekce
Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy Možnost vyzkoušet jinou ontologii
21
Literatura D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.