Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat,

Podobné prezentace


Prezentace na téma: "LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat,"— Transkript prezentace:

1 LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel, Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004

2 Obsah Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí

3 Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A D1D1 D2D2 D3D3 …DmDm T1T …0 T2T …0 T3T …0 … …………… TnTn 0.200…

4 Vyhledávání ve vekt. modelu Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

5 Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) Výpočet vlastních čísel kovarianční matice(PCA) Singulární rozklad matice (SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.

6 Singulární rozklad Matici A lze rozložit singulárním rozkladem na součin matic U  V T, kde U a V jsou sloupcově- ortonormální matice singulárních vektorů a  je diagonální matice obsahující singulární čísla Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

7 k-redukovaný singulární rozklad Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje A k hodnotu ||A-C|| F

8 Indexování latentní sémantiky (LSI) a skrytá sémantika LSI – k-redukovaný singulární rozklad matice termů v dokumentech Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu Matice dokumentů D k = V k  k (resp. D k ’ = V k ) Matice termů T k = U k  k (resp. T k ’ = U k ) Dotaz v red. dimenziq k = U k T q (resp. q k ’ =  k -1 U k T q)

9 Klady a zápory LSI Klady + Snížení dimenze vektorů + Omezení vlivu „prokletí dimenzionality“ + Nalezení skrytých vztahů v datech + Až na určení redukované dimenze lze provádět zcela automaticky Zápory - Časová složitost výpočtu - Problematické přidávání dokumentů a termů

10 Dvoufázový algoritmus výpočtu LSI (Papadimitriou) 1.Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) 2.Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenosti budou dostatečně zachovány Frobeniova norma aproximace matice vůči LSI k je kde  je koeficient změny vzdálenosti z J-L lemmatu.

11 WordNet Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

12 Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, …, branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature

13 Využití WordNetu místo LSI Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů Jak? Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních

14 Tvorba konceptů 1.Započteme váhy termů do synsetů 2.Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) 3.Je-li potřeba, vybereme jen k nejvýznamnějších synsetů 4.Vytvoříme projekční matici termů na synsety 5.Promítneme matici termů v dokumentech do redukované dimenze 6.Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSI k a vytvoříme novou projekční matici

15 Klady a zápory metody Klady + Snížení dimenze vektorů + Využití synonym, matice dokumentů stále dosti řídká + Snadné přidávání nových dokumentů a termů + Zvýšení úplnosti + Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí Zápory - Jen podstatná jména a slovesa, obsažená ve WordNetu - Vyšší dimenze než u LSI

16 Experimenty – testovací data Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) -relevantní dokumenty -nerelevantní dokumenty -ostatní dokumenty (pravděpodobně nerelevantní) Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

17 Experimenty – provedené testy Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000 Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu

18 Experimenty – čas a velikost

19 Experimenty – přesnost a úplnost

20 Závěr Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy Možnost vyzkoušet jinou ontologii

21 Literatura  D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems,  E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245– 250,  M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27,  C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168,  K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003


Stáhnout ppt "LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat,"

Podobné prezentace


Reklamy Google