Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel,

Slides:



Advertisements
Podobné prezentace
Základy teorie řízení 2010.
Advertisements

Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
MARKOVSKÉ ŘETĚZCE.
Sémantická anotace dat z webovských zdrojů
MATLAB LEKCE 7.
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
Corese RDF Semantic Search Engine Marek Růžička ACACIA INRIA, Sophia Antipolis
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Algoritmy I Cvičení č. 5.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Databáze citačních rejstříků Web of Science.  Online akademická služba provozovaná společností Thomson Reuters.Thomson Reuters  Databáze citačních rejstříků,
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Lineární regresní analýza Úvod od problému
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Lineární algebra.
DOK.
Robustní vyrovnání Věra Pavlíčková, únor 2014.
Gaussova eliminační metoda
Řízené slovníky databází ISTA, LLIS/FTXT, LISA. Obecně: Řízený slovník – controlled vocabulary Slovník lexikálních jednotek selekčního jazyka uspořádaný.
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
SUBSPACE IDENTIFICATION
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Diagnostika počítačů DGP_10 Prof. Ing. Karel Vlček, CSc. Katedra Informatiky, FEI, VŠB - TUO.
Shrnutí z minula.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Geometrie 3D vidění Perspektivní projekce – popisuje strukturu obrazu pomocí dírkového modelu kamery Souřadnice jsou homogenní.
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Matice.
Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Základní škola národního umělce Petra Bezruče, Frýdek-Místek, tř. T. G. Masaryka 454 Projekt SIPVZ 2005.
Metadata a metainformační systémy (seminář)
Úvod do 3D geometrie První přednáška mi vyšla na 90 minut po slajd 31 (3D representace modelů). Ten zbytek jsem pak prolítnul tak za pět minut, ale myslím.
Realtime identifikace osob podle hlasu
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Princip maximální entropie
Vedení tepla Viktor Sláma SI – I 23. Zadání Vhodné uložení vyhořelého jaderného paliva je úkol pro současnou generaci. Zaměřme se na jednu nepatrnou část.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Spojení a průnik podprostorů
DOK. NĚCO K IMPLEMENTACI … Dokumentografické informační systémy IRS musí parcovat s velmi rozsáhlými ale velmi řídkými maticemi.
Počítačová chemie (5. přednáška)
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
př. 6 výsledek postup řešení
Admissible Inference Rules in LTK
Vícerozměrný přístup pro indexování XML dat
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Matice přechodu.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Vyhledávání vzorů (template matching)
MASKS © 2004 Invitation to 3D vision. MASKS © 2004 Část 1 Přehled a úvod.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Klasifikace a rozpoznávání
Skalární součin 2 vektorů
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Matice Přednáška č.4. Definice: Soubor prvků nazýváme maticí typu i-tý řádek j-tý sloupec prvky matice.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
ANALÝZA A KLASIFIKACE DAT
VIKMA06 Vyhledávání informací
1 Lineární (vektorová) algebra
Rešeršní činnost Mgr. Petr Šmejkal
ANALÝZA A KLASIFIKACE DAT
ALG 14 Vícedimenzionální data Řazení vícedimenzionálních dat
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, michal.kolovrat@vsb.cz Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004

Obsah Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí

Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A D1 D2 D3 … Dm T1 0.1 T2 0.15 T3 0.3 …  Tn 0.2

Vyhledávání ve vekt. modelu Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice (SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.

Singulární rozklad Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

k-redukovaný singulární rozklad Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Ak hodnotu ||A-C||F

Indexování latentní sémantiky (LSI) a skrytá sémantika LSI – k-redukovaný singulární rozklad matice termů v dokumentech Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu Matice dokumentů Dk= Vk Sk (resp. Dk’ = Vk) Matice termů Tk= Uk Sk (resp. Tk’ = Uk) Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkT q)

Klady a zápory LSI Klady Zápory Snížení dimenze vektorů Omezení vlivu „prokletí dimenzionality“ Nalezení skrytých vztahů v datech Až na určení redukované dimenze lze provádět zcela automaticky Zápory Časová složitost výpočtu Problematické přidávání dokumentů a termů

Dvoufázový algoritmus výpočtu LSI (Papadimitriou) Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenosti budou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.

WordNet Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature

Využití WordNetu místo LSI Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů Jak? Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních

Tvorba konceptů Započteme váhy termů do synsetů Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) Je-li potřeba, vybereme jen k nejvýznamnějších synsetů Vytvoříme projekční matici termů na synsety Promítneme matici termů v dokumentech do redukované dimenze Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici

Klady a zápory metody Klady Zápory Snížení dimenze vektorů Využití synonym, matice dokumentů stále dosti řídká Snadné přidávání nových dokumentů a termů Zvýšení úplnosti Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí Zápory Jen podstatná jména a slovesa, obsažená ve WordNetu Vyšší dimenze než u LSI

Experimenty – testovací data Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) relevantní dokumenty nerelevantní dokumenty ostatní dokumenty (pravděpodobně nerelevantní) Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

Experimenty – provedené testy Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000 Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu

Experimenty – čas a velikost

Experimenty – přesnost a úplnost  

Závěr Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy Možnost vyzkoušet jinou ontologii

Literatura D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003