Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Základy teorie řízení 2010.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
MARKOVSKÉ ŘETĚZCE.
Lekce 7 Metoda molekulární dynamiky I Úvod KFY/PMFCHLekce 7 – Metoda molekulární dynamiky Osnova 1.Princip metody 2.Ingredience 3.Počáteční podmínky 4.Časová.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Kalmanuv filtr pro zpracování signálů a navigaci
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Fázová analýza kvalitativní kvantitativní Databáze práškových difrakčních dat ASTM – American Society for Testing of Materials, 1950 JCPDS – Joint Committee.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Lineární algebra.
DOK.
Analytické metody výzkumu
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
také Gaussovo rozdělení (normal or Gaussian distribution)
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel,
Matice.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Úvod do 3D geometrie První přednáška mi vyšla na 90 minut po slajd 31 (3D representace modelů). Ten zbytek jsem pak prolítnul tak za pět minut, ale myslím.
Dokumentace informačního systému
Normální (Gaussovo) rozdělení
Lineární regresní analýza
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Získávání informací z webu (Information Retrieval on the Web)
Experimentální fyzika I. 2
Kompresní algoritmus LZW Dokumentografické informační systémy.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Vektorové prostory.
Spojení a průnik podprostorů
DOK. NĚCO K IMPLEMENTACI … Dokumentografické informační systémy IRS musí parcovat s velmi rozsáhlými ale velmi řídkými maticemi.
2. Vybrané základní pojmy matematické statistiky
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Metrické indexování vektorových modelů v oblasti Information Retrieval
FEL ČVUT, katedra ekonomiky, manažerství a humanitních věd © Oldřich Starý, 2012 Finanční management Volba doby porovnání Určení a použití toku hotovosti.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
VEKTORY.
Neuronové sítě.
Bc. Jaromír Šetek VNÍMÁNÍ ZEMĚ PŮVODU ZNAČKY A ZEMĚ PŮVODU PRODUKTU VEDOUCÍ PRÁCE: Ing. Pavel Štrach, Ph.D. et Ph.D.
Testování biometrického systému založeného na dynamice podpisu
Ukládání dat biodiverzity a jejich vizualizace
4. cvičení
Ukládání dat v paměti počítače
Multifaktorová analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
1 Lineární (vektorová) algebra
Metodologie pro ISK 2 Úvod do práce s daty
Rešeršní činnost Mgr. Petr Šmejkal
Metodologie pro ISK 2 Kontrola dat Popis kategorizovaných dat
Analýza kardinálních proměnných
ANALÝZA A KLASIFIKACE DAT
Pokročilé neparametrické metody Validační techniky
Autor: Honnerová Helena
Náhodné výběry a jejich zpracování
Transkript prezentace:

Prohledávání dokumentů ve vektorovém modelu Pavel Moravec

Motivace Velké kolekce textových dokumentů Mnoho uživatelů a dotazů Malá efektivita současných implementací vektorového modelu Redukce dimenze nebo filtrace před vyhodnocením dotazu přináší zrychlení

Obsah Vektorový model Signatury Signatury ve vektorovém modelu Náhodné projekce Závěr

Vektorový model Dokumenty a dotazy reprezentovány jako vektory v n-rozměrném vektorovém prostoru n je počet různých termů (slov/frází) v kolekci Souřadnice vektoru reprezentují váhy termů v dokumentu Míra podobnosti dokumentů s dotazem – výpočet vzdálenosti nebo skalárního součinu vektorů dokumentů (obvykle kosinová vzdálenost) Seřazení podle míry podobnosti

Váhy termů v dokumentech Tři složky vah termů [Salton88]: Frekvence termu v dokumentu (tf) – kolikrát je term v dokumentu zmíněn (nejčastěji počet výskytů termu v dokumentu) Frekvence termu v kolekci – počet výskytů termů v kolekci (nejčastěji idf – inverzní frekvence dokumentu) Normalizace – zda má být délka vektoru během výpočtu vah termů normalizována

Signatura Bitový vektor o F bitech; F je délkou signatury Zaznamenává možný výskyt termů v dokumentu Signatura termu má k bitů nastaveno na 1, k se nazývá váhou signatury Signatura dokumentu (resp. bloku) je vytvořena zřetězením nebo zvrstvením signatur termů

Ukázka signatur SlovoSignatura ukázka použití vrstvená signatura DotazSignatura ukázka hit příklad není shoda falešný falešný hit

Běžné signatury ve vektorovém modelu Relevantní dokument nemusí obsahovat všechny termy obsažené v dotaze => eliminace dokumentů, relevantních ve vektorovém modelu. Při snižování počtu termů dotazu, které musí být v dokumentu obsaženy prudce roste počet chybných výběrů. Proměnná váha signatur termů na základě váhy termu v dokumentu, některé relevantní dokumenty mohou být stále vynechány

Weight-Partitioned signature files Frekvence termu v kolekci (např. idf) je centrálně uložena pro každý term Termy v dokumentu jsou seskupeny podle četnosti výskytů v dokumentu do samostatných souborů signatur (TF group: tf i, i – frekvence termu v dokumentu) Pravděpodobnost falešných hitů je minimalizována volbou délky signatury bloku a termu, max. počtu termů v bloku, přičemž zvýhodněny jsou skupiny vyšší frekvence

Tvorba signatur podle frekvence termů

WPSF - Dotazování Soubory signatur jsou procházeny pro každý term a dokument, dokud není nalezen hit. Dvě možné metody: LH nebo HL LH: začínáme signaturovým souborem s nejmenší hodnotou tf HL: začínáme souborem s nejvyšší tf (nalezne všechny relevantní dokumenty, falešné hity  vyšší skóre dokumentu, menší přesnost) Váha termu je spočtena z tf souboru, kde je signatura nalezena a idf termu. Je-li zapotřebí, provedeme normalizaci

Vylepšení WPSF S-stromem Jeden S-strom (modifikace B + -stromu) pro každý signaturový soubor Signatury všech dokumentů v souboru prohledávány najednou Pokračujeme jen ve větvích, které splňují podmínku (S Q AND S D = S Q ) Lze využít metod HL i LH Pro dosažení stejných výsledků jako v původní metodě si zaznamenáváme termy, nalezené v předchozích souborech (jinak by byl vliv falešných hitů vyšší)

Přínos vylepšení WPSF S-stromy

Náhodné projekce Náhodná matice R, zobrazující vektory dokumentů do podprostoru vhodné dimenze d, d << n Prvky matice R jsou nezávislé náhodné proměnné s nulovou střední hodnotou a jednotkovým rozptylem. Pro zachování Euklidovských vzdáleností je nutno vynásobit výsledný vektor Pro výpočet kosinové míry (úhlu) mezi vektory není úprava měřítka nutná.

Náhodné projekce Klasické (RP) Matice R obsahuje náhodná čísla s normovaným normálním rozdělením - N(0, 1) Zjednodušené (SRP) nebo Namísto násobení postačí přičítání a odečítání

Redukce dimenze vektorů dokumentů 20,000 článků WSJ, obsahujících cca. 60,000 termů. Byla spočtena kosinová míra, prahová hodnota byla 0.3. průměrná přesnostprůměrná úplnost

Závěr Vektorový model IR je zajímavou oblastí výzkumu Stále nalézány nové metody, snažící se vylepšit jeho efektivitu Redukce dimenze a signaturové metody jsou jedním z možných řešení Nově navržené způsoby ukládání dat v indexu by mohly zrychlit jeho prohledávání

Publikace 1.P. Moravec, J. Pokorný, V. Snášel. Vector Query with Signature Filtering. Proceedings of 6th BIS conference, Colorado Springs, USA, T. Skopal, P. Moravec, M. Krátký, V. Snášel, J. Pokorný. An Effecient Implementation of the Vector Model in Information Retrieval. Accepted at RCDL’03 Conference, St. Petersburg, Russia, P. Moravec, M. Krátký, V. Snášel. Random Projections for Dimension Reduction in Information Retrieval Systems. Proceedings of IMAMM’03 Conference, 2003.

Literatura [Achlioptas01] Achlioptas, D. Database-friendly Random Projections. [Bingham01]Bingham, E.; Manilla, H. Random projection in dimensionality reduction: Applications to image and text data. [Deppisch86] DEPPISCH, U.: S-tree: A Dynamic Balanced Signature Index for Office Retrieval. [Lee96] LEE, D. L.; REN, L.; Document Ranking on Weight-Partitioned Signature Files. [Roberts79] Roberts, C. S.; Partial-match retrieval via method of superimposed codes [Salton88] SALTON, G.; BUCKLEY, C.; Term Weighting Approaches in Automatic Text Retrieval