Metrické indexování vektorových modelů v oblasti Information Retrieval

Slides:



Advertisements
Podobné prezentace
Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Advertisements

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
MATLAB LEKCE 7.
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Lineární regresní analýza Úvod od problému
Přednáška 12 Diferenciální rovnice
Automated data mining Ing. Jan Černý Czech Technical University in Prague Faculty of Information Technology.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Ing. Jiří Novák
ADT Strom.
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
DOK.
Databáze Jiří Kalousek.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
13AMP 6. přednáška Ing. Martin Molhanec, CSc.. Co jsme se naučili naposled Synchronizace procesů Synchronizace procesů Producent-Konzument Producent-Konzument.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel,
Relační databáze.
Vybrané metody analýzy
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Algoritmy vyhledávání a řazení
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Neuronové sítě na grafických akcelerátorech Ondřej Zicha, Jiří Formánek.
Informatika pro ekonomy II přednáška 10
Definice, druhy, chyby, abstrakce
Databázové systémy II Přednáška č. X Ing. Tomáš Váňa, Ing. Jiří Zechmeister Fakulta elektrotechniky a informatiky
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Metadata a metainformační systémy (seminář)
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 7. Metrické přístupové metody (MAM) 2. část – maticové a statické metody, D-index.
Lineární zobrazení.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Databázové modelování
Získávání informací z webu (Information Retrieval on the Web)
Databázové systémy Informatika pro ekonomy, př. 18.
Základní operace s maticemi
Základní operace s maticemi
DOK. NĚCO K IMPLEMENTACI … Dokumentografické informační systémy IRS musí parcovat s velmi rozsáhlými ale velmi řídkými maticemi.
XML data na disku jako databáze Kamil Toman
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Pokročilé architektury počítačů (PAP_06.ppt) Karel Vlček, katedra Informatiky, FEI VŠB Technická Univerzita Ostrava.
DOK. FUZZY MNOŽINY ETC. Klasické množiny Klasická množina – Výběr prvků z nějakého univerza Podle nějakého pravidla – Každý prvek obsahuje nejvýše jednou.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Lenka Zahradníčková
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Pokročilé architektury počítačů (PAP_16.ppt) Karel Vlček, katedra Informatiky, FEI VŠB Technická Univerzita Ostrava.
Vícerozměrná pole (1) Jazyk C povoluje, aby pole mělo více rozměrů (dimenzí) než jeden Z vícerozměrných polí bývá nejčastěji použí-váno pole dvourozměrné.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Perzistence XML dat Kamil Toman
PROGRAMOVÁNÍ 3ITA,3ITB Jaroslav Burdys Hlavní zdroj:
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Geografické informační systémy
Soubor Soubor v informatice označuje pojmenovanou sadu dat uloženou na nějakém datovém médiu, se kterou lze pracovat nástroji operačního systému jako.
Fulltextové vyhledávání
Informatika pro ekonomy přednáška 8
VIKMA06 Vyhledávání informací
Rešeršní činnost Mgr. Petr Šmejkal
Základní operace s maticemi
Ústav lékařské informatiky, 2. LF UK
Analýza velkých dat strukturovaně či nestrukturovaně?
Transkript prezentace:

Metrické indexování vektorových modelů v oblasti Information Retrieval Tomáš Skopal katedra informatiky FEI, VŠB-Technická univerzita Ostrava

Information Retrieval vyhledávání v kolekcích (multimediálních) dokumentů klasické modely IR: boolovský model (teorie množin) vektorový model (lineární algebra) pravděpodobnostní model (teorie pravděpodobnosti) kvalita modelu určena koeficienty přesnosti a úplnosti různé modely = různá efektivita (kvalita) + různá implementace použitelnost IR modelu determinuje kromě kvality také „implementovatelnost“ boolovský model je efektivně implementovatelný – invertované seznamy

Vektorový model kvalitativně lepší než boolovský dokument je reprezentován vektorem vah termů v dokumentu, tj. dimenze je velmi velká, např. 100.000 řídká matice termů-dokumentů, sloupce jsou vektory dokumentů podobnost dvou dokumentů je definována jako kosinus odchylky jejich vektorů – tvz. kosinová míra pomocí funkce podobnosti se vyhodnocují dotazy Problém: v současné době neexistuje efektivní implementace (indexovací schéma), vyhodnocování probíhá sekvenčně, což znamená: sekvenční načtení celé matice (až v řádu GB) mnohonásobné volání „drahé“ funkce podobnosti (např. milionkrát)

Matice termů-dokumentů vektorového modelu Transponovaná matice termů-dokumentů

LSI (indexování latentní sémantiky) algebraické rozšíření vektorového modelu z matice termů-dokumentů se „vyrobí“ matice konceptů-dokumentů SVD rozkladem (koncepty = levé singulární vektory) významných konceptů je daleko méně než termů, např. stovky redukuje se dimenze, ale matice konceptů-dokumentů není řídká samotné LSI vlastně není indexování (nevzniká pravý index), vyhledávání probíhá opět sekvenčně nad maticí konceptů-dokumentů přínos především z hlediska odhalování latentní (skryté) sémantiky významné koncepty reprezentují témata, LSI tedy již není vázáno přímo na termy nevýznamné koncepty jsou ignorovány jako „šum“

Metrické indexování naším cílem je vytvořit nad maticí (ať termů-dokumentů nebo konceptů-dokumentů) index, který umožňuje: přístup pouze k malé části matice  šetří diskové operace volat funkci podobnosti mnohem méně  šetří CPU M-strom perzistentní, vyvážený strom indexující objekty jen na základě metriky; hierarchie metrických regionů shlukuje „podobné“ objekty (dokumenty) v metrických regionech místo kosinové míry lze použít např. odchylkovou metriku přímo implementuje dotazy na podobnost, které vyžaduje také vektorový model vyšší odolnost vůči tzv. „prokletí dimenzionality“

Experimenty Předběžné experimenty ukazují např. na rostoucí efektivitu s rostoucím počtem dokumentů.

Další práce jiné konfigurace M-stromu a metrik, např. použití vážené odchylkové metriky přibližné vyhledávání pomocí „podobnost zachovávajících“ semi-metrik nová datová struktura vycházející z M-stromu použití „metric-preserving“ funkcí shlukujících vzdálené dokumenty