Rešeršní činnost Mgr. Petr Šmejkal 43262@mail.muni.cz.

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

MS ACCESS - DOTAZY DATABÁZOVÉ SYSTÉMY.
Nový přístup k aplikacím Vema
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Tutoriál MEDLINE Complete ~ Vyhledávání support.ebsco.com.
Vyhledávání na Internetu
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
INTERNETOVÉ VYHLEDÁVAČE
Metody zpracování vybraných témat (projektů)
DOK.
Adéla Masopustová Alena Seifrtová Lukáš Hůla
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Případové usuzování v expertním systému NEST Vladimír Laš, Petr Berka Vysoká škola ekonomická, Praha.
Vyhledávání podobností v datech s využitím singulárního rozkladu
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Fuzzy logika.
Systémy pro podporu managementu 2
Relační databáze.
Vybrané metody analýzy
KOMBINAČNÍ LOGICKÉ FUNKCE
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
WWW – hypertextový informační systém
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Projekt A5 Nástroje informatiky pro získávání informací a jejich zpracování.
Získávání informací z webu (Information Retrieval on the Web)
Zpracování neurčitosti Fuzzy přístupy RNDr. Jiří Dvořák, CSc.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Základy zpracování geologických dat
Rozhodovací proces, podpory rozhodovacích procesů
EVALUACE WWW ELEKTRONICKÉ INFORMAČNÍ ZDROJE Petr Sejk
XML data na disku jako databáze Kamil Toman
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
DOK. FUZZY MNOŽINY ETC. Klasické množiny Klasická množina – Výběr prvků z nějakého univerza Podle nějakého pravidla – Každý prvek obsahuje nejvýše jednou.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Abychom neobjevovali znovu kolo!!! „Východiskem vědeckého studia musí být pečlivé prostudování existující literatury o dané otázce, abychom nezjišťovali.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
Školení WordPress a publikování na webu Mgr. Pavel Krejčí
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Informační zdroje pro volbu povolání Technika a technické vzdělávání 2.
Jana Holá Tvorba rešerše Jana Holá
Vymezení problému výzkumu Volba oblasti výzkumu Volba metodologického přístupu Formulace hypotéz !REŠERŠE! proč?
Geografické informační systémy pojetí, definice, součásti
Personální plán pro podnikatelský plán
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Výpočetní technika VY_32_INOVACE_17_16_internetový vyhledávač.
Dobývání znalostí z databází znalosti
VIKMA06 Rešeršní a studijně rozborová činnost
Co se dá změřit v psychologii a pedagogice?
Fulltextové vyhledávání
Jana Holá Tvorba rešerše Jana Holá
2018/6/10 Počítačový model Kateřina Růžičková.
Jednotná informační brána (JIB)
Spojitá a kategoriální data Základní popisné statistiky
VIKMA06 Vyhledávání informací
VIKMA06 Rešeršní a studijně rozborová činnost
Seznamy digitálních knihoven
Seznamy digitálních knihoven
Transkript prezentace:

Rešeršní činnost Mgr. Petr Šmejkal 43262@mail.muni.cz

Information Retrieval Vyhledávání informací je činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. fulltextových databázích), souvisí s reprezentací, skladováním, organizací a přístupem k informacím. IR je vyhledávání v nestrukturovaných datech.

Vyhodnocování dotazu Precision - Přesnost : Fraction of retrieved docs that are relevant to user’s information need Recall - Úplnost : Fraction of relevant docs in collection that are retrieved

Mapa IR modelů Strukturované modely model nepřekrývajících se seznamů (non-overlapping lists) sousedních uzlů (proximal nodes)

Mapa IR modelů

Unstructured vs. structured data Jiné praktiky a metody Vývoj technologií

Unstructured vs. structured data Structured data tends to refer to information in “tables” Typically allows numerical range and exact match(for text) queries, e.g., Salary < 60000 AND Manager = Smith. Employee Manager Salary Smith Jones 50000 Chang Smith 60000 Ivy Smith 50000

Nestrukturovaná data Většinou volný text Lze vyhledávat podle klíčových slov Dovoluje i sofistikovanější dotazy – najdi všechny webové stránky pojednávající o „karburátorech“ Pro hledání textu se používají klasické vyhledávací modely

Polostrukturovaná data Většina dat je ve skutečnosti alespoň trochu strukturována (u www např. Title, odrážky, atd…) Velké možnosti u XML

IR Modely Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB: Jaké dokumenty mají být výsledkem dotazu? Jaké bude jejich uspořádání pro prezentaci uživateli?

Model klasického vyhledávání

Klasický model vyhledávání Základní koncept Každý dokument lze popsat setem klíčových slov nazývaných „index terms“ „index term“ – slovo, které sémanticky pomáhá lépe určit a pamatovat si hlavní témata dokumentu Ne všechny termíny v dokumentu jsou stejně užitečné při popisování obsahu Pro lepší orientaci v důležitosti termínů přiřazujeme „váhy“ – vzájemně nezávislé

Booleovský model Příklad: která hra od Shakespeara obsahuje slova Brutus a Caesar, ale neobsahuje slovo Calpurnia Zápis: Brutus AND Caesar AND NOT Calpurnia 0/1 vector for each term -> termín buď je 100% relevantní nebo není vůbec – binární systém Dotaz buď konjunkce nebo disjunkce vektorů

Charakteristiky modelu Komplikovaný překlad – nutná přesná sémantika Přes složitost je to nejvíc komerčně využívaný model

Hodnocení modelu Výhody Nevýhody Čistě formální systém (vše přesně specifikováno) Jednoduchost Logická jednoznačnost – vždy přesně víme, co bude mezi výsledky Nevýhody Přesné zadání dotazu může vést k moc málo nebo k velkému počtu dokumentů

Booleovský model: problémy Kritérium predikce-jak zajistit shodu mezi výběrem termů pro dotaz a dokumenty (dnes: podobnost ontologií) metoda: odstraňováníneurčitosti Kritérium maxima – lze zvládnout 20-50 hitů Problémy s db úplných textů: velikost db(vs. kritérium maxima) výběr termůpro dotaz přecenění eliminace indexátorů zůstává neurčitost tazatele jednostranné chování tazatele- Tendence měnit poslední rozhodnutí, zachovávat první kroky

Booleovský model: další problémy Neintuitivní výsledky A AND B AND C AND D AND E D neobsahujícípouze jeden z uvedených termůnebude vybrán A OR B OR C OR D OR E D obsahujícípouze jeden z uvedených termůjsou chápány jako stejně významné jako dokumenty obsahující všechny uvedené termy. Neumožňuje řízení velikosti výstupu. Všechny D vyhovujícídotazu jsou chápány jako stejně důležité, není možné je uspořádat podle hodnoty relevance.

Rozšířená Booleovská logika Princip: přiřazení vah termům dokumentů a dotazu. Varianta pouze s vahami termů dokumentů wt∈<0,1>.

Invertovaný Soubor/Index Pro každý termín zpracujeme seznam dokumentů, které jej obsahují

Zpracování dotazu Příklad: Brutus AND Caesar Locate Brutus in the Dictionary; Retrieve its postings. Locate Caesar in the Dictionary; “Merge” the two postings: Výsledek jsou dokumenty 2 a 8

Vektorový model Nelineární vektory – může jít až o desetitisíce-dimenzionální prostor Počítá se stupeň podobnosti vektorů v dokumentu s dotazem

Stanovení vektorů Předpokládejme, že v textech máme n rozdílných slov. Toto n také určuje onu n-rozměrnost našeho vektorového systému. Každý vektor pak na souřadnici - odpovídající danému slovu - obsahuje jeho četnost (ať již v jednotlivém dokumentu, nebo třeba dotazu). Nebývá vhodné nechat růst vektory (jejich délku) nade všechny meze. Proto je výhodné normalizovat používané vektory na jednotkovou délku.

Hodnocení modelu Výhody: Nevýhody: Zpřesňuje vyhledávací proces Uplatňuje se i částečná shoda s dotazem -> vyšší úplnost Řazení výsledků podle podobnosti s dotazem Nevýhody: Předpoklad, že termíny jsou vzájemně nezávislé

Hodnocení modelu Jednoduchý model s pružným řazením výsledků Systém řazení výsledků je minimálně stejně dobrý nebo lepší než u jiných vyhledávacích modelů Přesto, že vektorový model patří k nejstarším, není dosud známá efektivní implementace! V literatuře není nikde řešen problém jak postupovat při výpočtu podobnosti dokumentů.

Pravděpodobnostní model Předpokládejme, že k dotazu existuje „ideální“ kolekce dokumentů, které tvoří odpověď Popisem této kolekce/setu dokumentů můžeme bez problému najít relevantní dokumenty Problém je, že vlastnosti ideálního setu neznáme – musíme hádat podle již nalezených Dotazování lze chápat jako specifikaci (shlukování) vlastností požadované kolekce dokumentů Zlepšování pomocí iterace

Hodnocení modelu Výhody: Nevýhody: Řazení podle pravděpodobnosti relevance Nevýhody: Potřeba „hádat“ první dotaz Nebere do úvahy frekvenci termínů

Srovnání s klasickými modely Booleovský model neumožňuje uvažovat částečnou shodu – nejslabší Salton a Buckley udělali sérii experimentů, ve kterých zjistili že vektorový model dává lepší výsledky než pravděpodobnostní model

Další modely Mezi základní modely patří ještě fuzzy model, neuronový, latentní sémantický a spousta modifikací Beyesovských sítí Jiné než slovní principy: n-gramy lemmatizace

N-Gramy Rozsekání textu na stejně velké části – např. po 3 znacích. Vyhledávání podle podobnosti v těchto celcích

N-Gramy Vhodné pro zpracování přirozeného jazyka Často slouží k rozpoznání jazyka textových dokumentů Podobnost s použitím sufixového stromu U nás využití např. pro odhalování plagiátů ve vědeckých textech Metody postavené na n-gramech jsou odolné vůči posunu textu uvnitř dokumentu