Selekční jazyky Současné trendy Přednáška č. 2 (10.3.2006) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Redukce textů, obsahová analýza, anotace
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Dana Sigmundová Zásady vyhledávání, správná technika vyhledávání, databáze EBSCO ÚK FSS MU, úterý a středa 11. a Ústřední knihovna FSS MU.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Vyhledávání na Internetu
DOK.
Řízené slovníky databází ISTA, LLIS/FTXT, LISA. Obecně: Řízený slovník – controlled vocabulary Slovník lexikálních jednotek selekčního jazyka uspořádaný.
(předpisy zobrazující výsledek podle daného vzorce a zadaných dat)
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Fuzzy logika.
Systémy pro podporu managementu 2
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Metody zpracování informací – 3 Selekční jazyky  prvotní zdroje vyhledávání – pořádání středověkých knihovních fondů – teologie, filozofie, artistická.
EBSCO - základní vyhledávání Lze nastavit jiné zobrazování výsledků.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Zpracování neurčitosti Fuzzy přístupy RNDr. Jiří Dvořák, CSc.
Úvod do problematiky elektronických informačních zdrojů a rešerší Martina Machátová.
Moravská zemská knihovna v Brně
DOK. FUZZY MNOŽINY ETC. Klasické množiny Klasická množina – Výběr prvků z nějakého univerza Podle nějakého pravidla – Každý prvek obsahuje nejvýše jednou.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Úvod do studia Strategie vyhledávání zdrojů Robert Zbíral.
Národní knihovna v Praze Národní knihovna – přehled bází.
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Theses Abecední rejstřík klíčových slov.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Informační minimum Mgr. Dana Mazancová, DiS. Brno, 11. března 2015 Masarykova univerzita Fakulta sociálních studií Ústřední knihovna FSS120.
Selekční jazyky Současné trendy Přednáška č. 6 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Jana Holá Tvorba rešerše Jana Holá
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Kurz pro doktorandy „ ELEKTRONICKÉ INFORMAČNÍ ZDROJE NA ČVUT “ Fakulta biomedicínského inženýrství Mgr. Zdeňka Civínová Ústřední knihovna ČVUT v Praze.
Univerzitní informační systém VIII., Karlov 2009 Fulltextové vyhledávání v UIS Miroslav Prachař.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Sousloví v tezaurech dle normy ČSN
Geografické informační systémy
VIKMA06 Rešeršní a studijně rozborová činnost
VIKMA06 Rešeršní a studijně rozborová činnost
Metody zpracování informací – 3
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Jakub Hlávko Název materiálu:
Fulltextové vyhledávání
Selekční jazyky (2) Úvod do problematiky Josef Schwarz
Theses Abecední rejstřík klíčových slov.
VIKMA05 Organizace znalostí
Jana Holá Tvorba rešerše Jana Holá
Automatická indexace Základní metody a postupy
VIKMA05 Organizace znalostí
VIKMA06 Vyhledávání informací
Příklad (investiční projekt)
ISI Web of Knowledge ISI Web of Knowledge
VIKMA06 Rešeršní a studijně rozborová činnost
Geografické informační systémy
Rešeršní činnost Mgr. Petr Šmejkal
EBSCO - základní vyhledávání
EBSCO - základní vyhledávání
Seznamy digitálních knihoven
Moravská zemská knihovna v Brně
Seznamy digitálních knihoven
OECD iLibrary Centrum informačních a knihovnických služeb
Moravská zemská knihovna v Brně
ISI Web of Knowledge ISI Web of Knowledge
Knihovny.cz Vyhledávání patentových dokumentů
Transkript prezentace:

Selekční jazyky Současné trendy Přednáška č. 2 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2005/2006 Josef Schwarz, informační konzultant

2 Dnešní témata Automatická indexace Modely vyhledávání

3 AI - vstup (přehl.studie)přehl.studie dostupnost plného textu, popř. abstraktu automatická/intelektuální indexace AI-výhody: odstranění subjektivity AI-výhody: velký objem dokumentů AI-nevýhody: stroj nerozumí textu  Morfologie, syntaxe  Sémantika Intratextová (Slova/výrazy, věty, odstavce, text) Intertextová (různé texty) Extratextová (realita)

4 AI - vstup (pokr.) AI-problémy:  Pojmy nejsou vyjádřeny explicitně  Nepřímé odkazy na jiné části textu nebo texty  Text obsahuje nevýznamová slova  Jazykové problémy: synonymie, homonymie  Význam slov se mění v čase nebo mezi jednotlivými dokumenty  Různé tvary slov (míra závisí na jazyce)

5 AI – vstup (pokr.) typy automatické indexace  extrakce (extraction indexing) – slovní indexace (SI) klíčová slova z textu: lexikální analýza (identifikace slov a sousloví) odstranění nevýznamových slov lematizace (vážení) (komparace s řízeným slovníkem)  přiřazování (assignment indexing) – pojmová indexace (PI) práce s plným textem pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) řízený slovník – simulace intelektuálního procesu

6 SI – lexikální analýza Číslice Odborné texty („§ 12“), odborné termíny („MARC21“) Určení hranice slova Mezera Tečka (zkratky), spojovník (knihovnicko- informační systém) Další interpunkční znaménka Velká/malá písmena

7 SI – lexikální analýza (pokr.) Sousloví Sémanticky nosnější než jednotlivá slova Dvě základní metody  Statistická identifikace sousloví  Syntaktická identifikace sousloví Normalizace sousloví  Slovník  Vypuštění pomocných slovních druhů a zanedbání pořadí složek  Syntaktická analýza s použitím kmene (kořene)

8 SI – nevýznamová slova Odstranění nevýznamových slov % běžného textu Spojky, předložky a další pomocné složky  Sousloví s předložkovou vazbou (knihovny pro nevidomé) Slova bez rozlišovací funkce Řešení 1. Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) 2. Odstranění lexikální analýzou a vážením

9 SI – nevýznamová slova (pokr.) Tvorba stop-slovníku Druhy slov (spojky, předložky, částice apod.) Podle frekvence slova v textu Krátká slova  Anti-negativní slovník

10 SI – lemmatizace Metody Algoritmické (gramatická pravidla)  Generování afixů Slovníkově orientované  Slovník kmenů nebo kořenů a dalších morfologických informací  Slovník afixů (sufixů a prefixů) Statistické  Letter successor variety stemmer (varieta po sobě následujících písmen) Nové dokumenty v db Nerozliší inflexní a derivační afixy Program: lemmatizátor (stemmer)

11 SI – lemmatizace (pokr.) Příklady převodů slovních druhů Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův)  mužský tvar subst., 1. pád, singulár (autor) Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. –ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně)  zákl. tvar. adj. (konkrétní) Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso  infinitiv (dělat)

12 SI – lemmatizace (pokr.) Lemmatizace se provádí: Při indexaci  Malý index  Nutnost ručních zásahů Při zpracování dotazu  inverzní lemmatizace (derivace)  Zvýšení relevance

13 SI - vážení Různá důležitost slov pro obsah dok. Selektivní síla indexačního termínu (výrazu) Kritéria vážení: Výraz (slovní druh) Text (délka, počet různých termínů) Vztah výrazu a textu  Frekvence výrazu v textu  Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) – zohlednění koeficientem při vážení Vztah termínu a celé db  Frekvence výrazu v db Vybrané váhové funkce

14 PI - vstup Simulace intelektuálního procesu Základ: Výsledky SI Plný text Předpoklad: Strukturovaný řízený slovník  Tezarus, sémantická síť, znalostní báze

15 PI - postup Postup PI: Identifikace výrazu Srovnání výrazu s relevantními profily pojmů z řízeného slovníku Určení indexačních termínů Problémy: Shoda dokument/ŘS nemusí být určující pro obsah Netriviální vyjádření pojmu v textu Implicitní reprezentace pojmu v textu

16 AI - hodnocení praktické aspekty  plné texty  vyšší účinnost ve srovnání s intelektuální indexací  vyšší náklady – vyšší kvalita  oborový IS systémy  univerzální systém neexistuje  funkční systémy specifická oblast často pracují pouze s abstrakty kombinace automatické a intelektuální indexace příklady systémů  ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS  NASA MAI Tool (text1, text2) NASA MAI Tooltext1text2

17 Modely vyhledávání booleovský model vektorový model latentní sémantické indexování (latent semantic indexing) Literatura:  Rauch, J. Metody zpracování informací II. Ukládání a vyhledávání. Praha : VŠE,  Pokorný, J., Snášel. V., Húsek, D. Dokumentografické informační systémy. Praha : Karolinum,  BAEZA-YATES, R., RIBEIRO-NETO, B. Modern information retrieval. New York : Addison-Wesley, 1999.

18 Booleovský model teoretické základy: 50. léta 20. století logické operátory  AND, OR, NOT, XOR souborný katalog AND CASLIN souborný katalog OR CASLIN souborný katalog NOT CASLIN souborný katalog XOR CASLIN rozšiřování (zkracování) výrazu  pravostranné (katalog*), levostranné (*log), vnitřní rozšíření (ka*g)  rozšíření o více znaků (*), jeden znak (?) proximitní operátory  věta, odstavec, určitý počet slov (zaleží/nezáleží na pořadí)

19 Booleovský model výhody jasná formalizace jednoduchost rychlost vyhledávání limitující faktory úplnost, přesnost  použití klíčových slov  principiální možnosti logických spojek „ostrost“ – relevantní n. nerelevantní (nikoliv částečně relevantní) operátor ACCRUE – systém TOPIC  experiment STAIRS (1985) právní texty, dokumentů 51 požadavků, požadovaná úplnost: 75% dosažená úplnost: 20% (přesnost 80%)

20 Booleovský model rozšíření b. modelu vážení výrazů  v dokumentu  v dotazu rozšíření pomocí fuzzy logiky  pravdivostní hodnota z intervalu - stupeň příslušnosti k fuzzy množině geometrické rozšíření  dokument jako bod v prostoru  počet rozměrů prostoru = počet klíčových slov v dok.

21 Fuzzy množina

22 Geometrické rozšíření

23 Srovnání bool. mod. a rozš.

24 Vektorový model Stupeň podobnosti mezi dotazem a dokumentem  vektor dotazu, vektor dokumentu  kosinová míra  váhy Výhody  vyhledává i částečně relevantní dokumenty  řazení dokumentů podle relevance (stupně podobnosti)  modifikace dotazu na základě vyhledaných relevantních dokumentů

25 Vektorový model Nevýhody není jasná interpretace vah výrazů v dotazu vzorce pro měření podobnosti nejsou teoreticky zdůvodněné koeficient podobnosti nemá jasný význam nelze užít konjunkci a disjunkci

26 Vektorový model

27 Latentní sémantické indexování hlavní charakteristika  statisticko-matematické metody  velký objem databáze  základem matice dokument-výraz (klíčové slovo)  singulární dekompozice matice  redukce původní matice  relativně nová metoda (1988), účinnost se testuje Výhody:  pojmové vyhledávání (KS, která nebyla zadána)  řazení dle relevance  metoda nezávislá na jazyce příklad