Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilLukáš Vít Kraus
1
Fulltextové technologie a jejich využití v UIS Bc. Miroslav Prachař datamanagement prachar@uikt.mendelu.cz
2
OBSAH PŘÍSPĚVKU Úvod do fulltextových technologií Stav vyhledávání v UIS Využití fulltextu v UIS Implementace
3
CO ZNAMENÁ FULLTEXT Metoda vyhledávání, indexování Rozsáhlé soubory Vznik fulltextu – nárůst dat v síti Internet Transformace HTML stránek Inverzní index Prohledávání samotného obsahu dokumentu
4
VYHLEDÁVÁNÍ V UIS Podle určitého klíče Klíč = charakteristická informace určitého objektu Podřetězce Možnost zadat část klíče Různé metody indexování
5
PRINCIP INDEXOVÁNÍ V UIS
6
MOŽNOSTI ZAVEDENÍ FULLTEXTU Vývoj vlastní technologie Google Komerční technologie Oracle – Oracle Text
7
ORACLE TEXT Indexování, CONTEXT index Hledání slov uvnitř textových dokumentů Zobrazování informací Inverzní index – tzv. tokeny MS WORD, PDF, HTML, čistý text, … Lexer - jazykové přizpůsobení Diakritika
8
PŘÍKLAD DOTAZU SELECT SCORE(1), nazev FROM DOKUMENTY WHERE CONTAINS(DOKUMENT, ’les’, 1) > 0 ORDER BY SCORE(1) DESC; ’les’ -> ’les and pole’ -> ’les & pole’
9
CONTEXT CZ Produkt firmy SEFIRA Lokalizace ORACLE TEXT pro češtinu Fce CZ, český stoplist, různé operátory Operátor stem ($) Lexikální analýza Slovní základ Speciální datový slovník Sada spec. algoritmů
10
PŘÍKLAD POUŽITÍ CONTEXT CZ Dotaz: kůň Výsledek: sada dokumentů obsahující koně, koni, koňmi… Dotaz: jíst Výsledek: jedla, jez, jíme…
11
PŘÍKLAD POUŽITÍ CONTEXT CZ SELECT SCORE(1),id, nazev FROM DOKUMENTY WHERE CONTAINS(nazev, CZ( ’ $studium | $system ’, ’ index ’, 0,0,1,2), 1) > 0 ORDER BY SCORE(1) DESC;
12
IMPLEMENTACE Testovací fáze Školení SEFIRA DB vrstva Aplikační vrstva
13
OBLASTI VYUŽITÍ V UIS Dokumentový server Závěrečné práce Pošta TODO, aplikace, zásadní informace… Tematické vyhledávání
14
Děkuji za pozornost. Dotazy ?
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.