Fulltextové technologie a jejich využití v UIS Bc. Miroslav Prachař datamanagement
OBSAH PŘÍSPĚVKU Úvod do fulltextových technologií Stav vyhledávání v UIS Využití fulltextu v UIS Implementace
CO ZNAMENÁ FULLTEXT Metoda vyhledávání, indexování Rozsáhlé soubory Vznik fulltextu – nárůst dat v síti Internet Transformace HTML stránek Inverzní index Prohledávání samotného obsahu dokumentu
VYHLEDÁVÁNÍ V UIS Podle určitého klíče Klíč = charakteristická informace určitého objektu Podřetězce Možnost zadat část klíče Různé metody indexování
PRINCIP INDEXOVÁNÍ V UIS
MOŽNOSTI ZAVEDENÍ FULLTEXTU Vývoj vlastní technologie Google Komerční technologie Oracle – Oracle Text
ORACLE TEXT Indexování, CONTEXT index Hledání slov uvnitř textových dokumentů Zobrazování informací Inverzní index – tzv. tokeny MS WORD, PDF, HTML, čistý text, … Lexer - jazykové přizpůsobení Diakritika
PŘÍKLAD DOTAZU SELECT SCORE(1), nazev FROM DOKUMENTY WHERE CONTAINS(DOKUMENT, ’les’, 1) > 0 ORDER BY SCORE(1) DESC; ’les’ -> ’les and pole’ -> ’les & pole’
CONTEXT CZ Produkt firmy SEFIRA Lokalizace ORACLE TEXT pro češtinu Fce CZ, český stoplist, různé operátory Operátor stem ($) Lexikální analýza Slovní základ Speciální datový slovník Sada spec. algoritmů
PŘÍKLAD POUŽITÍ CONTEXT CZ Dotaz: kůň Výsledek: sada dokumentů obsahující koně, koni, koňmi… Dotaz: jíst Výsledek: jedla, jez, jíme…
PŘÍKLAD POUŽITÍ CONTEXT CZ SELECT SCORE(1),id, nazev FROM DOKUMENTY WHERE CONTAINS(nazev, CZ( ’ $studium | $system ’, ’ index ’, 0,0,1,2), 1) > 0 ORDER BY SCORE(1) DESC;
IMPLEMENTACE Testovací fáze Školení SEFIRA DB vrstva Aplikační vrstva
OBLASTI VYUŽITÍ V UIS Dokumentový server Závěrečné práce Pošta TODO, aplikace, zásadní informace… Tematické vyhledávání
Děkuji za pozornost. Dotazy ?