Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Fulltextové vyhledávání
Miroslav Prachař S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 1 1
2
Cíl Dosavadní možnosti vyhledávání
Analýza dalších potřeb při vyhledávání Technologické možnosti Implementace Budoucnost S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
3
Dosavadní možnosti vyhledávání I
Podpora vyhledávání od počátku vývoje UIS Původně jednoduchá funkcionalita Postupné rozšiřování Vznik portálových vyhledávacích aplikací S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
4
Dosavadní možnosti vyhledávání II
Podpora číselných a řetězcových údajů do délky 4000 znaků Pouze indexování „metadat“ Dostačující u některých objektů (lidé, předměty, pracoviště, …) U jiných potřeba indexovat i samotný obsah (Dokumentový server, přílohy e- mailů, helpdesk, diskuze…) S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
5
Analýza dalších potřeb I
Metadata ukládány jako databázové typy NUMBER VARCHAR2 Vlastní obsah záznamů/dokumentů BLOB (Binary Large Object) .doc, .pdf, … CLOB (Character Large Object) Řetězce/texty nad 4000 znaků S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
6
Analýza dalších potřeb II
Rozsáhlost textových dokumentů Odlišná filozofie indexování Podpora speciálních operátorů ve vyhledávácích dotazích Vhodná prezentace výsledků → fulltextové technologie S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
7
Technologické možnosti
Komerční řešení Google Search Appliance Oracle Text ConText CZ / ConText SK Vývoj vlastní fulltextové technologie Přizpůsobení přesně pro účely UIS Větší časová náročnost Možnost kombinace s některými komerčními produkty S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
8
Implementace indexování
Inverzní index Odlišná filozofie od „klasického“ indexování Extrahuje tzv. tokeny z indexované sady dokumentů Ke každému tokenu přiřazuje seznam dokumentů, ve kterých se vyskytuje Případně další přídavné informace S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
9
Princip implementace inverzního indexu v UIS
S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
10
Aktualizace indexu Realizace na aplikační úrovni speciálním modulem
Úvodní naindexování (u obsáhlejších záznamů časově náročnější ) Indexování změn Indexování nového/změněného záznamu nejpozději do 5 min. S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
11
Vyhledávací dotazy I Logické operátory Speciální fulltextové operátory
AND, OR, NOT Implicitně AND Speciální fulltextové operátory NEAR, PHRASE Case insensitive Volitelná citlivost na diakritiku S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
12
Vyhledávací dotazy II Pokročilejší fulltextové operátory
Operátor pravostranného rozšíření * Umožňuje podřetězcové vyhledávání Operátor STEM reprezentovaný znakem $ Na klíč se aplikuje lexikální analýza Zjistí, dle jakého slovního základu se mají generovat další tvary klíče, přes které se bude vyhledávat Pro implementaci využití produktu ConText CZ firmy Sefira S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
13
Příklady vyhledávacích dotazů I
informační systém univerzity vyhledá záznamy obsahující slovo „informační“ a zároveň „systém“ a zároveň „univerzity“ informační OR systém vyhledá záznamy obsahující slovo „informační“ nebo slovo „systém“ informační NEAR systém vyhledá záznamy, kde slova „informační“ a „systém“ jsou v textu blízko sebe univerzitní PHRASE informační PHRASE systém vyhledá záznamy, kde slova „univerzitní“, „informační“ a „systém“ následují v textu bezprostředně za sebou S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
14
Příklady vyhledávacích dotazů II
informac* vyhledá záznamy obsahující informace, informaci, informacemi, informační, informačních, $jde vyhledá záznamy obsahující studium nebo některý z jeho vyskloňovaných tvarů - jdu, jdem, jdete, šli, nešlo, jít, jdouce,… $studuje NEAR $predmet vyhledá záznamy, kde slova studuje a předmět nebo slova z nich odvozená jsou v textu blízko sebe informac* OR system* vyhledá záznamy, obsahující buď nějaké slovo začínající „informac…“ nebo slovo začínající „system…“ S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
15
Další vývoj Operátor levostranného rozšíření Kvalitní parsování dotazů
Podpora vnoření operátorů Použití závorek Maximální efektivnost indexovacích algoritmů a rychlost fulltextových dotazů Hodnocení relevance nalezeného dokumentu Podpora stoplistů (různé druhy) Nasazení do různých oblastí UIS S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
16
Děkuji za pozornost. Dotazy? 23. – 25. dubna 2007
S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2007
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.