Jan Majer, Tomáš Pytlík, Tomáš Vondráček IKE D o k u m e n t o g r a f i c k é i n f o r m a č n í s y s t é m y
Co je to IKE? Grafický vyhledávací nástroj Poskytnutí přímočaré cesty k hledaným informacím Zobrazování pomocí uzlů a hran Okruh příbuzných termů, zanoření úrovní hledání Inspirace Google Wonder Wheel
Google Wonder Wheel
Moduly systému Crawler Webová aplikace Vyhledávací engine Crawler WinForms aplikace Uživatelské rozhraní
Crawler Zpracovává vstupní xml soubor obsahující czech wiki databázi Výstupem jsou soubory: –Pages.xml obsahující názvy stránek a jejich id –Words.xml obsahující jednotlivá slova –PagesWeight xml soubory, obsahují pro každé slovo váhy stránek na kterých se vyskytuje. –WordsOnPages xml soubory, obsahující pro každou stránku slova, která se na ní vyskytují a jejich váhu pro danou stránku –StopWords.xml seznam stop slov tedy slov, podle kterých se nebude vyhledávat
Crawler – průběh 1
Crawler – průběh 2
Crawler – průběh 3
Crawler – shrnutí 1 zpracování vstupního souboru na dílčí soubory - 7min 25sec Crawlování – 56min 23sec Generování pomocných seznamů (pw,wop soubory) – 3minuty Vygenerování hrubého seznamu stop slov – 11sec Celkem – 1 hodina 6minut 59vteřin
Crawler - shrnutí 2 Velikost vstupního souboru - 776MB Velikost výstupních souborů – 4,5GB Využití operační paměti během zpracování – 1GB Konfigurace testovacího PC: (Intel Core 2 Duo 2.53Ghz, 4GB RAM, HDD 7200rpm 640GB)
Vyhledávání Vstupem je term zadaný uživatelem Úkolem je nalézt a zpracovat výsledky Výstupem jsou data pro vykreslení v domluveném formátu
Průběh hledání
Vyhledávání - shrnutí Konkrétní slova (baskervillský, Doria) –4 – 6 sekund Obecná slova (teriér, křižník) –7 – 10 sekund Velmi obecná slova (pes, loď) –11 – 20 sekund Specifická slova (Wikipedie) –50 – 100 sekund
Uživatelské rozhraní Více viz video ike_prezentace.avi
Děkujeme za pozornost