Jak funguje vyhledávání podobností Šimon Suchomel
Přehled ▫ Motivace ▫ Náhled na architekturu systému ▫ Modul pro vyhledávání z Internetu ▫ Modul pro detailní porovnání Informační systém Masarykovy univerzity
Teze Informační systém Masarykovy univerzity ▫ Standardní postup při plagiátorství z Webu ▫ Simulací stejného postupu se dostaneme ke stejným dokumentům Převzato z Potthast a kol. Overview of the 4th International Competition on Plagiarism Detection
Generický proces Informační systém Masarykovy univerzity
Hlavní kroky vybírání kandidátních dokumentů Analýza textu Dotazování Stahování a zpracování dokumentů z Webu Informační systém Masarykovy univerzity
Analýza textu ▫ Čištění a předzpracování dokumentu ▫ Detekce jazyka ▫ Extrakce klíčových slov ▫ Analýza změn charakteru textu ▫ Formulace dotazů ▫ Permanentní uchování metainformací Informační systém Masarykovy univerzity Převzato z: Weideman, M Website Visibility: the theory and practice of improving rankings Chandos Publishers, Oxford, UK. ISBN
Dotazování ▫ Řízené dotazování ▫ Zpětná vazba ▫ Náročná operace Informační systém Masarykovy univerzity
Stahování a zpracování ▫ Vysoce paralelizovatelné ▫ Stahování je rychlejší ▪ Požadavky na úložiště ▪ Provoz serverů ▫ Konverze do textu pro výpočet charakteristik Informační systém Masarykovy univerzity
Detailní porovnání ▫ Neustálý distribuovaný výpočet charakteristik nových a změněných dokumentů Informační systém Masarykovy univerzity Převzato z
Detailní porovnání ▫ Lze redukovat na porovnání páru ▫ Obrovské množství dokumentů si žádá speciální zacházení ▫ Více charakteristik textu ▫ Zarovnání do platných intervalů ▫ Po „zkontrolování“ jsou výsledky porovnání okamžité Informační systém Masarykovy univerzity
Shrnutí ▫ Systém poskytuje detailní porovnávání dokumentů nad rychle rostoucí rozsáhlou bází dat s relevantními dokumenty Informační systém Masarykovy univerzity
Děkuji za pozornost Informační systém Masarykovy univerzity