Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
http://is.muni.cz/ Jak funguje vyhledávání podobností Šimon Suchomel
2
Přehled ▫ Motivace ▫ Náhled na architekturu systému ▫ Modul pro vyhledávání z Internetu ▫ Modul pro detailní porovnání Informační systém Masarykovy univerzity
3
Teze Informační systém Masarykovy univerzity ▫ Standardní postup při plagiátorství z Webu ▫ Simulací stejného postupu se dostaneme ke stejným dokumentům Převzato z Potthast a kol. Overview of the 4th International Competition on Plagiarism Detection
4
Generický proces Informační systém Masarykovy univerzity
5
Hlavní kroky vybírání kandidátních dokumentů Analýza textu Dotazování Stahování a zpracování dokumentů z Webu Informační systém Masarykovy univerzity
6
Analýza textu ▫ Čištění a předzpracování dokumentu ▫ Detekce jazyka ▫ Extrakce klíčových slov ▫ Analýza změn charakteru textu ▫ Formulace dotazů ▫ Permanentní uchování metainformací Informační systém Masarykovy univerzity Převzato z: Weideman, M. 2009. Website Visibility: the theory and practice of improving rankings Chandos Publishers, Oxford, UK. ISBN 1 84334 473 4
7
Dotazování ▫ Řízené dotazování ▫ Zpětná vazba ▫ Náročná operace Informační systém Masarykovy univerzity
8
Stahování a zpracování ▫ Vysoce paralelizovatelné ▫ Stahování je rychlejší ▪ Požadavky na úložiště ▪ Provoz serverů ▫ Konverze do textu pro výpočet charakteristik Informační systém Masarykovy univerzity
9
Detailní porovnání ▫ Neustálý distribuovaný výpočet charakteristik nových a změněných dokumentů Informační systém Masarykovy univerzity Převzato z http://venturebeat.com
10
Detailní porovnání ▫ Lze redukovat na porovnání páru ▫ Obrovské množství dokumentů si žádá speciální zacházení ▫ Více charakteristik textu ▫ Zarovnání do platných intervalů ▫ Po „zkontrolování“ jsou výsledky porovnání okamžité Informační systém Masarykovy univerzity
11
Shrnutí ▫ Systém poskytuje detailní porovnávání dokumentů nad rychle rostoucí rozsáhlou bází dat s relevantními dokumenty Informační systém Masarykovy univerzity
12
Děkuji za pozornost theses@fi.muni.cz Informační systém Masarykovy univerzity
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.