Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jak funguje vyhledávání podobností Šimon Suchomel.

Podobné prezentace


Prezentace na téma: "Jak funguje vyhledávání podobností Šimon Suchomel."— Transkript prezentace:

1 http://is.muni.cz/ Jak funguje vyhledávání podobností Šimon Suchomel

2 Přehled ▫ Motivace ▫ Náhled na architekturu systému ▫ Modul pro vyhledávání z Internetu ▫ Modul pro detailní porovnání Informační systém Masarykovy univerzity

3 Teze Informační systém Masarykovy univerzity ▫ Standardní postup při plagiátorství z Webu ▫ Simulací stejného postupu se dostaneme ke stejným dokumentům Převzato z Potthast a kol. Overview of the 4th International Competition on Plagiarism Detection

4 Generický proces Informační systém Masarykovy univerzity

5 Hlavní kroky vybírání kandidátních dokumentů Analýza textu Dotazování Stahování a zpracování dokumentů z Webu Informační systém Masarykovy univerzity

6 Analýza textu ▫ Čištění a předzpracování dokumentu ▫ Detekce jazyka ▫ Extrakce klíčových slov ▫ Analýza změn charakteru textu ▫ Formulace dotazů ▫ Permanentní uchování metainformací Informační systém Masarykovy univerzity Převzato z: Weideman, M. 2009. Website Visibility: the theory and practice of improving rankings Chandos Publishers, Oxford, UK. ISBN 1 84334 473 4

7 Dotazování ▫ Řízené dotazování ▫ Zpětná vazba ▫ Náročná operace Informační systém Masarykovy univerzity

8 Stahování a zpracování ▫ Vysoce paralelizovatelné ▫ Stahování je rychlejší ▪ Požadavky na úložiště ▪ Provoz serverů ▫ Konverze do textu pro výpočet charakteristik Informační systém Masarykovy univerzity

9 Detailní porovnání ▫ Neustálý distribuovaný výpočet charakteristik nových a změněných dokumentů Informační systém Masarykovy univerzity Převzato z http://venturebeat.com

10 Detailní porovnání ▫ Lze redukovat na porovnání páru ▫ Obrovské množství dokumentů si žádá speciální zacházení ▫ Více charakteristik textu ▫ Zarovnání do platných intervalů ▫ Po „zkontrolování“ jsou výsledky porovnání okamžité Informační systém Masarykovy univerzity

11 Shrnutí ▫ Systém poskytuje detailní porovnávání dokumentů nad rychle rostoucí rozsáhlou bází dat s relevantními dokumenty Informační systém Masarykovy univerzity

12 Děkuji za pozornost theses@fi.muni.cz Informační systém Masarykovy univerzity


Stáhnout ppt "Jak funguje vyhledávání podobností Šimon Suchomel."

Podobné prezentace


Reklamy Google