Application of Information Retrieval Techniques to Document Filtered Set Generation for External Plagiarism Detection

  1. Micol Ponce, Daniel
  2. Ferrández Escámez, Óscar
  3. Muñoz Guillena, Rafael
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2010

Número: 45

Páginas: 277-280

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este artículo presentamos un método para la generación de conjuntos filtrados de documentos empleando técnicas de recuperación de información. Esto se presenta en el contexto de la detección de plagios externos, aunque las técnicas detalladas en este artículo son aplicables a cualquier tipo de documentos o consultas. La producción de conjuntos filtrados, y por ende la limitación del espacio de búsqueda del problema, puede resultar en una gran mejora de rendimiento y es utilizada hoy en día en gran cantidad de aplicaciones reales, como buscadores web. Respecto a la detección de plagios en documentos, la base de datos de textos con los que comparar el candidato sospechoso es potencialmente grande, y por lo tanto es muy recomendable aplicar técnicas de generación de conjuntos filtrados.

Referencias bibliográficas

  • Gospodnetic, Otis, Erik Hatcher, and Michael McCandless. 2009. Lucene in Ac- tion. Manning Publications, 2nd edition.
  • Grozea, Cristian, Christian Gehl, and Marius Popescu. 2009. ENCOPLOT: Pairwise Sequence Matching in Linear Time Applied to Plagiarism Detection. In Proceed- ings of the SEPLN'09 Workshop on Un- covering Plagiarism, Authorship and So- cial Software Misuse, pages 10{18.
  • Kasprzak, Jan, Michal Brandejs, and Miroslav Kripac. 2009. Finding Plagiarism by Evaluating Document Similarities. In Proceedings of the SE- PLN'09 Workshop on Uncovering Plagia- rism, Authorship and Social Software Mis- use, pages 24{28.
  • Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. 2008. Introduc- tion to Information Retrieval. Cambridge University Press.
  • Potthast, Martin, Benno Stein, Andreas Eiselt, Alberto Barrón Cede~no, and Paolo Rosso. 2009. Overview of the 1st International Competition on Plagiarism Detection. In Proceedings of the SE- PLN'09 Workshop on Uncovering Plagia- rism, Authorship and Social Software Mis- use, pages 1{9.
  • Stein, Benno, Sven Meyer zu Eissen, and Martin Potthast. 2007. Strategies for retrieving plagiarized documents. In Proceedings of the 30th annual interna- tional ACM SIGIR conference on Re- search and development in information re- trieval, pages 825{826.