Una aproximación basada en corpus para la detección del foco geográfico en el texto

  1. Peregrino Torregrosa, Fernando S.
  2. Tomás Díaz, David
  3. Llopis Pascual, Fernando
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2013

Número: 50

Páginas: 69-76

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

El foco geográfico de un documento identifica el lugar o lugares en los que se centra el contenido del texto. En este trabajo se presenta una aproximación basada en corpus para la detección del foco geográfico en el texto. Frente a otras aproximaciones que se centran en el uso de información puramente geográfica para la detección del foco, nuestra propuesta emplea toda la información textual existente en los documentos del corpus de trabajo, partiendo de la hipótesis de que la aparición de determinados personajes, eventos, fechas e incluso términos comunes, pueden resultar fundamentales para esta tarea. Para validar nuestra hipótesis, se ha realizado un estudio sobre un corpus de noticias geolocalizadas que tuvieron lugar entre los años 2008 y 2011. Esta distribución temporal nos ha permitido, además, analizar la evolución del rendimiento del clasificador y de los términos más representativos de diferentes localidades a lo largo del tiempo.

Referencias bibliográficas

  • Amitay, Einat, Nadav Har’El, Ron Sivan, y Aya Soffer. 2004. Web-a-where: geotagging web content. En Proceedings of the 27th annual international ACM SIGIR conference, SIGIR ’04, páginas 273–280, New York, NY, USA. ACM.
  • Anastácio, Ivo, Bruno Martins, y Pável Calado. 2009a. Classifying documents according to locational relevance. En Progress in Artificial Intelligence, volumen 5816. Springer Berlin Heidelberg, páginas 598–609.
  • Anastácio, Ivo, Bruno Martins, y Pável Calado. 2009b. A comparison of different approaches for assigning geographic scopes to documents. En 1st INForum-Simpósio de Informática, páginas 285–296.
  • Buscaldi, Davide y Paulo Rosso. 2008. A conceptual density-based approach for the disambiguation of toponyms. Int. J. Geogr. Inf. Sci., 22(3):301–313, Enero.
  • Chang, Chih-Chung y Chih-Jen Lin. 2011. Libsvm: A library for support vector machines. ACM Trans. Intell. Syst. Technol.,2(3):27:1–27:27, Mayo.
  • Clough, Paul, Jiayu Tang, Mark M Hall, y Amy Warner. 2011. Linking archival data to location: a case study at the uk national archives. ASLIB Proceedings, 63(2/3):127–147.
  • Daelemans, Walter y Antal van den Bosch. 2009. Memory-Based Language Processing. Cambridge University Press, New York, NY, USA, 1st edici´on.
  • Fan, Rong-En, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, y Chih-Jen Lin. 2008. Liblinear: A library for large linear classification. J. Mach. Learn. Res., 9:1871–1874, Junio.
  • Leidner, Jochen Lothar. 2007. Toponym Resolution in Text: Annotation, Evaluation and Applications of Spatial Grounding of Place Names. Ph.D. tesis, School of Informatics, University of Edinburgh.
  • Martins, Bruno y M. J. Silva. 2005. A graphranking algorithm for geo-referencing documents. En Jiawei Han y Et Al.Editor, editores, Fifth IEEE International Conference on Data Mining ICDM05, volumen 2002, p´aginas 741–744. IEEE.
  • Qin, Teng, Rong Xiao, Lei Fang, Xing Xie, y Lei Zhang. 2010. An efficient location extraction algorithm by leveraging web contextual information. En Proceedings of the 18th SIGSPATIAL, GIS ’10, páginas 53–60, New York, NY, USA. ACM.
  • Witten, Ian H. y Eibe Frank. 2005. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, 2 edición.
  • Woodruff, Allison Gyle y Christian Plaunt. 1994. Gipsy: automated geographic indexing of text documents. Journal of the American Society for Information Science, 45(9):645–655.
  • Yang, Yiming y Jan O. Pedersen. 1997. A comparative study on feature selection in text categorization. En ICML ’97, páginas 412–420, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.
  • Ye, Mao, Rong Xiao, Wang-Chien Lee, y Xing Xie. 2011. Location relevance classification for travelogue digests. En WWW ’11, páginas 163–164, New York, NY, USA. ACM.