SEMQA: un modelo semántico aplicado a los sistemas de búsqueda de respuestas

Vicedo González, José-Luis

SEMQAun modelo semántico aplicado a los sistemas de búsqueda de respuestas

Vicedo González, José-Luis

Supervised by:

Antonio Ferrández Rodríguez Director

Defence university: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 28 May 2002

Committee:

María Felisa Verdejo Maíllo Chair
Luis Alfonso Ureña López Secretary
Manuel Palomar Sanz Committee member
Horacio Rodríguez Hontoria Committee member
Lidia Moreno Boronat Committee member

Department:

LENGUAJES Y SISTEMAS INFORMATICOS

Type: Thesis

Teseo: 86479 DIALNET RUA editor

Abstract

Los sistemas de recuperación de información (RI) se han convertido en herramientas básicas para acceder a la gran cantidad de información electrónica disponible en la actualidad, Sin embargo, la escasa precisión de estos sistemas a la hora de obtener respuestas concretas a necesidades específicas de información, ha fomentado la investigación en sistemas que permitan un acceso de estas características a grandes volúmenes de información: los sistemas de Búsqueda de Respuestas (BR) en dominios no restringidos (open-domain Question Answering systems- QA). Estos sistemas realizan una tarea mucho más precisa que las tareas clásicas de RI, ya que los resultados de la búsqueda no son documentos completos sino pequeños extractos de texto que contienen la respuesta a las preguntas formuladas por los usuarios. Estos sistemas obtienen la respuesta partiendo de una gran cantidad de textos no restringidos escritos en lenguaje natural como periódicos, diccionarios, etc. Las técnicas empleadas por estos sistemas están relacionadas con aquellas tradicionalmente empleadas en los campos de RI y de procesamiento de lenguaje natural (PLN). En particular, actualmente existe un gran interés en la obtención de modelos generales que combinen e integren de forma eficiente ambos tipos de técnicas en tareas de BR. El trabajo principal desarrollado en esta tesis incide en este aspecto. Consiste en la definición de un modelo general de representación de la información textual que aglutina sus características léxicas, sintácticas y sobre todo, semánticas enuna unidad (denominada "concepto") susceptible de ser tratada como elemento básico de información con el que un sistema de BR ha de enfrentarse. Además, se ha definido e implementado un sistema de BR (SEMQA) que emplea esta unidad de información en sus procesos permitiendo así, la superación de las limitaciones impuestas por los modelos basados en términos clave. La consecuc