Los roles semánticos en la tecnología del lenguaje humanoAnotación y aplicación
- Manuel Palomar Sanz Director
Universitat de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 21 de de juliol de 2008
- Antonio Ferrández Rodríguez President
- Estela Saquete Boró Secretària
- Lidia Moreno Boronat Vocal
- Ruslan Mitkov Vocal
- Luis Alfonso Ureña López Vocal
Tipus: Tesi
Resum
EL trabajo presentado en esta Tesis doctoral aborda el análisis semántico de textos a través del estudio de los roles semántico, su anotación mediante procesos automáticos, y su aplicación a otras áreas de procesamiento del lenguaje natural como son los sistemas de búsqueda de respuestas. Las investigaciones respecto a cuál es la situación actual en cuanto a roles semánticos se refiere, ponen de manifiesto que a fecha de hoy no existe un acuerdo entre la comunidad científica que permita establecer un conjunto de roles semánticos estándar y genético, que sirva de referencia para cualquier trabajo relacionado con roles semánticos. La situación es diametralmente opuesta, los años dedicados por los investigadores al estudio de roles semánticos han dado lugar a una gran diversidad de conjuntos de roles semánticos y de recursos lingüísticos desarrollados a partir de ellos. En consecuencia cualquier trabajo que aborde el estudio de roles semánticos debe comenzar por establecer qué conjuntos de roles semánticos utilizar, o incluso definir, de manera que el conjunto y los recursos de los que se disponga resulten adecuados para la tarea en la que van a ser aplicados. Por ello, en este trabajo se define un conjunto de roles semánticos en forma de jararquía, que supere algunas de las limitaciones de conjuntos de roles existentes, que pueda dar soporte a taeas de búsqueda de respuestas y que mantenga relaciones con propuestas existentes. Los ya comentados años dedicados por los investigadores al estudio de roles semánticos han causado además la proliferación de una gran cantidad de herramientas que afrontan de forma automática la anotación de textos con información sobre roles semánticos. En la mayoría de los casos, si bien existen excepciones, la anotación automática se afronta desde perspectivas basadas en aprendizaje automático supervisado en las que la información seleccionada para el aprendizaje resulta crítica. En consecuencia, tanto la información como su proceso de selección, deberían ser pilares fundamentales a tener en cuenta a la hora de diseñar y desarrollar estas herramientas de anotación. Sin embargo, el afán de superación auspiciado por las diferentes campañas internacionales que se han celebrado con el objetivo de crear un foro específico donde discutir y contrastar resultados y experiencias, han hecho que los desarrollos de esta clase de herramientas se hayan realizado atendiendo, casi exclusivamente, a criterios de mejora de los resultados. Como alternativa esta memoria propone el desarrollo de una herramienta de anotación de roles semánticos basada en aprendizaje automático, denominada SemRol, que permita analizar, estudiar y seleccionar qué información es realmente útil en esta clase de procesos. La experimentación en el proceso de selección de información convierten a SemRol en un clasificador constituído a su vez por clasificadores especializados obtenidos atendiendo a dos estrategias de anotación diferentes: clasificación por sentidos frente a única y clasificación individual frente a global. En el primer caso se desarrollan tantos clasificadores como significados de verbos disponibles en el corpus de entrenamiento, más un clasificador único que trate por igual cualquier significado de cada verbo. En el segundo, se desarrollan tantos clasificadores como tipos de roles semánticos se desean anotar, frente al clasificador global para anotación del conjunto de roles completo. Como resultado se concluye que: i) los clasificadores especializados para significados de verbos son preferibles para la anotación de argumentos numerados, mientras que el clasificador único obtiene mejores resultados para la anotación de adjuntos, ii) la especialización de clasificadores para los diferentes roles semánticos considerados se traduce en una mejora sustancial de los resultados respecto al clasificador global tanto en la reducción de la información necesitada, como en los resultados numérico.