Resolución de la ambigüedad semántica mediante métodos basados en conocimiento y su aportación a tareas de pln
- Andrés Montoyo Guijarro Director
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 27 de abril de 2009
- Manuel Palomar Sanz Presidente
- Armando Suárez Cueto Secretario
- Ruslan Mitkov Vocal
- Germán Rigau Claramunt Vocal
- Paolo Rosso Vocal
Tipo: Tesis
Resumen
Un problema de difícil resolución en el Procesamiento del Lenguaje Natural (PLN) es la determinación del sentido correcto de palabras ambiguas dentro de un determinado contexto, Desde el inicio de la informática en los años 50, este problema ha sido de gran interés debido a la diversidad de aplicaciones que necesitan una óptima desambiguación de las palabras para funcionar correctamente. Además, en los últimos años, debido a la gran explosión de Internet y a la infinidad de páginas web existentes, el problema de la ambigüedad ha crecido sustancialmente. En la actualidad, la tarea de la desambiguación automática (WSD, Word Sense Disambiguation) es muy compleja para la gran mayoría de aplicaciones de PLN, y es considerada como una tarea intermedia y no como un fin en sí misma. Además, se ha demostrado en diversos estudios que la identificación del sentido correcto de una palabra puede mejorar el comportamiento de sistemas de traducción automática, sistemas de recuperación de información, clasificación de documentos o utilizarse en tareas específicas como la restauración de acentos de palabras en el procesamiento de textos. A partir de los recursos léxicos utilizados, se pueden clasificar las distintas aproximaciones para WSD en: sistemas que utilizan diccionarios (knowledge-based) o sistemas que utilizan corpus de entrenamiento (corpus-based). Los sistemas basados en diccionarios utilizan la información que aparece en las definiciones de las distintas acepciones del término a desambiguar, y otros recursos léxicos como tesauros (pej. Roget's Thesaurus) o bases de datos léxicas (pej. WordNet). En los enfoques basados en corpus, se utilizan corpus tanto anotados semánticamente (pej. SemCor) como no anotados. En estos enfoques las técnicas de análisis varían según los casos, empleando técnicas bayesianas, probabilísticas e incluso redes neuronales. En esta Tesis se ha presentado la definición y evaluación de varios métodos de resolución de la ambigüedad semántica: DRelevant, DLSA y SenseDiscrim. Todos los métodos presentados se clasifican dentro de la categoría de métodos no supervisados, basados en conocimiento. Estos métodos han sido evaluados según las especificaciones de la competición Senseval mostrando una comparativa respecto a otros sistemas. Además, se han integrado una serie de recursos semánticos (Dominios Relevantes, SUMO) sobre diferentes técnicas (LSA, Machine Learning) con el objetivo de resolver problemas que afectan a otras tareas de PLN, tales como: reconocimiento de la variabilidad semántica o detección y clasificación de nombres propios. Además, como consecución del estudio de la distribución y relaciones entre los sentidos en bases de datos léxicas como WordNet se ha creado un nuevo recurso léxico: Dominios Relevantes. Este recurso es susceptible de integrarse en otros sistemas de WSD o servir de referencia semántica para otras tareas de PLN.