Análisis semántico multidimensional aplicado a la desambiguación del lenguaje natural
- Andrés Montoyo Guijarro Director
- Sonia Vázquez Pérez Director
Universidade de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 30 de xaneiro de 2012
- Juan Pedro Febles Rodríguez Presidente/a
- Rafael Muñoz Guillena Secretario
- Emilio Delfín Soler Cárdenas Vogal
- Ailyn Febles Estrada Vogal
- Vivian Estrada Senti Vogal
Tipo: Tese
Resumo
Esta investigación se demuestra la posibilidad de que con la aplicación no supervisada y basada en conocimiento del Análisis Semántico Multidimensional en la Resolución de Ambigüedad Semántica de las Palabras (WSD), se logran superar los resultados de sistemas actuales de similar condición y además se aplica este análisis en el área de la Minería de Opiniones con resultados relevantes. Esto es posible, tras detectar que los sistemas de WSD han carecido de algún modo de multidimensionalidad semántica y que por lo general el baseline MFS siempre ha obtenido relevantes resultados. Estos aspectos hacen necesaria la creación de métodos de Resolución de Ambigüedad Semántica de las Palabras, capaces de comprobar si con el análisis desde diferentes ópticas conceptuales se superan los resultados actuales de WSD. En esta Tesis se aplican métodos sin supervisión, porque el principal problema de los sistemas supervisados, reside en la escasez de corpus anotados manualmente para su entrenamiento. Aunque es evidente, según los resultados obtenidos en las competiciones científicas analizadas, que este tipo de sistemas (incluye además a los débilmente supervisados) obtienen mejores resultados que los no supervisados (incluye los basados en conocimiento). Para lograr el desarrollo de métodos que incorporen semántica multidimensional en sus procesos de WSD, en esta tesis se desarrolla un recurso semántico multidimensional (ISR-WN), capaz de ofrecer a sistemas de PLN diferentes ópticas de análisis textual. Tras la creación del ISR-WN, se desarrollan varios métodos de WSD basados en el Análisis Semántico Multidimensional. Inicialmente, se realiza un análisis desde múltiples dimensiones semánticas, en concreto construyendo Árboles Semánticos Relevantes (RST) de los textos. Como una mejora de RST se desarrolla RST+Frec. Esta nueva propuesta utiliza los múltiples conceptos semánticos obtenidos por RST y aplica una medida que es capaz de evaluar los valores de frecuencias de sentidos conjuntamente con los de relevancia de RST. La nueva variante, logra superar ampliamente a la original, al baseline MFS asociado a la frecuencia utilizada y además es capaz de colocarse a la cabeza de los resultados alcanzados por sistemas de WSD sin supervisión. Otras de las propuestas desarrolladas, se basan en grafos de conocimiento con la combinación del modelo N-Cliques en WSD. Estas obtienen sub-grafos que agrupan los conceptos más fuertemente enlazados. Bajo el modelo N-Cliques se desarrollan dos variantes (N-Cliques+RV y N-Cliques + RST) enfocadas en la creación del grafo de desambiguación, donde ambas aproximaciones obtienen similares resultados, pudiendo ubicarse entre los puestos intermedios del ranking de Senseval-2. Otra de las propuestas basadas en grafos tenidas en consideración en esta tesis es el método Ppr+Frec (basado en Personalizing PageRank, propuesta carente esencialmente de multidimensionalidad y frecuencia de sentidos). Este logra obtener los mejores resultados entre los reportados para sistemas sin supervisión incluso por encima de RST+Frec, pudiendo resolver la ambigüedad semántica de los adverbios en un 100% al aplicarlo sobre el corpus de Senseval-3. Después de haber experimentado notables mejoras en la resolución del Análisis Semántico Multidimensional sobre texto, se ha querido aplicar alguno de estos tipos especiales de resolución de ambigüedad en otras áreas del PLN. Por ejemplo en Minería de Opiniones. Para ello se plantea clasificar los textos según polaridades, presencia de opinión y/o pertenencia a un tópico o frase que lo describa. Inicialmente, se aplica la aproximación Senti-RST. Esta se basa en la construcción de Árboles Semánticos Relevantes capaces de describir a nivel conceptual los textos, en Árboles Conceptuales Positivos y Negativos. Senti-RST obtiene resultados que ubicarían la propuesta entre los cuatro primeros puestos del ranking de la competición MOAT. Por otra parte, varias aproximaciones de Clasificación Textual (TC) se manifiestan también en la investigación, donde se enfrentan a una de las problemáticas de esta tarea (la corta longitud del texto a analizar). La mejor de las aproximaciones de TC aplicada en opiniones, obtiene una precisión cercana al 60%. Aunque estos resultados difieren mucho de los obtenidos por los métodos tradicionales de TC, resulta de mucha ayuda poseer una propuesta que sea capaz de ser aplicada en textos cortos sin necesidad de aprendizaje.