Aplicación de la semántica multidimensional, alineamiento léxico-semántico y distancias léxicas al mejoramiento de tareas intermedias del PLN
- Fernández Orquín, Antonio Celso
- Rafael Muñoz Guillena Director
- Yoan Gutiérrez Vázquez Codirector
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 21 de enero de 2014
- Andrés Montoyo Guijarro Presidente
- Emilio Delfín Soler Cárdenas Secretario/a
- José Ignacio Abreu Salas Vocal
Tipo: Tesis
Resumen
Conclusiones 1. ¿Es posible prescindir de los recursos para el análisis morfo-léxico, sintáctico y semántico en el reconocimiento de entidades, para con ello evitar los errores acarreados por los recursos dedicados a estas tareas y, aún así, obtener resultados a la altura de los alcanzados a nivel internacional? Analizando los resultados obtenidos por el método expuesto en el epígrafe 3.7.5, a partir de los clasificadores de Máxima Entropía, se puede ver que esta variante se ubica en la primera posición entre los trabajos que han medido su desenvolvimiento con los corpus del CONLL-2002. También otros clasificadores con los que se experimenta (SVM, AD, RN), obtienen resultados por encima del promedio de los obtenidos en esta competición. Estos resultados son obtenidos para los corpus en español, un lenguaje con una gramática bastante compleja. Esto hace que se pueda afirmar que la opción de prescindir de la fase de pre-procesamiento de los corpus, evitando así el acarreo de errores y la carga computacional que representa el pre-procesamiento (el análisis léxico-sintáctico o semántico) en este tipo de tarea, es factible. 2. ¿Puede lograrse un método que permita abstraer las complejidades de los lenguajes formales en la creación de patrones de extracción, a partir de expresiones regulares para su utilización en diferentes tareas del PLN? A través de una representación gráfica como el autómata finito, se ha visto en los experimentos reflejados en el epígrafe 3.8.3 que resulta más simple crear un patrón a través de una representación simbólica, que utilizando un lenguaje regular. La dificultad para usar una sintaxis como esta, no solo influye a la hora de la creación de las expresiones, sino también para interpretarlas y modificarlas. También corrobora este resultado la utilización exitosa de este método en otros trabajos como son (Miranda, 2008; Fernández, Gutiérrez et al., 2011; García, 2011; León, 2011; Pérez, Fernández et al., 2011). Finalmente, una vez concluido todos los experimentos, se puede afirmar -partiendo de los resultados- que se hace más fácil obtener el patrón deseado a través del autómata finito que directamente con la expresión regular. Por tanto, este sería un posible método para la creación de patrones de extracción en aplicaciones de PLN, en el que se evitaría tener que lidiar directamente con el lenguaje regular. 3. ¿De qué forma mejorar la distancia de edición, utilizada en la medición de similitud, de manera que al comparar palabras con diferencias en la raíz -que provocan cambio en el significado- sean penalizadas consecuentemente? Si se tienen en cuenta no solo las operaciones a realizar para transformar una palabra en otra, si no también el lugar donde se producen, dándole una importancia que estará en función de cuán cerca ocurren del inicio de las palabras y además se valida la significación del carácter involucrado en la operación, se pueden obtener resultados que superan a los alcanzados por otras métricas que con regularidad se utilizan en esta tarea. 4. ¿Se podrá utilizar la modificación de la distancia de edición en la generación automática de familias de palabras y obtener resultados por encima de un 90% de precisión en esta tarea? A partir de la extensión realizada a la distancia de edición, no solo se puede utilizar esta métrica en el agrupamiento de familias de palabras, si no que se obtienen resultados superiores al 90% de precisión y exactitud en esta tarea. De esta forma, se logra un método de gran utilidad para el agrupamiento de bolsas de palabras que pertenecen al mismo campo semántico, lo que permite su utilización en otras tareas del PLN. 5. Mediante la modificación de la distancia de edición, ¿se podrá obtener un stemmer independiente del lenguaje, a partir del agrupamiento de familias de palabras, que obtenga resultados superiores al 95% de precisión, cobertura y exactitud? Mediante el agrupamiento de familias utilizando la DEx, se logra identificar el lexema común de las palabras, por lo tanto se puede identifica, con buena exactitud, el stem que agrupa bajo un mismo concepto a dichas palabras. Además, esto se logra con una precisión, exactitud y cobertura superior al 95%. 6. ¿Qué influencias tiene la utilización de un alineamiento léxico y el semántico en reconocimiento de la similitud textual desde una perspectiva multidimensional? Se ha podido ver, A través de los experimentos realizados, que el alineamiento léxico aporta buenos resultados en la tarea de determinar la similitud entre frases. Además, la incorporación de varias métricas como atributos en un sistema de aprendizaje automático, mejora considerablemente estos resultados. Así también, al incorporar un aporte semántico a este alineamiento, a partir de las relaciones de WordNet, mejora significativamente el resultado alcanzado. Pero, al incorporar la semántica proveniente de un análisis multidimensional, aumentan las posibilidades de alcanzar el objetivo previsto. También a quedado demostrado que no pueden desligarse el análisis léxico y el semántico, pues ambos forman el complemento que permite realizar esta tarea. 7. ¿Podrá mejorar la polaridad sentimental la determinación de la Implicación Textual? Analizando los experimentos realizados con los corpus para el Reconocimiento del la Implicación Textual, se ha demostrado que la Polaridad Sentimental ejerce una marcada influencia en este proceso. De esta forma, se puede afirmar que si dos frases se encuentran en una relación de implicación deben compartir una misma polaridad o lo que es lo mismo: si dos frases no poseen la misma polaridad, entonces no debe tener una relación de implicación entre ellas.