Se-term: Sistema de extracción de términos híbrido independiente del dominio
- Marrero García, Yusney
- Paloma Moreda Pozo Directora
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 20 de enero de 2016
- Andrés Montoyo Guijarro Presidente
- Annia García Pereira Secretario/a
- Raisa Socorro Llanes Vocal
Tipo: Tesis
Resumen
En la actualidad existe un gran volumen de textos en formato digital debido a los avances científico técnicos que tienen lugar en disímiles esferas y ramas de la ciencia, lo que provoca un gran interés por parte del personal académico, investigadores, científicos, profesores, estudiantes y comunidades virtuales en general. De hecho, el volumen es tan grande que sobrepasa la capacidad de una persona para obtener información útil, en pos de sus intereses ya sean de un tipo u otro, haciendo cada vez más compleja la labor de recuperación de información. Esta evolución informática ha provocado una revolución en los conceptos tradicionales que se tenían de libros, bibliotecas, investigación y aprendizaje. No es difícil imaginarse que en un futuro toda la información será procesada y adquirida a través de medios electrónicos. La introducción de las computadoras en el ámbito educativo de todos los niveles y el importante auge que ha tenido la educación a distancia, con investigadores, profesores y alumnos distribuidos geográficamente, hace inminente la necesidad de tener acceso a espacios electrónicos de información ordenada, distribuida, común, compartida y que pueda ser recuperada en cualquier momento (Perissé, 2000). Según Perissé, 2000, el campo de las bibliotecas digitales cada vez toma mayor importancia dentro de las áreas de la información, éstas representan una interesante combinación entre aplicaciones, sistemas y longevas teorías tradicionales del manejo de información ordenada y estructurada. Asimismo, representan amplias oportunidades para el campo de la educación al extender y mejorar el acceso a nuevas formas de acercarnos al conocimiento, especialmente en áreas de ciencia y tecnología. Las bibliotecas que han sido automatizadas están siendo transformadas o complementadas implementando bibliotecas digitales, bajo el concepto general de recopilar, almacenar y organizar información de manera digital, para poder realizar búsquedas, recuperaciones y procesamientos vía las redes de cómputo; todo bajo un ambiente sencillo para el usuario y tomando en cuenta factores fundamentales como la presentación y la representación de la información, los mecanismos de almacenamiento y recuperación, la interacción humano-computadora, la plataforma tecnológica y el ancho de banda de la red. (Perissé, 2000). En este contexto las bibliotecas universitarias toman un papel importante. Esta situación, que afecta a toda la Comunidad Universitaria, implica un nuevo paradigma tanto para el docente, como para el bibliotecario y exige la introducción de nuevos modelos de aprendizaje donde la cooperación entre los participantes y la necesidad de aprender a aprender a lo largo de la vida se sitúan en primer plano. Un factor de transformación en el entorno de las bibliotecas universitarias es la progresiva "vitalización" de la propia universidad. El Campus virtual, la e-universidad, la e-administración, el e-aprendizaje (e-learning), son términos que señalan la intensiva utilización de las tecnologías en todos los ámbitos de actividad de la universidad. En este contexto, se están generando un número cada vez mayor de contenidos digitales (audio, video, objetos de aprendizaje, documentos textuales, revistas digitales, teleconferencias) que se crean desde diferentes sistemas, que necesitan diferentes plataformas de visualización y que deberían ser utilizados y reutilizados en diferentes contextos, materiales que el estudiante utilizará en el proceso de autogestión de su aprendizaje. Aún sigue siendo, en muchos casos, un problema latente la necesidad de mecanismos para acceder y recuperar eficientemente estos recursos (López & Zorita, 2008). Las universidades cubanas, dentro de las transformaciones que se vienen llevando a cabo por orientaciones y directrices del Ministerio de Educación Superior en Cuba, una de ellas está dirigida a la informatización de los diferentes procesos y servicios dentro de las universidades. En el caso de la Universidad Agraria de La Habana (UNAH) se encuentra inmersa en el proceso de la informatización de los procesos que se llevan a cabo en diferentes áreas, dentro de los cuales se encuentra la Biblioteca General de la UNAH, así como de los servicios que brinda. Para poder mantener una correcta organización de los diferentes recursos digitales con que cuenta la institución, así como para facilitar su recuperación por parte de los usuarios interesados en una determinada temática, se hace necesario, además del documento digital, contar con una serie de metadatos, es decir, un conjunto de datos que sirvan para describir cada uno de estos recursos. Uno de los metadatos almacenados para cada uno de los documentos son las palabras claves, es decir, las palabras que caracterizarían dicho documento, las cuales serán utilizadas más tardes en el proceso de recuperación. El proceso para obtener estas palabras claves de cada uno de los documentos digitales, actualmente en la biblioteca de la UNAH, se realiza de forma manual. Para tratar de resolver esta problemática es necesario buscar un mecanismo que permita comprender el lenguaje utilizado en cada uno de estos documentos para así extraer automáticamente estas palabras que los caracteriza. Precisamente el área de investigación encargada de darle respuesta a esta problemática es el Procesamiento del Lenguaje Natural. El Procesamiento del Lenguaje Natural (NLP, del inglés Natural Language Processing) es un área de investigación y aplicación de la inteligencia artificial, que explora cómo las computadoras pueden ser utilizadas para entender y manipular textos en lenguaje natural. La investigación del NLP tiene como objetivo, reunir conocimientos sobre cómo los seres humanos entienden y usan el lenguaje, para modelar computacionalmente estos patrones y reducir el umbral entre la comunicación humano–computadora (Chowdhury, G., 2003). Una de las aplicaciones las destacadas dentro del NLP, es la Extracción de Información (IE, del inglés Information Extraction), la cual según (Gaizauskas & Wilks, 1998) es la actividad de extraer automáticamente un tipo de información pre-especificada desde textos. La IE se aplica tradicionalmente en situaciones en las que se conoce de antemano la clase de información que debe ser extraída. A su vez tiene diversas tareas como es el caso de la extracción de terminología. Una de las aplicaciones más importantes dentro de la Extracción de Información es la Extracción de Terminología (TE del inglés Terminology Extraction), la cual, según (Macken et al., 2013), se puede definir como el estudio de los términos abarcando diversas actividades como la recopilación, descripción y estructuración de los términos. Puede ser utilizada en el desarrollo de herramientas lexicográficas, como diccionarios y glosarios, en el análisis diacrónico de la lengua (para encontrar el momento en que un término surge en una disciplina), además de mejorar la clasificación y recuperación automática de documentos, en mecanismos de traducción, indexación de libros, categorización de textos así como para generar ontologías que den soporte a la web semántica, sólo por dar algunos ejemplos. Las palabras clave son el tema o motivo central del contenido de cualquier documento, que en el caso de una biblioteca digital serían las frases o términos de búsqueda con las que un usuario puede recuperar dicho documento, es por ello que se ha considerado utilizar la extracción de terminología para abordar esta tarea a través de un proceso automático. La principal conclusión que se puede obtener a partir de este trabajo es que resulta factible utilizar las técnicas del Procesamiento del Lenguaje Natural, la Extracción de Información y la Extracción de Términos para la obtención de los términos que caracterizan un documento con el objetivo de establecer el vocabulario o terminología de un determinado dominio. Esto se ha podido afirmar a partir de los resultados obtenidos con el sistema de extracción de términos SE-Term, del cual se ha evaluado su impacto en tarea de la obtención de palabras clave a partir de un conjunto de documentos digitales en diferentes dominios o escenarios de trabajo. Por ello, el trabajo que aquí se ha presentado parte de cuatro objetivos fundamentalmente. En primer lugar investigar las diferentes técnicas que brindan el Procesamiento del Lenguaje Natural, la Extracción de Información, así como los diferentes enfoques existentes para la Extracción de Términos. En segundo lugar elaborar un sistema de extracción de términos, SE-Term, que permita extraer, dado un conjunto de documentos digitales de un dominio, los términos que lo caracterizan obteniendo resultados satisfactorios. En tercer lugar, validar que el sistema propuesto pueda ser aplicable a diferentes dominios y finalmente en cuarto lugar validar el proceso de extracción de palabras clave a partir del sistema de extracción de términos obtenido. En cuanto a investigar las diferentes técnicas que brindan el Procesamiento del Lenguaje Natural, la Extracción de Información, así como los diferentes enfoques existentes para la Extracción de Términos, se puede concluir que: • Existen fundamentalmente tres enfoques en los que se basan los sistemas de extracción de términos, lingüístico, estadístico e híbrido, de los cuales se destaca el enfoque híbrido como el que mejores resultados ofrece. • Las propuestas puramente estadísticas utilizan diferentes medidas estadísticas para la extracción de términos, por lo general son independientes del idioma y no requieren especificación de cualquier tipo de conocimiento, sin embrago tienen a producir mucho ruido. • Dentro del estudio de los sistemas existentes, las características estadísticas más utilizadas por los resultados que ofrecen se encuentran, la frecuencia de aparición del término, la Información Mutua, el coeficiente Log likelihood entre otras. • Las propuestas puramente lingüísticas analizadas para la extracción de términos se basan tanto en la categoría sintáctica de los n-gramas así como en patrones morfosintácticos. Los principales problemas de los sistemas basados de este enfoque son la dependencia del lenguaje así como el ruido y el silencio, aunque los resultados ofrecidos generalmente son mejores que los resultados obtenidos por los sistemas estadísticos. • Se han identificado que dentro de los patrones lingüísticos más utilizados se encuentran los sustantivos y los términos formados por sustantivos (por ejemplo, sustantivo + adjetivo, sustantivo + preposición + sustantivo). • Las propuestas híbridas combinan ambos enfoques, estadístico y lingüístico, aprovechando las ventajas que ofrecen cada uno por separado; generalmente los mejores resultados se obtienen cuando las medidas estadísticas son aplicadas a la lista de candidatos previamente extraídos mediante el uso de propiedades lingüísticas. • Dentro de las propuestas híbridas se ha identificado una proliferación del uso de Aprendizaje Automático utilizando un conjunto de características estadísticas, lingüísticas e híbridas, debido a los buenos resultados obtenidos. • Los principales problemas que presentan los sistemas de extracción de términos, independientemente del enfoque utilizado son, el ruido, el silencio, la alta dimensionalidad de los datos, la validación manual de expertos que todavía se requiere y los resultados no satisfactorios a partir de los valores de precisión, cobertura y medida F obtenidos. Respecto a la investigación y desarrollo de la herramienta de extracción de términos SE-Term, la cual siguiendo un enfoque híbrido extrae los términos que caracterizan un documento a partir de la fusión de dos conjuntos de términos, un primer conjunto obtenido utilizando Aprendizaje Automático a partir de un conjunto de características lingüísticas, estadísticas e híbridas, y un segundo conjunto obtenido utilizando estructuras para la identificación de definiciones de términos en documentos a partir de los PVD. A partir de resultados obtenidos de este proceso de investigación y desarrollo del sistema de extracción de términos se puede concluir que: • Se han elaborado, evaluado y discutido cinco aproximaciones para afrontar la tarea de la extracción de términos, las dos primeras siguiendo un enfoque lingüístico, la tercera y cuarta utilizando Aprendizaje Automático y la última siguiendo un enfoque híbrido utilizando Aprendizaje Automático así como un conjunto de estructuras que utilizan los PVD para la identificación de definiciones de términos en un documento, donde se ha evidenciado una mejora paulatina en los resultados de cada una de ellas. • Se ha podido corroborar que los sistemas híbridos son los que obtienen mejores resultados al utilizar las ventajas que poseen tanto las aproximaciones lingüísticas como estadísticas en una sola propuesta. • Ha quedado demostrado, a partir de los resultados obtenidos, la efectividad de realizar proceso de selección de características en las tareas de Aprendizaje Automático así como su influencia en la reducción de la dimensionalidad de los datos. • Se ha evidenciado que el contar con un correcto balanceo entre las clases utilizadas en el proceso de entrenamiento pueden mejorar los resultados en la predicción de las diferentes clases. • El corpus a utilizar influye en los resultados obtenidos. • Se ha obtenido SE-Term, un sistema de extracción de términos capaz de extraer los términos que caracterizan un documento, alcanzando una media en los resultados de 88.40% de Precisión, 93.84% de Cobertura y 89.43% de medida F. En cuando a la validación para comprobar que el sistema propuesto pueda ser aplicable a diferentes dominios se puede destacar: • El sistema ha sido probado en cuatro dominios, Informática, Ingeniería Agrícola, Medicina Veterinaria y Agronomía donde los resultados obtenidos en cada uno de estos dominios no presentan gran diferencia entre ellos, los mejores resultados de precisión y medida F obtenidos fueron de un 90.18% y un 91.06% respectivamente para el dominio de Medicina Veterinaria y el mejor valor de cobertura fue de 94.99% en el dominio de la Informática. • Estos resultados permiten plantear que el sistema puede ser aplicable a cualquier dominio. Respecto a la validación del proceso de extracción de palabras clave a partir del sistema de extracción de términos obtenido se puede concluir que: • La aplicación de SE-Term a un conjunto de documentos de la Biblioteca General de la UNAH en los diferentes dominios evaluados, permitió validar que puede ser utilizado en la tarea de extraer las palabras clave de un documento digital solamente con una breve supervisión del bibliotecario, obteniendo para esta tarea un 100% de cobertura, ya que fue capaz de extraer todas las palabras clave de cada uno de los documentos evaluados.