Detección de información engañosa mediante Tecnologías del Lenguaje Humano e Inteligencia Artiﬁcial

Sepúlveda Torres, Robiert

Detección de información engañosa mediante Tecnologías del Lenguaje Humano e Inteligencia Artiﬁcial

Sepúlveda Torres, Robiert

Dirigida por:

Estela Saquete Boró Directora

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 18 de marzo de 2022

Tribunal:

José Antonio Troyano Jiménez Presidente/a
Miguel Ángel García Cumbreras Vocal
Sonia Vázquez Pérez Vocal

Departamento:

LENGUAJES Y SISTEMAS INFORMATICOS

Tipo: Tesis

Teseo: 712053 DIALNET RUA editor

Resumen

En los últimos años, el consumo de noticias en medios impresos ha sido sustituido en gran medida por el acceso a estas en variados formatos a través de medios digitales y redes sociales. Los bajos costes de acceso a la información y la profusión de las plataformas de comunicación y dispositivos móviles han producido un cambio en los hábitos de consumo de información, la que es recibida desde múltiples fuentes y replicada con inmediatez en un ambiente global. En este contexto, se ha incrementado la desinformación, un problema originado en los albores de la prensa tradicional. En la última década, la desinformación ha alcanzado una escala inmanejable debido al gran volumen de información al que un ciudadano común está expuesto cada día. A esto se suma que la mayoría de estos medios digitales no son arbitrados, y permiten publicar y compartir cualquier tipo de información. En este ambiente es muy probable la proliferación de información engañosa que, en la mayoría de los casos, pretende influir en la opinión pública para perseguir un objetivo económico, social o político subyacente. Esto puede perjudicar a las organizaciones, a las marcas y a las personas, entre otros, derivando en muchas ocasiones en conclusiones precipitadas por parte de los usuarios que la consumen. En este contexto surge el término de la posverdad como una tendencia a priorizar la subjetividad de una interpretación a la verificación de hechos reales. El titular de una noticia está diseñado para resumir sucintamente su contenido, proporcionando al lector una comprensión clara de la misma. Desafortunadamente, en la era de la posverdad, los titulares están más enfocados en atraer la atención del lector que en presentar con precisión el contenido de la noticia. Esto abre una enorme oportunidad para difundir desinformación con la construcción de titulares falsos o distorsionados. Las técnicas tradicionales de verificación de hechos realizadas por humanos son definitivamente impracticables y obsoletas ante la cantidad de textos informativos que se generan incluso cada hora. En este trabajo se abordan soluciones novedosas utilizando Tecnologías de Lenguaje Humano (TLH) y técnicas de Inteligencia Artificial (IA). Esta investigación se ha desarrollado en un área donde se intersecan confusamente diferentes conceptos, herramientas y aproximaciones. Se parte de una ubicación en el estado del arte acerca de las principales soluciones relacionadas con la detección de titulares engañosos, detección de posturas, detección de contradicciones, interrelación entre estos elementos y verificación automática de hechos. A partir del problema enunciado y sus conceptos, se profundiza en diferentes estrategias de solución con la aspiración de proponer una aproximación que permita, con un enfoque suficientemente práctico, aportar a la detección de información engañosa en medios digitales lo que puede convertirse en una herramienta de alerta en el complejo ambiente antes descrito. Entre los elementos considerados, se valora la utilización de ML y de DL como técnicas tradicionales de trabajo en el espacio de estas soluciones, así como sus alcances y limitaciones. Además, se introduce la idea de sustituir el contenido de una noticia por un resumen suficientemente esencial y obtenido de manera automática. La memoria presenta de manera lógica el curso de la investigación que parte de lo conceptual y utiliza el pensamiento deductivo y experimental para alcanzar generalizaciones y aplicarlas deductivamente a la solución de problemas específicos. Con ello, se abordan determinadas tareas que pueden contribuir parcialmente a la solución de parte del problema planteado, se diseñan experimentos y se especifica la solución en el ámbito del idioma español donde no se reportan aportaciones similares. Se propone una arquitectura flexible para la detección de titulares engañosos que ha permitido implementar sobre ella dos prototipos cuyos resultados experimentales y documentados suponen un paso de avance hacia la automatización de esta tarea. Esta arquitectura alcanza resultados notables al ser aplicada sobre dos conjuntos de datos en idioma inglés y español. Siguiendo los principios y las experiencias adquiridas se presenta una aplicación de una arquitectura similar para la detección de noticias falsas, lo que hace presumir su posible generalidad.