Arquitectura para analíticas de datos orientada a la ayuda del proceso de la toma de decisiones
- Kauffmann Incer, Erick
- Jesús Peral Cortés Director
- David Gil Méndez Director
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 16 de enero de 2020
- Manuel A. Serrano Martín Presidente/a
- Estela Saquete Boró Secretaria
- Ismael Caballero Muñoz-Reja Vocal
Tipo: Tesis
Resumen
Introducción: Internet ha ayudado a revolucionar muchas actividades cotidianas, y en ellas se generan grandes cantidades de datos, muchos de ellos expresados por los usuarios en lenguaje natural. Son datos no estructurados que no son fáciles de procesar ni de organizar. Obtener información relevante de esos datos puede ayudar a conocer un entorno, organizarlo y/o tomar decisiones respecto al conocimiento que se adquiere con ellos. Para esto, en esta tesis doctoral se propone una arquitectura para analíticas de datos a través de las herramientas de procesamiento de lenguaje natural para transformar esos datos en información cuantitativa que permitirá tomar decisiones y/o organizar mejor la información. Motivación: La arquitectura se ha probado en dos áreas en los que se genera un gran volumen de datos textuales en actividades diarias que se realizan actualmente por Internet: Comercio electrónico y Foros de discusión de cursos masivos abiertos en línea. En las redes sociales de comercio electrónico, diariamente los compradores generan una gran cantidad de revisiones y calificaciones acerca de los productos en venta. Estas evaluaciones contienen información importante que puede ser utilizada para mejorar la toma de decisiones de directivos y compradores. El reto principal es automáticamente extraer información fiable de las opiniones textuales de los consumidores y utilizarla para calificar los mejores productos o marcas. Se utilizan herramientas de Análisis de Sentimientos y detección de Revisiones Falsas (Fake Reviews) para ayudar tanto a usuarios como a empresarios en la toma de decisiones respecto a los productos afectados por esas opiniones. Para ello, se propone transformar las opiniones de los usuarios en una nueva variable cuantitativa empleando Análisis de Sentimiento, así como detectar y eliminar las Revisiones Falsas. La propuesta se ha evaluado sobre productos de electrónica para clasificar la imagen de la marca de acuerdo al sentimiento expresado por el consumidor y mostrar el comportamiento en cuadros de mandos. Otra actividad que ha hecho uso del Internet es el aprendizaje en línea como una respuesta a las nuevas necesidades educativas. Sin embargo, presenta muchos retos, tales como el procesamiento de la gran cantidad de datos que se genera en los foros en línea. Darle seguimiento y buscar información en ese volumen de datos puede ser contraproducente, dado que son datos no estructurados y de una gran variedad de temas. La arquitectura propuesta en esta tesis propone resolver los principales retos encontrados en el estado del arte administrando los datos de forma eficiente mediante un monitoreo y seguimiento eficiente de los foros, el diseño de mecanismos efectivos de búsqueda para preguntas y respuestas en los foros, y extrayendo indicadores claves de rendimiento para administrar adecuadamente los foros. Desarrollo Teórico: Se ha definido una arquitectura modular que permita obtener datos generados por usuarios en distintos dominios, procesarlos con técnicas de lenguaje natural y calificar o clasificarlos para mostrarlos en cuadros de mando que permitan tomar mejores decisiones acerca de los objetos en estudio. Se aplicó la arquitectura en un caso de estudio que utiliza la información generada por los distintos usuarios de un curso en línea (profesores, estudiantes y administradores) para permitir una gestión más eficiente de los foros en línea (seguimiento del foro, búsqueda de información y extracción de indicadores claves de rendimiento). Se utilizó la arquitectura en un caso de estudio que analiza la información generada por usuarios consumidores de una tienda en línea (revisiones de productos que incluyen puntuaciones y comentarios) para obtener calificaciones cuantitativas de productos basadas en el análisis de sentimientos de las revisiones del usuario. Esta información permitirá realizar cuadros de mandos para evaluar los productos según las preguntas frecuentes en la toma de decisiones de vendedores y consumidores de productos. Se implementaron filtros para la detección de revisiones o comentarios falsos. Evaluar la implicación de eliminar la información falsa en los cuadros de mando obtenidos, así como en el proceso de la toma de decisiones. Se evaluó la correlación entre las puntuaciones explícitas del usuario y el resultado del análisis de sentimientos y analizar la importancia de agregar la puntuación sentimental en la toma de decisiones. Se implementó la selección automática de características y obtener calificaciones cuantitativas de cada característica basado en los comentarios de los usuarios y analizar el impacto de incorporar el análisis cuantitativo de las características adicional al análisis cuantitativo general. Se plantearon cuadros de mando que permitan visualizar la evaluación de productos basados en la información cuantitativa obtenida de la puntuación sentimental y de las características del producto Se generaron 3 publicaciones y la participación en un congreso A framework for big data analytics in commercial social networks: A case study on sentiment analysis and fake review detection for marketing decision-making Erick Kauffmann, Jesús Peral, David Gil, Antonio Ferrández, Ricardo Sellers, Higinio Mora Industrial Marketing Management. In Press, Corrected Proof https://doi:10.1016/j.indmarman.2019.08.003 Managing Marketing Decision-Making with Sentiment Analysis: An Evaluation of the Main Product Features Using Text Data Mining Erick Kauffmann, Jesús Peral, David Gil, Antonio Ferrández, Ricardo Sellers, Higinio Mora Sustainability, 11(15), 4235. https://doi:10.3390/su11154235 A Review of the Analytics Techniques for an Efficient Management of Online Forums: An Architecture Proposal Jesús Peral Cortés, Antonio Ferrández, Higinio Mora Mora, David Gil, Erick Kauffmann IEEE Access 7: 12220-12240. https://doi:10.1109/ACCESS.2019.2892987 Kauffmann E., Gil D., Peral J., Ferrández A., Sellers R. (2019) A Step Further in Sentiment Analysis Application in Marketing Decision-Making. In: Visvizi A., Lytras M. (eds) Research & Innovation Forum 2019. RIIFORUM 2019. Springer Proceedings in Complexity. Springer, Cham. DOI https://doi.org/10.1007/978-3-030-30809-4_20 Conclusiones: Las big data textuales que se generan en las actividades cotidianas con el Internet contienen información valiosa para comprender mejor las necesidades de los usuarios y consumidores que ayudarán a tomadores de decisiones. El framework fue puesto en práctica con un corpus de revisiones de productos de tecnología extraídos de Amazon para valorar la imagen de las marcas según las revisiones hechas por los consumidores. La arquitectura propuesta proporciona información adicional y comparativa extraída de las revisiones del consumidor y las procesa usando tecnología de PLN para obtener valores de sentimiento, una nueva variable para conocer más acerca del comportamiento del consumidor y que es importante considerar para lograr una mejor evaluación de los productos. Las revisiones textuales contienen información adicional que no es evidente en la puntuación estrella dada por el usuario que se puede apreciar con un análisis de correlación entre ambas variables (puntuación estrella y puntuación de sentimientos). Considerar filtros para excluir comentarios u opiniones no relevantes o mal intencionadas permite mejorar la confiabilidad de las calificaciones de los productos y reorganizar mejor la información. Incrementar la granularidad del análisis de sentimientos a nivel de oraciones y extraer características o tópicos dentro de la participación de opinión de los usuarios permite tener más información para tomar decisiones aumentando los indicadores asociados a los elementos evaluados. Ordenar y filtrar los datos basado en el uso de tecnología de PLN ayuda a que el usuario que está buscando información haga uso de los comentarios y opiniones de otros usuarios para entender algún tema o producto y pueda tomar mejores decisiones. La arquitectura también fue puesta en práctica con los datos obtenidos de los estudiantes matriculados en un curso en línea (foros en línea). Los inconvenientes encontrados en la literatura para llevar a cabo una gestión eficiente de los foros (administración y monitoreo eficiente, mecanismos de búsqueda efectivos sobre preguntas-respuestas, y extracción de KPIs) se pueden solventar usando técnicas de PLN y de agrupamiento, aplicando técnicas de búsqueda de respuestas para la búsqueda de información y técnicas de minería de datos para la extracción de KPIs relevantes.