Desarrollo de software dirigido por modelos para facilitar a usuarios inexpertos la aplicación de técnicas de minería de datos
- Espinosa Oliva, Roberto
- José-Norberto Mazón López Director
- José J. Zubcoff Vallejo Codirector
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 12 de diciembre de 2014
- Belén Vela Presidente/a
- Santiago Meliá Beigbeder Secretario
- Marta Elena Zorrilla Pantaleón Vocal
Tipo: Tesis
Resumen
La sociedad en la que vivimos nos ha convertido en entes inseparables de la tecnología. Usamos a diario multitud de dispositivos como teléfonos móviles inteligentes y ordenadores portátiles, así como infinidad de aplicaciones como redes sociales, buscadores, sistemas de comercio electrónico, etc. Esta interacción con la tecnología hace que, en nuestra vida diaria, produzcamos y consumamos cantidades ingentes de datos (por cierto, no sólo en nuestras tareas profesionales sino también cotidianas). Valga expresar un ejemplo concreto: Un ciudadano desea disminuir el consumo eléctrico en su hogar. Si pudiera utilizar los datos de consumo energético, equipos funcionando, costo de kilovatios por día, humedad relativa, temperatura, en toda una población, o a nivel de país, pudiera llegar a saber que la lavadora secadora genera un costo significativo siempre que se utilice durante el período de carga máxima, por lo que debería encenderla al final de la noche. Desafortunadamente, esta cantidad de datos no se aprovecha para realizar una toma de decisiones informada en nuestra vida diaria (es decir, fundamentadas en conocimiento extraído de los datos disponibles). El problema está precisamente en que la explotación de los datos para conseguir extraer conocimiento de los mismos no es una tarea tan sencilla para cualquier persona, más bien resulta una tarea bastante complicada, ya que requiere tener experiencia en conceptos estadísticos y en algoritmos de minería de datos, lo que está reservado a personas expertas (los llamados científicos de datos o, en inglés, data scientists). Siguiendo con el ejemplo anterior, se podría aplicar técnicas de minería para determinar los equipos con mayor incidencia en el gasto eléctrico. Ello requeriría un análisis de la fuente de datos y los atributos que se estudiarán, que técnica y algoritmo de minería se utilizará, etc. Este hecho que establece la causa de la brecha entre los datos y las acciones a tomar por los usuarios inexpertos, es lo que se conoce como Big Data Divide. En el marco de esta tesis doctoral, se plantea desarrollar una propuesta para lograr facilitar el uso de técnicas de minería de datos (o análisis de datos), específicamente técnicas de clasificación, a usuarios inexpertos. El objetivo es posibilitar a estos usuarios la explotación de los datos que tengan disponibles, para que puedan extraer conocimiento de ellos de forma fácil y rápida, sin la presencia de un experto. Esta propuesta usa técnicas de desarrollo de software dirigido por modelos con el fin de homogeneizar y automatizar el proceso de aplicación de técnicas de minería de datos por parte de usuarios inexpertos. Las contribuciones de nuestra propuesta se detallan a continuación: Se ha diseñado una base de conocimiento que permite almacenar toda la información que se genera en el proceso de extracción de conocimiento por usuarios expertos. El modelo de minería que se obtiene como respuesta al usuario inexperto es obtenido teniendo en cuenta la calidad de sus datos. La aplicación del recomendador construido permite obtener el mejor algoritmo a aplicar sobre las fuentes de datos de entrada del usuario inexperto. Como elemento importante se ha tenido en cuenta los requerimientos de los usuarios inexpertos para brindarle la solución que mejor satisfaga sus expectativas. Un conjunto de experimentos han sido realizados para validar la viabilidad de nuestra propuesta. En definitiva, en un mundo Big Data, es necesario contar con mecanismos que permitan a todas las personas (independientemente de su experiencia estadística), sacar provecho de la cantidad de datos disponibles. Nuestra propuesta pretende ser uno de estos mecanismos, orientada a la democratización en el uso de la minería de datos, facilitando la obtención de conocimiento y, por ende, una toma de decisiones más informada a todas las personas por igual, independientemente de su nivel de experiencia.