Método para generación y ordenación de reglas de clasificación. Diseño y estudio computacional. Aplicación a la inteligencia de negocio
- Rodríguez Sala, Jesús Javier
- Alejandro Rabasa Dolado Director
- José María Gómez Gras Co-director
Defence university: Universidad Miguel Hernández de Elche
Fecha de defensa: 20 November 2014
- Carlos A. Brebbia Chair
- José J. López Espín Secretary
- Patricia Compañ Rosique Committee member
- Joaquín Sánchez Soriano Committee member
- Rafael Molina Carmona Committee member
Type: Thesis
Abstract
Las reglas de clasificación son un método clásico para construcción modelos que reproducen el comportamiento de cierto tipo de sistemas a partir de conjuntos de datos procedentes de dichos entornos. Estos modelos, con frecuencia, están formados por un número muy elevado de reglas, lo que los hace difíciles de gestionar por parte de analistas que pretendan comprenderlos y poder tomar decisiones sobre los sistemas modelados. En el campo de la Minería de Datos son bien conocidos los métodos de generación de reglas de clasificación (ID3, C4.5, CART, etc...) así como los mecanismos para reducción de dichos conjuntos de reglas (pre-poda o post-poda) para generar modelos más manejables. Todos estos métodos han funcionado correctamente para resolver muy diversos tipos de problemas, pero en el ámbito de la toma de decisiones estratégicas en los negocios, la tendencia actual es poder disponer de información útil con la mayor rapidez para que el proceso de tomas de decisiones sea también lo más ágil posible. Además, con la cada vez mayor implantación de nuevas fuentes de información como son los portales de comercio electrónico, o las redes sociales, el caudal de datos a considerar es cada vez mayor. Esta nueva problemática hace necesaria la búsqueda de nuevos métodos que, sin pérdida de eficacia en los análisis resultantes, mejoren la eficacia de los mismos. En otras palabras, se requiere de nuevos mecanismos capaces de proporcionar modelos de calidad y además, que lo hagan en menos tiempo. En el presente trabajo se presenta un nuevo método para la extracción de reglas de clasificación, al que se ha denominado CREA (`Classification Rules Extraction Algorithm¿). Este método integra en un único procedimiento la tarea de generación de reglas de clasificación siguiendo el criterio de ganancia de información de ID3 (Quinlan 1979), junto con el método RBS (Rabasa 2009) de reducción de sistemas de reglas por regiones de significancia (post-poda). El método desarrollado no es una mera conexión en serie de los procesos ID3 y RBS, sino que para su implementación se han diseñado ciertas estructuras de datos y algoritmos con objeto de conseguir mejorar la eficiencia con respecto a otras implementaciones de métodos análogos. El trabajo realizado incluye un estudio exhaustivo de la complejidad computacional del método CREA, tanto a nivel teórico como a nivel empírico, este segundo, basado en la ejecución del método con 450 conjuntos de datos simulados que han permitido estudiar la evolución del tiempo de ejecución del método bajo diferentes condiciones de carga. Se ha comprobado como el número de ejemplos de un conjunto de datos (`N¿), el número de atributos o columnas de los mismos (`C¿) y el número de diferentes valores que estos atributos pueden tomar (`V¿) afectan de diferente manera en los tiempos de procesamiento observados, siendo estas observaciones compatibles con el estudio teórico realizado. Para comprobar, no sólo la eficiencia del método, sino también su eficacia, se ha probado con un conjunto de datos empresariales proporcionados por la empresa MTNG Global Experience S.L. (MUSTANG) para generar modelos de reglas cuya validez ha sido corroborada por expertos de la propia empresa. Por último, cabe señalar que la presente investigación ha sido financiada en parte por el proyecto precompetitivo Bancaja-UMH 2011, lo cual ha permitido difundir los resultados del mismo en diversos congresos nacionales e internacionales: XXXIV Congreso Nacional de Estadística e Investigación Operativa (SEIO septiembre 2013), y DATA 2013 (Wessex Intitute of Technology, WIT).