Feature selection based on information theory

  1. Bonev, Boyán I.
Dirigida por:
  1. Francisco Escolano Ruiz Director
  2. Miguel Cazorla Quevedo Director

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 29 de junio de 2010

Tribunal:
  1. José Oncina Carratalá Presidente
  2. Domingo Gallardo López Secretario
  3. Petia Radeva Vocal
  4. Antonio Peñalver Benavent Vocal
  5. Antonio Bandera Vocal
Departamento:
  1. CIENCIA DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL

Tipo: Tesis

Teseo: 293560 DIALNET

Resumen

Con el aumento de la capacidad computacional de los ordenadores y de los métodos de adquisición de datos, la dimensionalidad de los datos es cada vez más alta, El campo de reconocimiento de patrones se enfrenta a problemas con muestras compuestas por miles de características y la reducción de su dimensionalidad es un preproceso crucial para hacerlas tratables. En la presente tesis proponemos un método de selección de características para clasificación supervisada. La principal aportación es el uso eficiente de la teoría de la información, que provee un marco teórico sólido para medir la relación entre las clases y las características. Se considera que la información mutua es la mejor medida para tal fin. Tradicionalmente ésta se ha utilizado para evaluar características de una en una, sin tener en cuenta sus interacciones dentro del conjunto. Esto es debido a la complejidad computacional implicada en su cálculo. Dado que muchos conjuntos de datos contienen características que no son independientes entre si, la suma de sus predicciones individuales no es igual a su predicción en conjunto. Una forma de estimar la información mutua es estimando la entropía. Los métodos basados en estimación de densidades sólo pueden ser usados para conjuntos de datos con un número de muestras muy alto, y pocas características (dimensiones). Por esta razón analizamos el uso de métodos de estimación de entropía que no necesitan estimar densidades. Estos métodos permiten evaluar de manera eficiente conjuntos de datos definidos por miles de características. Para los conjuntos de datos de alta dimensionalidad, otro de los problemas existentes es el orden en el espacio de búsqueda. Los algoritmos voraces son los más rápidos y que cometen menos sobreaprendizaje. Demostramos que, en términos de teoría de la información, un algoritmo voraz de eliminación de características hacia atrás, conserva la cantidad de información mutua, aunque el conjunto resultante no sea el mínimo. Validamos nuestro método en tres aplicaciones reales de diferentes campos. Lo aplicamos a la clasificación de imágenes omnidireccionales, a la selección de genes en problemas de clasificación para la predicción de enfermedades de cáncer, y por último a clasificación estructural basada en grafos. Las tres aplicaciones demuestran importantes mejoras de la clasificación en sus respectivos campos.