Detección de regularidades en contornos 2D, cálculo aproximado de medianas y su aplicación en tareas de clasificación.
- Juan Ramón Rico Juan Director
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 12 de septiembre de 2012
- José Oncina Carratalá Presidente
- José Luis Verdú Más Secretario
- Francesc Serratosa Casanelles Vocal
- Carlos David Martínez Hinarejos Vocal
- Francesc Josep Ferri Rabasa Vocal
Tipo: Tesis
Resumen
El trabajo se enfoca en dos problemas principales: la identificación de similitudes y la obtención del promedio para contornos representados mediante cadenas de Freeman. Estos problemas son abordados empleando información obtenida en el cálculo de la distancia de Levenshtein entre las cadenas que codifican los contornos. En la tesis se presenta un nuevo método para cuantificar la regularidad entre los contornos y establecer una comparación en términos de un criterio de similitud. El criterio empleado permite encontrar subsecuencias de la cadena de operaciones de edición con coste mínimo que especifican un alineamiento entre pares de segmentos, uno en cada contorno, que se consideran semejantes de acuerdo a dos parámetros definidos externamente. La información sobre las partes similares en cada contorno queda codificada por una cadena que representa el "promedio" de los segmentos. A partir de la identificación de las similitudes, se define un procedimiento para construir un prototipo que representa a los contornos. Para evaluar que tan representativa es esta instancia se sustituyen grupos de contornos por su prototipo en el conjunto de entrenamiento de un clasificador K-NN. De este modo se logra reducir la talla del conjunto de entrenamiento sin afectar sensiblemente su poder de representación. Resultados experimentales muestran que este procedimiento es capaz de alcanzar reducciones del conjunto de entrenamiento cercanas al 80% mientras el error en la clasificación solo aumenta en un 0.45% en una de las bases de datos estudiadas. Por otra parte, se propone un nuevo algoritmo para el cálculo rápido de una aproximación a la media entre dos cadenas representando un contorno 2D, así como una implementación voraz que permite reducir significativamente el tiempo necesario para construir la aproximación al contorno medio. Éste se combina junto a un nuevo método de edición que suaviza las restricciones impuestas por el algoritmo de Wilson para desechar una instancia. En la práctica, no todas las instancias mal clasificadas por sus vecinos son eliminadas. En su lugar, una instancia artificial es añadida al conjunto esperando que de este modo la instancia se clasifique correctamente en el futuro. La instancia artificial es la media entre la instancia mal clasificada y su vecino más próximo de igual clase. Los experimentos desarrollados empleando tres conocidos conjuntos de contornos denotan que los algoritmos propuestos mejoran los resultados de otros métodos descritos en la literatura para el cálculo del promedio de dos contornos. El bajo coste computacional de la implementación voraz la hace muy adecuada para cadenas de Freeman de gran longitud. Resultados empíricos demuestran además que mediante el procedimiento de edición descrito es posible reducir el error en la clasificación en 83% de los casos, independientemente del algoritmo empleado para obtener el contorno promedio. Finalmente, se describe un algoritmo para construir una aproximación a la media de un conjunto de cadenas, la que se obtiene a través de sucesivas mejoras a una solución parcial. En cada iteración se calcula la distancia de la solución parcial a cada cadena del conjunto llevando cuenta de la frecuencia de las operaciones de edición en cada posición de la media aproximada. Esta información permite calcular un índice de calidad al multiplicar la frecuencia por el coste de la operación. Cada operación es evaluada, comenzando por aquella con mejor calidad, para valorar si su aplicación conduce a una mejora. En caso afirmativo, se comienza una nueva iteración a partir de la nueva solución. El algoritmo concluye después de examinar todas las operaciones sin que se logre una mejora. Los experimentos comparativos utilizando cadenas de Freeman muestran que se puede obtener aproximaciones equivalente a otros enfoques pero en menor tiempo.