Avances en la representación y modelado computacionales de la estructura del espacio
- Rafael Molina Carmona Directeur
Université de défendre: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 19 décembre 2012
- Miguel Angel Salido Gregorio President
- Faraón Llorens Largo Secrétaire
- Alejandro Rabasa Dolado Rapporteur
Type: Thèses
Résumé
El origen y motivación inicial de este trabajo se encuentra en las nuevas posibilidades que nos ofrecen los dispositivos tecnológicos actuales para ayudarnos en nuestra vida, proporcionando una asistencia eficaz y con bajo coste. Esto es especialmente interesante en determinados contextos, como cuando la ayuda humana no es posible por las condiciones del entorno, cuando existen problemas de discapacidad en los que una ayuda de este tipo puede suponer la mejora de la calidad de vida y de la independencia de la persona o cuando un asistente automático supone una disminución importante de los costes económicos. Muchos de estos sistemas de asistencia necesitan conocer la estructura del espacio en el que se desenvuelven. Por ejemplo, en sistemas automáticos de navegación, en sistemas de ayuda a la movilidad de personas con discapacidad visual, o en aplicaciones de realidad aumentada, es imprescindible tener un modelo del mundo real y de la estructura del espacio que los rodea. Una de las líneas más activas de investigación en el ámbito de la Inteligencia Artificial es el uso de dispositivos de percepción visual (diferentes cámaras y dispositivos de captación de imágenes) para esta labor. En este contexto se presenta este trabajo, cuyo eje principal parte de la siguiente hipótesis: es posible utilizar dispositivos de percepción visual como sensores principales para identificar la estructura tridimensional del espacio real, y así poder reconstruirlo, y clasificar y etiquetar los objetos que en él aparecen. A partir de esta hipótesis se plantea la construcción de un sistema en el que confluyen los resultados de investigación de varios campos, principalmente el estudio de los modelos de representación del espacio, junto con todas las técnicas y procedimientos que dan soporte a esta disciplina, entre ellos, y de forma destacada, la visión artificial. Las técnicas de visión artificial, también conocida como visión computacional, tratan de emular el sistema de visión humano y sus capacidades mediante un ordenador, de forma que mediante la interpretación de las imágenes adquiridas, por ejemplo mediante una cámara, se puedan reconocer los diversos objetos en el ambiente y su posición en el espacio. La facilidad con la que el ser humano realiza este proceso, llevó a pensar a los primeros investigadores en este campo (hacia 1960) que hacer que un ordenador interpretase imágenes sería relativamente sencillo. Pero no resultó así, muchos años de investigación han demostrado que es un problema esencialmente complejo y que aún en la actualidad sigue sin estar resuelto. La visión es un actividad que llevamos a cabo de forma inconsciente y automática, sin embargo se estima que empleamos entre el 70% y el 75% del procesamiento del cerebro en el análisis de la información visual. La automaticidad de esta acción dificulta su análisis de forma científica con la intención de averiguar los procesos que intervienen en ella e intentar imitarlos en un ordenador. Uno de los principales obstáculos con el que se encuentra la visión artificial es que la percepción del entorno se realiza a partir de proyecciones en imágenes de dos dimensiones. La reducción de una dimensión produce la pérdida de gran cantidad de información, lo que eleva notablemente la dificultad del proceso de visión. Para intentar solventar este tipo de problemas aparecen técnicas como la visión estéreo. Estos sistemas tratan de imitar la capacidad visual que tiene el ser humano, y otros seres vivos, de extraer información del entorno que les rodea y estimar la distancia hasta los objetos a partir de imágenes binoculares. Las cámaras de visión estéreo se componen de dos sensores de características similares montadas a una pequeña distancia horizontal. De esta forma no es necesario realizar el reconocimiento de características ni la interpretación de lo que se está captando en ese momento; sino que se obtiene la información tridimensional a partir de las diferencias existentes entre las imágenes obtenidas. El análisis de las imágenes adquiridas simultáneamente por los dos sensores debe permitir establecer una correspondencia entre los puntos de ambas imágenes y realizar el cálculo de la profundidad. El proceso de correspondencia se realiza a partir de algoritmos que tratan de localizar las proyecciones de un punto de la escena en las dos imágenes capturadas. La principal limitación en este cálculo es que un único píxel de una imagen no proporciona información suficiente para identificar el punto correspondiente en la otra. Las soluciones que aplican estos algoritmos son analizar los píxeles de su vecindad por medio de técnicas de correlación, detección y emparejamiento de bordes así como de segmentación de regiones, entre otras. El primer bloque de las aportaciones presentadas se centra en el área de la visión estéreo. En concreto, con el objetivo de mejorar las imágenes necesarias para la reconstrucción y modelado del espacio, se ha trabajado en un sistema de visión estereoscópica basado en segmentación. La principal aportación presentada es la correspondencia basada en regiones, para las que se define un vector de características que utiliza la posición, el tamaño, el color y la forma de las regiones en la función de emparejamiento. Posteriormente realiza un proceso de extracción de capas para obtener objetos más consistentes. Se complementa con el desarrollo de un factor de corrección empírico que permite reducir las aberraciones producidas por la lente de la cámara. Este sistema permite detectar los objetos de la escena y estimar su profundidad, por lo que los resultados obtenidos sirven como base para el resto de trabajos presentados. Todo esto da lugar a un sistema más robusto y preciso en los resultados, con unos tiempos de cómputo muy razonables. Dentro de las técnicas de visión artificial, también se presentan un par de métodos para la detección de los objetos que aparecen en la imagen: Una primera solución basada en el color y la forma de los segmentos extraídos durante el proceso de correspondencia; y una segunda propuesta para la detección robusta y precisa de la orientación y la localización de objetos en imágenes de bajo contraste. La principal aportación es la introducción de un proceso de segmentación con auto-umbral, el uso de un nuevo tipo de histograma de forma y de un método de regresión robusta que permiten obtener una mayor precisión y robustez en los resultados. Los resultados obtenidos muestran un coste temporal muy bajo, lo que permite su uso en entornos muy exigentes, como el propuesto en la reconstrucción del espacio, o en entornos industriales. El bloque central de las aportaciones de esta tesis son los avances en la definición de un modelo computacional adecuado para la representación del espacio. En estos trabajos se presenta un modelo de enumeración espacial que posibilita la reconstrucción de una escena a partir de imágenes, en este caso, estereoscópicas. Este trabajo se enfrenta a un primer reto: la necesidad de rectificar las imágenes para corregir la perspectiva cónica producida por la cámara. El efecto de perspectiva se produce al realizar la proyección de puntos tridimensionales del espacio (la escena real) en puntos bidimensionales de un plano (la imagen adquirida por la cámara). Este efecto produce que el tamaño de representación de un objeto varíe según su profundidad, y por lo tanto, impide el uso de esta información de forma directa en la reconstrucción. Se presentan varias soluciones para resolver este problema y como resultado se consigue una rectificación de la imagen que permite una reconstrucción muy cercana a la realidad. A partir de la rectificación, se realiza el proceso de reconstrucción mediante etiquetado del espacio (enumeración espacial), además se aplica un filtro cúbico que mejora el resultado utilizando información redundante. A partir de los resultados obtenidos en la reconstrucción, se propone su aplicación al problema del mapeado del espacio utilizando un robot durante el proceso de adquisición de la secuencia de imágenes. Una vez obtenida la estructura de una escena, se hace necesario dotar al modelo de representación de mayor potencia, estableciendo un modelo que recoja las relaciones entre los objetos del espacio y que permita, además, una representación más compacta. En este sentido, se propone un lenguaje de modelado basado en gramáticas que tiene diversas ventajas: permite la representación del espacio en forma de cadena perteneciente a un lenguaje y facilita la expresión de relaciones entre los componentes de la cadena. Además, el modelo así definido, también posibilita la obtención de escenas sintéticas (incluyendo un sistema gráfico) y la evolución de las cadenas para dotar a la escena de dinamismo y comportamiento inteligente. Por otro lado, se da un paso más y se emparenta al modelo con los sistemas multi-agente (SMA), al detectar los puntos en común y constatar las ventajas de utilizar un modelo formal bien definido como el de los SMA. El sistema propuesto se valida con varios ejemplos de utilización, entre los que destaca la construcción de un sistema de navegación para un robot móvil. En el último bloque se da un primer paso hacia la conexión entre el lenguaje de modelado propuesto y la reconstrucción de escenas mediante visión estéreo. Es decir, a partir de la representación gráfica de una escena (el modelo de datos basado en enumeración) se pretende obtener las posibles cadenas del lenguaje de modelado que lo describan. Para realizar este proceso en primer lugar necesitamos una estructura de representación de los objetos del espacio a partir del cual podamos inferir las cadenas. Una de las estructuras de datos que más potencia de representación proporcionan son los grafos. Prueba de esto son la amplia variedad de campos en las que se utilizan, como por ejemplo la biología, sociología, numerosos algoritmos matemáticos e informáticos como el problema del viajante, o especialmente las tareas de reconocimiento de patrones. En esta última parte se aborda la tarea del aprendizaje de grafos mediante un lenguaje k-testable. Estos lenguajes son ampliamente conocidos y utilizados en cadenas y árboles, pero todavía no se había dado el paso a su utilización en grafos. En este trabajo se extiende la definición de k-testabilidad a grafos acíclicos dirigidos, y se propone un algoritmo gramatical de inferencia con complejidad polinómica para el aprendizaje de esta clase de grafos. Estos avances nos permiten identificar la pertenencia de grafos a un lenguaje k-testable o la posterior generación o inferencia de grafos que pertenezcan al lenguaje. Para el proceso de experimentación de los lenguajes k-testables se proponen tres nuevos algoritmos que permiten extraer y representar la estructura de una imagen a partir de grafos acíclicos dirigidos. El primer método propuesto crea caminos de vecindad dentro de la representación q-tree de una imagen, proporcionando nuevos datos y nuevas posibilidades de operación y aplicación. El segundo algoritmo trata la imagen como una rejilla estructural, de forma que tras un postproceso se obtiene un grafo acíclico dirigido. El último método utiliza un esqueleto para construir el grafo. La principal aportación de este trabajo es la extensión del uso de grafos en otras aplicaciones, especialmente en las tareas de reconocimiento de patrones. Resumiendo, aunque los trabajos presentados se corresponden a ámbitos distintos de investigación, existe un hilo conductor entre todos ellos, con un fin último, que es el avance en la representación y modelado computacionales de la estructura del espacio real.