Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto

  1. Pérez Ortiz, Juan Antonio
Zuzendaria:
  1. Mikel L. Forcada Zubizarreta Zuzendaria
  2. Jorge Calera Rubio Zuzendaria

Defentsa unibertsitatea: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 2002(e)ko iraila-(a)k 06

Epaimahaia:
  1. Rafael C. Carrasco Jiménez Presidentea
  2. José M. Iñesta Quereda Idazkaria
  3. René Alquézar Mancho Kidea
  4. María José Castro Bleda Kidea
  5. Colin de la Higuera Kidea
Saila:
  1. LENGUAJES Y SISTEMAS INFORMATICOS

Mota: Tesia

Teseo: 86438 DIALNET lock_openRUA editor

Laburpena

Este trabajo estudia la aplicación de distintos modelos de redes neuronales recurrentes de tiempo discreto a diversas tareas de carácter predictivo, Las redes neuronales recurrentes son redes neuronales que presentan uno o más ciclos en el grafo definido por las interconexiones de sus unidades de procesamiento. La existencia de estos ciclos les permite trabajar de forma innata con secuencias temporales. Las redes recurrentes son sistemas dinámicos no lineales capaces de descubrir regularidades temporales en las secuencias procesadas y pueden aplicarse, por lo tanto, a multitud de tareas de procesamiento de este tipo de secuencias. Esta tesis se centra en la aplicación de las redes neuronales recurrentes a la predicción del siguiente elemento de secuencias de naturaleza simbólica o numérica. No obstante, la predicción en sí no es el objetivo último: en esta tesis la capacidad predictiva de las redes recurrentes se aplica a la comprensión de señales de voz o de secuencias de texto, a la inferencia de lenguajes regulares o sensibles al contexto, y a la desambiguación de las palabras homógrafas de una oración. Los modelos concretos de redes utilizados son, principalmente, la red recurrente simple, la red parcialmente recurrente y el modelo neuronal de memoria a corto y largo plazo; este último permite superar el llamado problema del gradiente evanescente que aparece cuando los intervalos de tiempo mínimos entre eventos interdependientes son relativamente largos. Para determinar valores correctos de los parámetros libres de las redes se usan dos algoritmos, el clásico algoritmo del descenso por el gradiente y una forma del filtro de Kalman extendido.