Traducción automática de textos entre lenguas similares utilizando métodos estadísticos

  1. TOMÁS GIRONÉS, JESÚS
Dirigida por:
  1. Francisco Casacuberta Nolla Director/a

Universidad de defensa: Universitat Politècnica de València

Fecha de defensa: 19 de diciembre de 2003

Tribunal:
  1. Enrique Vidal Ruiz Presidente/a
  2. José Miguel Benedí Ruiz Secretario/a
  3. María Inés Torres Barañano Vocal
  4. Mikel L. Forcada Zubizarreta Vocal
  5. Juan Miguel Vilar Torres Vocal

Tipo: Tesis

Teseo: 105643 DIALNET

Resumen

La traducción automática mediante métodos estadísticos está alcanzando importantes logros y presenta un futuro prometedor (Ney et al., 2000). Esta técnica trata de resolver el problema de la traducción con un enfoque puramente inductivo, sin la necesidad de utilizar conocimiento lingüístico. La aproximación clásica en traducción estadística utiliza modelos de traducción del tipo palabra a palabra (Brown, 1993). Una deficiencia de estos modelos es que sólo son capaces de establecer relaciones entre palabras individuales, por lo tanto, no se tiene en consideración información contextual a la hora de decidir una traducción. En esta memoria se van a presentar varios modelos que tratan de buscar relaciones entre secuencias de palabras, en lugar de entre palabras individuales. El primer modelo que presentaremos tratar de recoger de forma explícita qué secuencias de palabras son la traducción de qué secuencias de palabras. Este modelo obtiene resultados de traducción interesantes entre lenguas que no requieren apenas reordenación en el proceso de traducción, como el caso del castellano-catalán, o en tareas de dominio restringido. Un importante inconveniente del modelo anterior es que no dispone de la capacidad de generalización a la hora de reordenar la salida. Una posible solución puede encontrarse en la aproximación basada en plantillas (Och et al., 1999), la cual trata de traducir secuencias de clases de palabras en lugar de secuencias de palabras. Presentamos un modelo basado en plantillas que usa un etiquetador morfosintáctico para las clases de palabras. También se propone un modelo mejorado que trata de combianar los dos anteriores. La idea básica consiste en que si una secuencia de palabras ha sido vista en el entrenamiento, el modelo basado en secuencias de palabras es utilizado, en caso contrario, se utilizará el modelo basado en plantillas. En la gran mayoría de los sistemas de traducción estad