Fuzzy-Match Repair in Computer-Aided Translation Using Black-Box Machine Translation

  1. Ortega, John Evan
Dirigée par:
  1. Felipe Sánchez Martínez Directeur

Université de défendre: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 01 mars 2021

Jury:
  1. Núria Bel Rafecas President
  2. Juan Antonio Pérez Ortiz Secrétaire
  3. Marco Turchi Rapporteur
Département:
  1. LENGUAJES Y SISTEMAS INFORMATICOS

Type: Thèses

Teseo: 649823 DIALNET lock_openRUA editor

Résumé

La traducción asistida por ordenador (TAO) basada en memorias de traducción (MT) es ampliamente utilizado para ayudar a traductores profesionales. Una MT es un repositorio que contiene unidades de traducción (UT), esto es, pares de segmentos paralelos (s,t) en lengua origen y lengua meta. Para la traducción de un nuevo segmento en lengua origen s', las herramientas TAO buscan en la MT y recuperan las UT(s,t) cuyo segmento en lengua origen s sea más similar as'. Luego, el traductor elige una UT y edita el segmento en lengua meta t para convertirlo en una traducción adecuada des'. La reparación de concordancias parciales (RCP) se puede utilizar como una técnica para modificar automáticamente las partes de t que necesitan ser editadas. Esta tesis describe un método de RCP, el cual es independiente del idioma y capaz de utilizar cualquier fuente disponible de información bilingüe para generar, dado el segmento a ser traducido s' y una UT (s, t), un conjunto de segmentos reparados y luego elegir el mejor segmento reparado utilizando un método de estimación de la calidad. Una evaluación de nuestro método de RCP muestra que, utilizando un sistema de traducción automática (TA) como fuente de información bilingüe, el segmento reparado elegido usando técnicas de estimación de la calidad es una buena aproximación al mejor candidato (oráculo) producido. Además, con un único modelo de estimación de la calidad de segmentos reparados, nuestro método funciona bien con cualquiera de los idiomas probados. Adicionalmente, describimos un método para elegir el sistema de TA a usar por el sistema de RCP para cada segmento automáticamente, a-priori, sin tener que traducir el segmento en lengua origen s'. Los resultados muestran que mediante el uso de este método nuestro método de RCP genera mejores segmentos reparados que utilizando cualquiera de los sistemas de TA de forma aislada. Finalmente, mostramos que la integración de nuestro método de RCP con un sistema de posedición automática también mejora la calidad de segmentos reparados por nuestro método de RCP.