Training part-of-speech taggers to build machine translation systems for less-resourced language pairs

  1. Sánchez Martínez, Felipe
  2. Armentano Oller, Carme
  3. Pérez Ortiz, Juan Antonio
  4. Forcada Zubizarreta, Mikel L.
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2007

Número: 39

Páginas: 257-264

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Este articulo revisa el empleo de un método no supervisado para la obtención de desambiguadores léxicos categoriales para su empleo dentro del ingenio de traducción automática (TA) de código abierto Apertium. El método emplea el resto de módulos del sistema de TA y un modelo de la lengua destino de la traducción para la obtención de desambiguadores léxicos categoriales que después se usan dentro de la plataforma de TA Apertium para traducir. Los experimentos realizados con el par de lenguas occitano-catalán (un caso de estudio para pares de lenguas minorizadas con pocos recursos) muestran que la cantidad de corpus necesario para el entrenamiento es reducida comparado con los tamaños de corpus habitualmente usados con otros métodos de entrenamiento no supervisado como el algoritmo de Baum y Welch. Esto hace que el método sea especialmente apropiado para la obtención de desambiguadores léxicos categoriales para su empleo en TA entre pares de lenguas minorizadas. Además, la calidad de traducción del sistema de TA que utiliza el desambiguador léxico categorial resultante es comparativamente mejor.