Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas

SÁNCHEZ MARTÍNEZ, FELIPE

Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas

SÁNCHEZ MARTÍNEZ, FELIPE

Dirigida por:

Mikel L. Forcada Zubizarreta Director
Juan Antonio Pérez Ortiz Codirector

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 30 de junio de 2008

Tribunal:

Rafael C. Carrasco Jiménez Presidente
Lluís Márquez Secretario/a
Andy Way Vocal
Harold Somers Vocal
Lluís Padró Cirera Vocal

Departamento:

LENGUAJES Y SISTEMAS INFORMATICOS

Tipo: Tesis

Teseo: 213081 DIALNET RUA editor

Resumen

Los enfoques basado en corpus para la construcción de sistemas de traducción automática (TA) requieren de una gran cantidad de textos paralelos (textos en una lengua junto con su traducción a otro idioma) para alcanzar una calidad una calidad razonable a la hora de traducir textos de propósito general; esta gran cantidad de corpus paralelos no se encuentra siempre disponible, especialmente para aquellos pares de lenguas con pocos recursos electrónicos y de los cuales existe una demanda creciente de servicios de traducción, tal es el caso de los pares de lenguas occitano-catalana, francés-catalán o inglés-afrikaanas. En estos casos, el paradigma de TA basada en reglas es el único enfoque realista desde un punto de vista práctico. Sin embargo, la construcción de sistemas de TA basados en reglas implica un ingente esfuerzo humano para codificar todos los recursos lingüísticos necesarios. Esta tesis estudia el desarrollo de métodos no supervisados basados en corpus para obtener de forma automática algunos de los recursos lingüísticos necesarios para construir sistemas de TA basados en reglas. Concretamente, esta tesis se centra en: i) el desarrollo de un método no supervisado para el entrenamiento de desambiguadores léxicos categoriales basados en modelos ocultos de Markov con vista a su empleo en sistemas de TA; ii) la inferencia automática del conjunto de estados a emplear por el desambiguador léxico categorial para llevar a cabo la desambiguación léxica categorial de los textos a traducir; y iii) la inferencia automática de reglas de transferencia estructural a partir de una pequeña cantidad de corpus paralelos. EL objetivo final de los métodos propuestos y evaluados en esta tesis es reducir en la medida de lo posible el esfuerzo humano necesario para construir un sistema de TA basado en reglas desde cero. Los enfoques analizados en esta tesis demuestran que a la hora de entrenar de manera no supervisada un desambiguador léxico categorial basado en modelos ocultos de Markov hay una fuente de conocimiento, un modelo estadístico de la lengua destino de la traducción, que puede ser usado fácilmente para obtener desambifuadores léxicos categoriales especialmente adaptados a su posterior uso como módulo embebido en un sistema de TA basado en reglas. Este novedoso enfoque utiliza información no sólo de la lengua origen, como ya hacen los métodos de entrenamiento clásicos, sino también de lengua destino de la traducción y de los restantes módulos del sistema de TA en el que el desambiguador se integra. El desambiguador resultante es más adecuado para su empleo en sistemas de TA basados en reglas que los obtenidos mediante el método de entrenamiento no supervisado clásico (el algoritmo de Baum y Welch). Además, en esta tesis se analiza la aplicación de un algoritmo de agrupamiento (clustering) para obtener automáticamente el conjunto de estados a utilizar por los modelos ocultos de Markov empleados para la desambiguación léxico categorial. Por último, esta tesis demuestra que el conjunto de reglas de transferencia estructural a usar en TA puede inferirse a partir de un corpus paralelo de pequeño tamaño mediante la adaptación de las plantillas de alineamiento empleadas en TA estadística al paradigma de la TA basada en reglas. El conjunto de reglas inferido mejorar la calidad de las traducciones en comparación con la traducción palabra por palabra y ofrece resultados de traducción razonable próximos a los obtenidos usando reglas de transferencia estructural codificadas a mano. Además, las reglas inferidas son fácilmente legibles y pueden coexistir con reglas codificadas a mano.