Building machine translation systems for language pairs with scarce resources

  1. Sánchez Cartagena, Víctor Manuel
Zuzendaria:
  1. Juan Antonio Pérez Ortiz Zuzendarikidea
  2. Felipe Sánchez Martínez Zuzendarikidea

Defentsa unibertsitatea: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 2015(e)ko uztaila-(a)k 02

Epaimahaia:
  1. Andrew Way Presidentea
  2. David Tomás Díaz Idazkaria
  3. Núria Bel Rafecas Kidea
Saila:
  1. LENGUAJES Y SISTEMAS INFORMATICOS

Mota: Tesia

Teseo: 387710 DIALNET

Laburpena

1. Introducción La traducción automática (TA) puede definirse como el proceso llevado a cabo por un sistema informático para traducir un texto escrito en un lenguaje natural, la lengua origen (LO), a otro lenguaje natural, la lengua meta (LM). La TA constituye un reto científico debido a factores como la ambigüedad de los lenguajes naturales, la necesidad de conocimientos sobre el funcionamiento del mundo real para resolver dicha ambigüedad o las divergencias gramaticales existentes entre las distintas lenguas. Aunque, en general, la traducción de alta calidad está fuera del alcance de los sistemas de TA actuales -con la excepción de lenguas emparentados o dominios específicos, para los cuales sí que es posible realizar TA de alta calidad-, las dos modalidades de uso de la TA descritas a continuación están ampliamente extendidas. En primer lugar, la diseminación consiste en usar TA para producir borradores de las traducciones que son posteriormente corregidos manualmente por parte de traductores profesionales. Este proceso, conocido como posedición, permite acelerar el proceso de traducción, ya que los traductores profesionales (poseditores en este caso) no deben comenzar a traducir desde cero. En segundo lugar, cuando un sistema de TA se usa para la diseminación, el objetivo es producir una traducción que permita a un usuario sin conocimientos de la LM hacerse una idea del contenido del texto original en LO. Para cumplir con este objetivo, no es necesario que la traducción resultante sea gramaticalmente correcta ni que el sistema sea capaz de traducir todas las palabras del texto en LO. 1.1 Tipos de sistemas de traducción automática Los sistemas de TA pueden clasificarse según el tipo de conocimiento usado para su construcción. Así, pueden distinguirse principalmente dos tipos de sistemas: basados en reglas y basados en corpus. También existen enfoques híbridos que combinan elementos de ambos tipos de sistemas. Los sistemas de TA basados en reglas utilizan recursos lingüísticos, como diccionarios morfológicos o reglas de transferencia, para llevar a cabo el proceso de traducción. Dichos recursos son normalmente creados a mano por expertos. Los sistemas basados en corpus, por su parte, emplean grandes colecciones de textos ya traducidos (conocidos como corpus paralelos) como fuente de conocimiento. Los sistemas de TA basados en reglas generalmente realizan el proceso de traducción en tres pasos: primero, analizan el texto en LO para obtener una representación intermedia en LO, que elimina toda la información no relevante para el proceso de traducción y hace explícita aquella que sí que lo es. A continuación, la representación intermedia en LO se transfiere a una representación intermedia en LM. La traducción final se genera a partir de la representación intermedia en LM. De entre los distintos tipos de sistemas de TA basados en reglas, esta tesis doctoral se centra en los sistemas de TA de transferencia morfológica avanzada o sintáctica superficial. Estos sistemas no realizan un análisis sintáctico completo de las oraciones a traducir en LO; la representación intermedia que emplean consta de una secuencia de formas léxicas (cada forma léxica está formada por el lema, la categoría léxica y la información de flexión una palabra) y se obtiene tras un análisis morfológico. En particular, los nuevos métodos presentados en esta tesis han sido evaluados en la plataforma de TA por transferencia morfológica avanzada Apertium (Forcada et al., 2011). Respecto a la TA basada en corpus, actualmente el enfoque más popular dentro de este grupo es la TA estadística. Para cada oración s en LO que deber ser traducida, los sistemas estadísticos buscan la oración en LM t' que maximiza la probabilidad p(t|s). Dicha probabilidad se obtiene normalmente a partir de la combinación de modelos estadísticos estimados a partir de corpus paralelos (modelo de traducción) y de corpus monolingües en LM (modelo de LM o simplemente modelo de lengua). Mientras que el modelo de traducción indica cómo es de probable que s y t sean traducción mutua, el modelo de lengua indica la probabilidad de que t sea una oración correcta en LM. Dentro de la TA estadística, esta tesis se centra en los sistemas estadísticos basados en segmentos, que son los más populares. El modelo de traducción de un sistema basado en segmentos, que recibe el nombre de tabla de segmentos, está formado por parejas de segmentos (cada pareja consta de un segmento en LO y su traducción en LM) y sus correspondientes probabilidades. Las distintas hipótesis de traducción t que son evaluadas para hallar t' se crean dividiendo la oración s en segmentos y combinando sus traducciones según la tabla de segmentos. Dado que los dos principales tipos de sistemas de TA que acaban de ser descritos abordan el proceso de traducción de manera completamente diferente, los tipos de errores cometidos por estos sistemas son también muy diferentes. Por una parte, los sistemas estadísticos, gracias al modelo de lengua, producen traducciones más naturales en LM. Gracias a que la información empleada en el proceso de traducción ha sido extraída de millones de oraciones ya traducidas, los sistemas estadísticos tratan mejor con las expresiones que no deben ser traducidas literalmente, así como con palabras con múltiples traducciones. Por otra parte, los sistemas de TA basados en reglas producen traducciones más mecánicas y repetitivas que, sin embargo, son más fieles al texto en LO y facilitan su posedición. Además, los sistema basados en reglas no sufren el problema de la dispersión de datos que normalmente se da en sistemas estadísticos. Como éstos últimos operan sobre formas superficiales (palabras tal y como se encuentran los textos, sin ningún tipo de análisis), todas las formas flexionadas de cada palabra deben estar presentes en los corpus usados en el entrenamiento (y preferiblemente con diferentes contextos) para que el sistema sea capaz de traducirlas correctamente. Esta condición puede ser muy difícil de cumplir para idiomas con un alto grado de flexión, como alemán o español. 1.2 Recursos necesarios para construir sistemas de traducción automática A la hora de crear un nuevo sistema de TA para un par de lenguas, la decisión de emplear TA basada en reglas o TA basada en corpus está condicionada, además de por los errores cometidos por cada tipo de sistema, por los recursos disponibles para el par de lenguas en cuestión. Los sistemas de TA estadísticos pueden ser creados de manera automática (sin necesidad de conocimientos lingüísticos aportados por humanos) mientras haya corpus disponibles. Esta característica, junto a la cada vez mayor disponibilidad de corpus paralelos y de capacidad de cómputo, ha contribuido a su popularización. Generalmente, los corpus paralelos necesarios para construir el modelo de traducción son más difíciles de encontrar que los corpus monolingües en LM empleados para construir el modelo de lengua. Dado que son necesarias millones de palabras en cada lengua para obtener un sistema de TA estadístico competitivo, la TA estadística no es adecuada para lenguas con pocos hablantes (suele ser difícil encontrar corpus paralelos) y para la traducción de textos de dominios restringidos para los que no existen corpus paralelos suficientemente grandes. La construcción de sistemas basados en reglas, por su parte, implica un esfuerzo considerable en la creación de los recursos lingüísticos. Normalmente, este esfuerzo sólo puede ser llevado a cabo por personas con grandes conocimientos sobre la gramática y morfología de las lenguas implicadas, así como sobre el formato en el que los datos lingüísticos son codificados en el sistema concreto de TA basado en reglas. Sin embargo, la TA basada en reglas es la alternativa más razonable para construir sistemas de TA cuando no hay corpus paralelos disponibles, como ocurre para muchos de los pares de lenguas del proyecto Apertium: bretón-francés, islandés-inglés, kazajo-tártaro, etc. Respecto a los recursos lingüísticos concretos que son necesarios para construir un sistema de TA basado en reglas de transferencia morfológica avanzada (en particular, Apertium), cada paso del proceso (análisis, transferencia, generación), emplea un tipo de recurso distinto. En el paso de análisis, Apertium emplea un analizador morfológico para obtener una secuencia de formas léxicas en LO a partir de cada oración en LO a traducir. Cuando más de una forma léxica puede corresponder a una forma superficial, un desambiguador léxico categorial se encarga de elegir la forma léxica más adecuada (Sánchez-Martínez et al., 2008). Las equivalencias entre formas superficiales y formas léxicas en LO están codificadas en un diccionario morfológico monolingüe en LO. El proceso de transferencia se divide en transferencia léxica y transferencia estructural. En la transferencia léxica, la traducción a la LM de cada forma léxica en LO se obtiene de un diccionario bilingüe, mientras que en la transferencia estructural, una serie de reglas realizan las operaciones necesarias para obtener una traducción correcta en LM (concordancias, reordenamientos, etc.) cuando la traducción palabra por palabra no es suficiente. Cada regla procesa una secuencia de formas léxicas de la oración; las reglas se aplican de manera voraz, de izquierda a derecha, y cuando más de una regla puede ser aplicada en un punto de la oración, se elige la más larga. Finalmente, en el paso de generación, el generador morfológico produce una secuencia de formas superficiales en LM a partir de la representación intermedia en LM (secuencia de formas léxicas en LM). Las equivalencias entre formas superficiales y formas léxicas en LM están contenidas en el diccionario morfológico monolingüe en LM. Las reglas de transferencia son el recurso que requiere un conocimiento lingüístico más profundo del par de lenguas. En resumen, a la hora de crear un nuevo sistema de TA, es posible que no exista un corpus paralelo lo suficientemente grande para el par de lenguas o dominio deseado. Además, la creación de los recursos lingüísticos necesarios es muy costosa y puede que los expertos que deben llevar a cabo esa tarea no estén disponibles si alguna de las lenguas implicadas cuenta con un número reducido de hablantes. En esta tesis doctoral, se presentan tres nuevos métodos que facilitan la creación de sistemas de TA cuando los recursos necesarios (corpus paralelos y recursos lingüísticos) son escasos. En particular, en el capítulo 2 se describe un nuevo método para inferir automáticamente un conjunto de reglas de transferencia morfológica avanzada a partir de un corpus paralelo muy pequeño y de los diccionarios de un sistema de TA basado en reglas. En el capítulo 3, se describe una nueva estrategia de hibridación que permite combinar los recursos lingüísticos de un sistema de TA basado en reglas por transferencia morfológica avanzada con corpus paralelos para construir sistemas de TA estadísticos más potentes, lo que conduce a un mejor aprovechamiento de los recursos disponibles. El capítulo 4, por último, se presenta un nuevo método que permite a hablantes de una lengua sin grandes conocimientos lingüísticos insertar entradas en los diccionarios morfológicos monolingües a usar para la TA. 2. Inferencia automática de reglas de transferencia morfológica avanzada El nuevo método de inferencia de reglas de transferencia morfológica avanzada a partir de corpus paralelos muy pequeños y diccionarios morfológicos descrito en el capítulo 2 facilita enormemente la creación de sistemas de TA basados en reglas, pues las reglas de transferencia son el recurso que requiere un conocimiento lingüístico más profundo y por tanto, el que requiere de personal más especializado. Las reglas inferidas por este método son compatibles con el formato usado por Apertium (Forcada et al., 2011) y pueden ser editadas manualmente. Este nuevo método está inspirado en el trabajo de Sánchez-Martínez y Forcada (2009). Ambos métodos usan una extensión del formalismo de plantillas de alineamiento (Och and Ney, 2004) para codificar las reglas, aunque existen múltiples diferencias entre ambos enfoques. En primer lugar, el formalismo definido por Sánchez-Martínez y Forcada (2009) es menos expresivo que el nuevo formalismo presentado en esta tesis. El formalismo empleado por Sánchez-Martínez y Forcada (2009) no es capaz de representar reglas que son aplicadas independientemente de los atributos morfológicos de las palabras que casan con ellas. En consecuencia, normalmente es necesario inferir múltiples reglas para poder tratar con el mismo fenómeno lingüístico. Por ejemplo, los adjetivos en inglés se sitúan antes del nombre al que acompañan, mientras que en español normalmente se sitúan después. Para traducir correctamente la secuencia nombre-adjetivo de español a inglés, el método de Sánchez-Martínez y Forcada (2009) necesita inferir 4 reglas distintas: una para cada combinación de género y número, mientras que el nuevo método descrito en el capítulo 2 necesita una sola regla. En segundo lugar, el nuevo método presentado en esta tesis emplea un algoritmo de aprendizaje mucho más potente: la inferencia de reglas se aborda como un problema de minimización. Mediante este novedoso enfoque, se resuelven los posibles conflictos entre reglas y se evita la sobregeneralización que podría ser causada por el uso de un formalismo más potente. Éste es el primer método de aprendizaje de reglas que plantea la inferencia como un problema de minimización similar al problema del conjunto de cobertura en lugar de usar un enfoque voraz. En tercer y último lugar, el método de Sánchez-Martínez y Forcada (2009) genera reglas que, al ser aplicadas por el sistema de TA, impiden que otras reglas más útiles e importantes se apliquen. Este problema surge porque su método genera reglas a partir de todos los segmentos bilingües extraídos del corpus paralelo, incluso a partir de aquellos con una secuencia de categorías léxicas en LO que no necesitan ser procesadas conjuntamente (por ejemplo, sustantivo seguido de conjunción y determinante). El nuevo método descrito en esta tesis no sufre este problema porque tiene en cuenta la política seguida por el sistema de TA para elegir las reglas a aplicar (de izquierda a derecha, y dando prioridad a las reglas más largas) y no genera reglas que puedan penalizar la calidad de la traducción resultante. El proceso de aprendizaje de reglas consta de los pasos que se describen a continuación. Primero, se analiza el corpus paralelo para obtener una secuencia de formas léxicas en LO y una secuencia de formas léxicas en LM, y se calculan los pares de formas léxicas que están alineados, tal y como se hace durante el entrenamiento de un sistema de TA estadístico basado en segmentos. Después, se extraen segmentos bilingües consistentes con los alineamientos, también de manera similar a como se hace en sistemas estadísticos. Además, se descartan aquellos segmentos bilingües que no son compatibles con el diccionario bilingüe del sistema de TA basado en reglas donde las reglas inferidas serán integradas. A continuación, se generan múltiples reglas a partir de cada segmento bilingüe. Todas las reglas generadas cumplen la siguiente condición respecto al segmento bilingüe a partir del cual han sido generadas: al ser aplicadas al segmento en LO, generan el segmento en LM. Cada regla generada tiene un grado de generalización distinto: algunas reglas casan únicamente con las formas léxicas del segmento en LO a partir del cual han sido generadas, otras se aplican independientemente del lema, otras independientemente del lema y la información de flexión, etc. De esta gran cantidad de reglas, se escoge el subconjunto de cardinalidad mínima que permita reproducir el conjunto de segmentos bilingües extraídos del corpus paralelo, es decir, que para cada segmento bilingüe, la aplicación de la regla más específica disponible a su segmento en LO dé como resultado su segmento en LM. Este problema de minimización se reescribe como un sistema de inecuaciones lineales y se resuelve mediante métodos de programación lineal entera (Garfinkel and Nemhauser, 1972). Para eliminar las reglas que impiden que otras reglas más importantes se apliquen (tercera limitación del método de Sánchez-Martínez y Forcada (2009) descrita anteriormente), se detectan, para cada oración en LO del corpus paralelo, aquellos subsegmentos que deben traducirse con reglas para obtener la máxima similitud con la oración correspondiente en LM: son los segmentos clave. Una vez obtenida esta información, se eliminan las reglas que normalmente impiden que segmentos clave casen con la regla necesaria. Finalmente, también se eliminan reglas redundantes: aquellas cuya labor puede ser llevada a cabo por una combinación de reglas más cortas. Para evaluar este nuevo algoritmo de aprendizaje de reglas, se han inferido reglas a partir de corpus paralelos pequeños de distintos tamaños (hasta 5000 oraciones como tamaño máximo) para 5 pares de lenguas distintos: español-catalán (en ambos sentidos), inglés-español (en ambos sentidos), y bretón-francés. Tanto los diccionarios morfológicos como el sistema de TA en el que se han integrado las reglas pertenecen al proyecto Apertium (Forcada et al., 2011). Los resultados demuestran que la calidad de la traducción obtenida por este nuevo algoritmo supera al método de Sánchez-Martínez y Forcada (2009) en todos los escenarios evaluados. Además, gracias al formalismo más expresivo, el número de reglas obtenidas es mucho menor, lo que facilita su posterior modificación y mejora. Adicionalmente, cuando las lenguas están emparentadas (en el caso del par español-catalán), unos pocos cientos de oraciones paralelas son suficientes para obtener reglas de calidad aceptable. La generación de reglas con diferentes niveles de generalización y la complejidad computacional del problema de minimización que debe ser resuelto limitan el tamaño de los corpus que pueden emplearse. Sin embargo, en los experimentos se ha comprobado que buena parte de dicha complejidad viene dada por la extracción de reglas que se ejecutan independientemente de los atributos morfológicos de las palabras que casan. La extracción de ese tipo de reglas únicamente aumenta la calidad de la traducción obtenida cuando el corpus paralelo es muy pequeño (menor de 1000 oraciones). Como consecuencia de este descubrimiento, se han repetido parte de los experimentos desactivando la generación de este tipo de reglas y con corpus paralelos más grandes (hasta 25000 oraciones). Las reglas resultantes han sido capaces de superar la calidad en la traducción proporcionada por las reglas escritas a mano del proyecto Apertium para los pares de idiomas español-inglés y bretón-francés. 3. Integración de reglas de transferencia morfológica avanzada en sistemas de traducción automática estadísticos Incluso si un corpus paralelo mayor que los usados para la inferencia de reglas está disponible, el sistema de TA estadístico construido a partir del mismo puede presentar importantes limitaciones. En primer lugar, el problema de la dispersión de datos comentado anteriormente hace que obtener suficientes segmentos bilingües para poder traducir correctamente todas las formas flexionadas cuando alguna de las lenguas (LO o LM) presenta un elevado grado de flexión requiera una cantidad de corpus considerable, que podría no existir para determinados pares de lenguas. Y en segundo lugar, los corpus paralelos disponibles podrían no pertenecer al mismo dominio que los textos que necesitan ser traducidos con el sistema de TA estadístico resultante. En este caso, la calidad de la traducción obtenida sería más baja de lo deseable. Una posible solución para estos problemas es la hibridación: si también existe un sistema de TA basado en reglas para el mismo par de lenguas, éste puede ser combinado con el sistema de TA estadístico para mitigar sus limitaciones. Así, en el capítulo 3 se describe una nueva estrategia de hibridación consistente en la inserción de información lingüística procedente de un sistema de TA basado en reglas por transferencia morfológica avanzada en la tabla de segmentos de un sistema de TA estadístico basado en segmentos. Incluso si las reglas de transferencia estructural todavía no han sido creadas, éstas pueden ser inferidas automáticamente a partir del mismo corpus paralelo empleado para entrenar el sistema estadístico con la ayuda del método descrito en el capítulo 2. De este modo, se produce un mejor aprovechamiento de los recursos disponibles (diccionarios y corpus paralelo) que si se emplearan los métodos existentes en la literatura (Schwenk, 2009), que consisten simplemente en añadir los diccionarios a la tabla de segmentos. Combinando la estrategia de inferencia de reglas con la de hibridación, el sistema resultante es capaz de generalizar el conocimiento presente en el corpus paralelo a secuencias de palabras que no aparecen en el corpus pero comparten categoría léxica o atributos morfológicos con aquellas que sí que aparecen. La estrategia presentada en el capítulo 3 es la primera técnica de hibridación diseñada específicamente para integrar información lingüística proveniente de un sistema de TA basado en reglas por transferencia morfológica avanzada en un sistema de TA estadístico basado en segmentos. A parte de esta nueva estrategia, el único método existente para tal propósito % enriquecer un sistema de TA estadístico con recursos lingüísticos procedentes de un sistema de TA basado en reglas de transferencia superficial es la estrategia diseñada por Eisele (2008). Sin embargo, la esta última es una estrategia general que se puede aplicar para enriquecer un sistema de TA estadístico a partir de cualquier otro sistema de TA sin utilizar ningún tipo de información sobre su funcionamiento interno (el sistema de TA empleado para enriquecer el sistema estadístico se trata como una caja negra). En la estrategia de Eisele (2008), las oraciones que deben ser traducidas con el sistema híbrido se traducen primero con el sistema de TA basado en reglas, se construye una nueva tabla de segmentos a partir del corpus paralelo resultante (corpus sintético) y se concatena a la tabla de segmentos obtenida inicialmente a partir del corpus paralelo de entrenamiento. La estrategia seguida por Eisele (2008) presenta ciertas limitaciones que son resueltas por el nuevo método de hibridación que se presenta en esta tesis gracias a que el nuevo método saca partido del funcionamiento interno del sistema de TA basado en reglas. En primer lugar, cuando se emplea el método de Eisele (2008), se insertan en la tabla de segmentos pares de segmentos que no son traducción mutua, como consecuencia de la mala calidad de los alineamientos entre palabras en el corpus sintético. Y en segundo lugar, el método de Eisele (2008) es incapaz de encontrar un equilibrio adecuado entre las probabilidades de los pares de segmentos extraídos del corpus de entrenamiento y del corpus sintético. La nueva estrategia de hibridación presentada en el capítulo 3 funciona en dos pasos. Primero, se generan una serie de de segmentos bilingües sintéticos a partir de los datos lingüísticos del sistema de TA basado en reglas por transferencia morfológica avanzada (Apertium). Después, se crea una tabla de segmentos combinando los segmentos bilingües extraídos a partir del corpus de entrenamiento y los sintéticos. Los segmentos bilingües sintéticos se generan a partir del diccionario bilingüe y las reglas de transferencia del sistema de TA basado en reglas. Para generar segmentos sintéticos a partir del diccionario bilingüe, se identifican todas las formas superficiales en LO que el sistema es capaz de analizar (con la ayuda del diccionario monolingüe en LO), y se traducen sus formas léxicas correspondientes con el diccionario bilingüe. Para generar segmentos sintéticos a partir de las reglas de transferencia, se identifican en el texto a ser traducido con el sistema híbrido todos los segmentos que casan con reglas de transferencia, y se traducen con las reglas correspondientes. Una vez generados los pares de segmentos sintéticos, éstos y los segmentos extraídos del corpus paralelo se juntan en una sola lista, a partir de la cual se crea la tabla de segmentos. A las puntuaciones empleadas normalmente en TA estadística se les añade una puntuación binaria que especifica si cada segmento paralelo viene del corpus de entrenamiento o del sistema de TA basado en reglas. Para evaluar la nueva estrategia de hibridación, se han construido sistemas híbridos a partir de corpus paralelos y monolingües de distintos tamaños y de los datos lingüísticos del sistema Apertium y se han comparado con sistemas de TA puros, tanto basados en reglas como estadísticos, obtenidos a partir de los mismos recursos. La evaluación (automática) se ha llevado a cabo para los pares de lenguas inglés-español (en mabas direcciones) y bretón-francés. Mientras que para bretón -francés el corpus de evaluación tiene el mismo origen que el corpus de entrenamiento, para el caso de inglés-español se han empleado dos corpus de evaluación distintos: un corpus del mismo tipo que el corpus de entrenamiento (actas del parlamento europeo), y un corpus procedente de un dominio diferente (noticias). Los resultados muestran que los sistemas híbridos creados con la nueva estrategia son capaces de superar a los sistemas de TA puros construidos a partir de los mismos recursos. Los sistemas híbridos son especialmente útiles cuando se traducen textos de un dominio distinto al del corpus de entrenamiento empleado o cuando dicho corpus de entrenamiento es pequeño. Además, los experimentos confirman que la nueva estrategia supera sistemáticamente al método de Eisele (2008). Un sistema construido siguiendo la estrategia de hibridación presentada en esta tesis fue uno de los sistemas ganadores en la evaluación humana de la tarea de traducción del Workshop on Statistical Machine Translation de 2011 (Callison-Burch et al., 2011) para el par de lenguas español-inglés. De este modo, la efectividad del método ha quedado confirmada tanto por una evaluación automática como por una evaluación humana. Respecto al uso de reglas inferidas automáticamente con el algoritmo descrito en el capítulo 2, los resultados muestran que, cuando los sistemas híbridos emplean dichas reglas, la calidad de la traducción obtenida puede alcanzar la de sistemas híbridos que emplean reglas del proyecto Apertium creadas a mano. En todo caso, siempre se produce una mejora respecto a un sistema de TA estadístico enriquecido únicamente con diccionarios. Finalmente, y como cabe esperar, los experimentos demuestran que, cuanto mayor es el corpus monolingüe en LM empleado para estimar el modelo de lengua, menor es la mejora aportada por el sistema híbrido respecto a un sistema de TA estadístico puro. 4. Inserción de entradas en diccionarios morfológicos por parte de usuarios no expertos La creación de diccionarios morfológicos consume una gran parte del tiempo de desarrollo de un sistema de TA basado en reglas si éstos no pueden ser reutilizados a partir de otros sistemas de TA o aplicaciones de procesamiento del lenguaje natural (Tyers, 2010). Además, los métodos de inferencia automática de reglas e hibridación descritos respectivamente en los capítulos 2 y 3 precisan de diccionarios morfológicos. Si se permitiera a usuarios sin grandes conocimientos lingüísticos ni sobre sistemas de TA basados en reglas participar en la creación de diccionarios morfológicos, se podría acelerar y abaratar el desarrollo de nuevos sistemas de TA basados en reglas. Con este objetivo, se ha desarrollado un nuevo método que permite a usuarios no expertos insertar nuevas entradas en diccionarios morfológicos monolingües, descrito en el capítulo 4. Este nuevo método está pensado para ser empleado cuando un usuario de un sistema de TA basado en reglas desea traducir un texto que contiene palabras desconocidas (que no están presentes en el diccionario morfológico en LO). El método se emplea para permitir al usuario insertarlas y que, de este modo, el sistema sea capaz de analizarlas. Si el usuario es bilingüe, puede proporcionar la traducción a LM de cada palabra desconocida y el método puede emplearse también para introducirlas en el diccionario morfológico en LM. Una vez se han insertado las entradas en ambos diccionarios morfológicos monolingües, la entrada correspondiente en el diccionario bilingüe puede insertarse automáticamente. Este nuevo método funciona a base de preguntar iterativamente al usuario "es X una forma válida de la palabra W?" siendo W la palabra desconocida encontrada en el texto a traducir y X una nueva palabra formada tras realizar cambios en la flexión de W. Por ejemplo, supongamos que el usuario desea traducir al español la oración en inglés "Many of those policies remain largely unimplemented" y el sistema de TA no contiene la forma superficial policies en su diccionario morfológico en LO. El sistema preguntaría al usuario si policy y policying son formas válidas de policies. Si el usuario fuese bilingüe (imaginemos que quiere poseditar la traducción ofrecida por el sistema de TA), especificaría que la traducción al español de policies es medidas, y el sistema le preguntaría si medida o medidaba son formas válidas. El nuevo método presentado en el capítulo 4 emplea los paradigmas de flexión existentes en el diccionario morfológico para insertar la nueva entrada. El método selecciona la raíz de palabra y elige el paradigma de flexión más adecuado. Como resultado, además de la forma superficial desconocida ("policies: policy, nombre, plural" en el ejemplo anterior), todas sus formas flexionadas se añadirán también al diccionario (en el ejemplo anterior, "policy: policy, nombre, singular"). La raíz es el prefijo de la palabra a insertar que es común a todas sus formas flexionadas. Los paradigmas de flexión se utilizan en los diccionarios de los sistemas de TA para agrupar regularidades en la flexión de las palabras: un paradigma se define normalmente como un conjunto de sufijos (que se concatenan a la raíz de la palabra para construir sus diferentes formas flexionadas) y la información morfológica correspondiente a cada uno de ellos. El proceso seguido para insertar la entrada en el diccionario monolingüe es el siguiente. Primero, se examinan los paradigmas de flexión presentes en el diccionario para seleccionar aquellos que son compatibles con la forma superficial a insertar. Los paradigmas compatibles son aquellos que comparten un sufijo con ella. Después, a cada paradigma se le asigna una puntuación que indica cómo de probable es que dicho paradigma sea el más adecuado para la palabra a insertar. Esta puntuación se obtiene, mediante un modelo oculto de Markov (Rabiner, 1989), a partir de un corpus monolingüe y de la oración del texto que el usuario desea traducir en la que la palabra a insertar aparece. Si el usuario está introduciendo una palabra en LM y acaba de introducir su equivalente en LO, el paradigma asignado a la palabra en LO se emplea para obtener una puntuación más precisa, pues los paradigmas en LO y LM están fuertemente correlacionados. La puntuación ayuda a elegir qué formas superficiales deberán ser validadas por el usuario. Dichas formas se obtienen flexionando la palabra a insertar con los diferentes paradigmas compatibles. Si el usuario acepta una forma superficial, todos los paradigmas que no sean capaces de generarla son descartados. Si el usuario rechaza una forma superficial, todos los paradigmas que la generan son descartados. El proceso se repite iterativamente hasta que sólo queda un paradigma compatible, que constituye la solución. Es deseable que la cantidad de preguntas necesarias para elegir un paradigma sea lo más baja posible. Para ello, las formas superficiales a validar se deciden mediante un árbol de decisión construido con una variante del algoritmo ID3 (Quinlan, 1986) que tiene en cuenta tanto la puntuación de cada paradigma como el número de paradigmas que se descartarían con cada respuesta del usuario. Para evaluar este nuevo método, se ha seleccionado un pequeño subconjunto de 150 entradas del diccionario monolingüe español del proyecto Apertium, se ha elegido la forma superficial más común para cada una de ellas, y se ha pedido a un grupo de usuarios no expertos que las inserten. El resultado muestra que los usuarios no expertos son perfectamente capaces de contestar a las preguntas propuestas por el sistema y que el paradigma correcto es elegido en cerca del 90% de los casos. Además, también se ha realizado una evaluación automática más exhaustiva empleando miles de entradas extraídas del historial de cambios del mismo diccionario monolingüe español. En esta evaluación, se ha asumido que el usuario contesta correctamente a las preguntas planteadas por el sistema y se ha contado el número de preguntas que son necesarias como media. Los resultados confirman que unas pocas preguntas (no más de 6) son suficientes para poder elegir el paradigma correcto. Cabe destacar, sin embargo, que cuando existen distintos paradigmas candidatos que generan el mismo conjunto de formas superficiales (pero con diferente información morfológica asociada) no es posible que el usuario elija el más adecuado mediante la validación de formas flexionadas. Para solventar esta limitación, múltiples líneas de investigación pueden seguirse en el futuro. Por una parte, y como demuestran algunos experimentos preliminares, es posible emplear la información contenida en un corpus monolingüe y un modelo de lengua similar al empleado por sistemas de TA estadísticos (pero basado en información morfológica en lugar de en formas superficiales) para elegir el paradigma con la información morfológica más verosímil. También sería posible plantear al usuario preguntas más sofisticadas: por ejemplo, podrían mostrársele oraciones en las que la palabra a insertar actúa con diferentes categorías léxicas o atributos morfológicos y elegir el paradigma final en función de las oraciones consideradas correctas por el usuario. 5. Discusión En conclusión, en esta tesis doctoral se han presentado tres nuevos métodos que facilitan la creación de sistemas de TA cuando los recursos normalmente empleados en su construcción (corpus paralelos y recursos lingüísticos, como reglas y diccionarios) son escasos: un algoritmo de inferencia de reglas de transferencia morfológica avanzada a partir de corpus paralelos muy pequeños, una estrategia de hibridación entre TA basada en reglas y TA estadística y un sistema que permite a usuarios no expertos insertar entradas en diccionarios morfológicos monolingües. El nuevo algoritmo para la inferencia automática de reglas de transferencia constituye una alternativa barata (en términos de los recursos humanos que son necesarios) y eficaz para construir sistemas de TA cuando únicamente hay disponibles diccionarios y un corpus paralelo muy pequeño. Su gran poder de generalización le permite crear reglas de transferencia de alta calidad y fácilmente editables a partir de corpus paralelos que contienen únicamente unos millares de palabras en cada idioma. La adopción de este algoritmo contribuirá a facilitar la creación de reglas de transferencia para nuevos pares de lenguas en sistemas como Apertium, reduciendo así el tiempo total necesario para construir nuevos sistemas de TA. La alta capacidad de generalización del algoritmo de inferencia de reglas puede contribuir también a la mejora de sistemas de TA estadísticos si se combina con la estrategia de hibridación descrita en el capítulo 3. Esta combinación constituye una manera novedosa y no explorada previamente de emplear diccionarios morfológicos para mejorar sistemas de TA estadísticos. De acuerdo con los resultados de los experimentos llevados a cabo, se puede concluir que la combinación de ambos métodos contribuye a mitigar el problema de dispersión de datos que normalmente sufren los sistemas de TA estadísticos cuando deben traducir entre idiomas con un alto grado de flexión morfológica y reduce el tamaño de los corpus necesarios para construir sistemas de TA estadísticos. Respecto al método para permitir a usuarios no expertos insertar entradas en diccionarios morfológicos monolingües, éste permitirá ahorrar costes en el desarrollo de dichos diccionarios y, por extensión, de nuevos sistemas de TA basados en reglas. A pesar de la limitación que afecta a los paradigmas de flexión que generan las mismas formas superficiales, este nuevo método podría contribuir al ahorro de costes en su estado actual si los usuarios expertos únicamente intervienen al final del proceso para decidir entre los (pocos) paradigmas que generan las mismas formas superficiales, mientras que los usuarios no expertos llevan a cabo el resto del trabajo. Finalmente, cabe destacar que la implementación de todos los métodos descritos en esta tesis ha sido liberada bajo licencia GNU GPL. Esta decisión trae consigo varias ventajas. Por una parte, asegura la reproducibilidad de los resultados presentados y facilita que la comunidad científica continúe la investigación llevada a cabo. Y por otra parte, permite que realmente se construyan sistemas de TA para pares de lenguas con recursos escasos sin tener que desarrollar software adicional.