Using external sources of bilingual information for word-level quality estimation in translation technologies

Esplà Gomis, Miquel

Using external sources of bilingual information for word-level quality estimation in translation technologies

Esplà Gomis, Miquel

unter der Leitung von:

Felipe Sánchez Martínez Co-Doktorvater
Mikel L. Forcada Zubizarreta Co-Doktorvater

Universität der Verteidigung: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 25 von Januar von 2016

Gericht:

Lucia Specia Präsident/in
Juan Antonio Pérez Ortiz Sekretär
Vincent Vandeghinste Vocal

Fachbereiche:

LENGUAJES Y SISTEMAS INFORMATICOS

Art: Dissertation

Teseo: 400600 DIALNET RUA editor

Zusammenfassung

L’estimació de la qualitat de la traducció (EQ) consisteix a predir el nivell de qualitat d'una traducció en llengua meta (LM) produïda per a un segment en llengua origen (LO). L’EQ ha esdevingut crucial per a les tecnologies de la traducció: els traductors necessiten una EQ acurada per a predir l'esforç requerit en una tasca de traducció i per a escollir la tecnologia de traducció a utilitzar. Aquesta tesi doctoral es presenta per compendi d'articles i, per tant els seus capítols centrals es componen d'articles reimpresos. Aquesta tesi descriu una col·lecció de noves tècniques per a l'EQ de dues tecnologies de traducció: la traducció automàtica (TA) i la traducció assistida per ordinador (TAO) basada en memòries de traducció (MT). Els mètodes proposats usen qualsevol font d'informació bilingüe (FIB) disponible de manera agnòstica, és a dir, sense fer cap mena d'assumpció pel que fa a la quantitat, la qualitat, o el format de la informació bilingüe utilitzada. En el context d'aquesta tesi doctoral, s’anomena FIB a qualsevol recurs capaç de proporcionar traduccions en una llengua per a un subsegment, és a dir, per a una seqüència d'una o més paraules contigües que formen part d'una oració, donat en una altra llengua. Per poder aplicar els mètodes desenvolupats a parells de llengües amb pocs recursos bilingües, part de la recerca s’ha dedicat a l'adquisició de FIB d'Internet. L’objectiu d'aquesta introducció és presentar els conceptes bàsics sobre l'EQ per a les tecnologies de la traducció, presentar la motivació de la recerca desenvolupada i posar els diferents articles reimpresos inclosos en aquesta tesi en un marc comú. *** Objectius i resultats de la tesi *** L’objectiu principal d'aquesta tesi doctoral és desenvolupar mètodes per a l'EQ, fent servir FIB, tant per a TA, com per a TAO basada en MT. La motivació de les tecnologies que es descriuen en aquesta tesi és aprofitar les FIB existents que són disponibles, per exemple, a Internet, com ara els diccionaris bilingües, les taules de subsegments o “frases”, la TA, les MT, o els cercadors de concordances bilingües. La hipòtesi de treball principal d'aquesta tesi és la següent: - Hipòtesi de treball principal: És possible desenvolupar mètodes exclusivament basats en FIB externes per a estimar la qualitat de la traducció de cada mot, tant en TA com en TAO basada en MT. Aquesta hipòtesi de treball sintetitza els objectius principals del treball desenvolupat en aquesta tesi doctoral, i proporciona un fil conductor per a descriure’l. La recerca duta a terme per a confirmar aquesta hipòtesi de treball es divideix en tres blocs: • desenvolupament de mètodes basats en FIB per a l'EQ de cada mot en TAO basada en MT; • desenvolupament de mètodes basats en FIB per a l'EQ de cada mot en TA; i • desenvolupament de mètodes per a l'obtenció de FIB per a parells de llengües amb pocs recursos. Aquesta secció té per objectiu descriure els problemes que s’han abordat al llarg d'aquesta tesi doctoral i les solucions proposades per a cadascun d'ells. Cal emfatitzar que les tècniques per a l'EQ de cada mot desenvolupades en aquesta tesi són agnòstiques pel que fa a les FIB utilitzades; això garanteix que els mètodes resultants siguen flexibles i que, per tant, s’aprofiten al màxim les FIB. *** Ús de fonts d'informació bilingües per a l'estimació de la qualitat de la traducció en traducció assistida per ordinador basada en memòries de traducció *** L’objectiu d'aquest bloc de recerca és definir mètodes per a l'EQ de cada mot per a TAO basada en MT. Les eines de TAO basada en MT funcionen de la següent manera: quan el traductor vol traduir un nou segment S' en LO, l'eina cerca a la MT les unitats de traducció (S, T ) amb un segment en LO S semblant a S' i les presenta a l'usuari com a suggeriments de traducció. D’aquesta forma, el segment corresponent en LM T pot ser utilitzat com a punt de partida per a traduir S'. Per saber com són de semblants un segment S i S' , les eines de TAO basades en MT usen mètriques de concordança parcial — anomenades fuzzy-match score en la bibliografia en anglés (Sikes, 2007). Tot i que existeix una àmplia varietat de mètriques de concordança parcial, la gran majoria es basen en algorismes de distància d'edició (Levenshtein, 1966) en què es comparen els mots de dues cadenes. Aquestes mètriques solen presentar-se al traductor en forma de percentatges per facilitar l'estimació de l'esforç requerit en posteditar un suggeriment de traducció. Així, una concordança parcial del 100% indica que els segments S i S' són idèntics i que, per tant, el segment T en LM podria ser utilitzat com a traducció de S' sense fer-hi cap edició. Per contra, una concordança parcial del 0% implicaria que S i S' no s’assemblen gens i que, per tant, el segment T en LM no ajudaria gens en la traducció de S'. Les mètriques de concordança parcial esdevenen, per tant, mètriques d'estimació de la qualitat dels segments traduïts. De fet, és habitual que els mots de S que no concorden amb S' siguen destacades a l'hora de presentar al traductor els suggeriments de traducció; tanmateix aquesta informació no es proporciona per a la LM, on esdevindria molt més útil. L’objectiu del treball desenvolupat en aquest bloc de recerca és anar un pas més enllà i projectar la informació dels mots en S que no concorden amb S' sobre T, per a obtenir una EQ de cada mot. És obvi que proporcionar una EQ sobre T seria molt més informatiu a l'hora d'estimar l'esforç requerit per completar la tasca de traducció. A més, si aquesta informació fóra presentada al traductor seria possible guiar-lo en la tasca de postedició. Per exemple, els mots que han de ser modificats (eliminats o substituïts) podrien ser acolorits en roig, mentre que els mots que poden romandre tal com estan, podrien ser acolorits en verd. Malgrat els avantatges de l'EQ de cada mot, l'única referència a aquesta tasca en la bibliografia és la patent de Kuhn et al. (2011). Lògicament, pel fet de tractar-se d'una patent, els detalls del mètode patentat no han estat publicats. La falta de solucions existents per a l'EQ de cada mot per a TAO basada en MT podria fer-vos pensar que aquesta tasca no és suficientment rellevant per despertar l'interés de la comunitat científica. Per refutar aquesta idea, l'Apèndix A de l'article reimprés 2.2.1 que es detalla més endavant descriu un experiment en el qual professionals de la traducció utilitzen una eina de TAO basada en MT per traduir textos de l'anglés a l'espanyol amb EQ per a cada mot i sense EQ per a cada mot. Aquests experiments confirmen que disposar d'EQ fiable pot reduir el temps dedicat a una tasca de traducció fins a un 14%. Aquest resultat confirma els avantatges que pot tenir per als traductors professionals aquesta tecnologia i, en conseqüència, emfatitza la rellevància de la recerca desenvolupada dins d'aquesta tesi doctoral en aquesta direcció. El Capítol 2 presenta la tasca de l'EQ de la traducció per a TAO basada en MT. S’hi exploren dues vies per a obtenir aquestes estimacions, cadascuna en una secció: la Secció 2.1 descriu mètodes basats en alineaments de mots, mentre que la Secció 2.2 descriu mètodes basats en l'ús de FIB externes. Els mètodes descrits en la Secció 2.1 utilitzen alineaments entre els mots en S i T per projectar la informació sobre els mots en S que concorden amb S' sobre els mots en T, a fi de proporcionar una EQ de cada mot. Aquesta secció conté dos articles reimpresos: • Esplà, M., Sánchez-Martínez, F. i Forcada, M.L. 2011. Using word alignments to assist computer-aided translation users by marking which target-side words to change or keep unedited. En Proceedings of the 15th Annual Conference of the European Association for Machine Translation, p. 81–89, 30–31 de maig de 2011, Lovaina, Bèlgica. [Article reimprés 2.1.1] • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2012. A simple approach to use bilingual information sources for word alignment. En Procesamiento del Lenguaje Natural, 49, p. 93–100. [Article reimprés 2.1.2] L’article reimprés 2.1.1 descriu les tècniques desenvolupades per a l'EQ de cada mot basades en models estadístics d'alineament de mots (Och i Ney, 2003). Hom podria pensar que els models estadístics d'alineament de mots no poden ser considerats FIB segons la definició inclosa al principi d'aquest capítol. Tanmateix, aquesta és la tècnica més comunament usada per relacionar els mots entre dos segments en llengües diferents, un pas necessari per a estimar la qualitat de la traducció per a TAO basada en MT, tal com l'hem definida. Així doncs, l'article reimprés 2.1.1 té per objectiu confirmar la següent hipòtesi de treball: - Hipòtesi #1: és possible utilitzar alineaments de mots per a estimar la qualitat de la traducció per a TAO basada MT. El treball desenvolupat amb models estadístics d'alineament de mots va posar els fonaments per a les etapes de recerca següents en les quals es van usar FIB. Els experiments descrits en l'article reimprés 2.1.1, en què s’avaluen diverses tasques de traducció entre l'anglés i l'espanyol, van proporcionar resultats prometedors i van mostrar que era possible estimar la qualitat de la traducció en eines TAO basades en MT amb una precisió i cobertura altes mitjançant models estadístics d'alineament de mots. L’article reimprés 2.1.2 cerca una via per a convertir el mètode definit en l'article reimprés 2.1.1 en un mètode basat en l'ús de FIB externes. Per a fer-ho, proposa un nou mètode heurístic capaç d'alinear mots al vol fent servir FIB i que, per tant, elimina la dependència respecte dels models estadístics d'alineament de mots. Així doncs, la hipòtesi de treball que inspira aquest treball és: - Hipòtesi #2: és possible obtenir alineaments entre mots mitjançant l'ús de FIB. El treball descrit en l'article reimprés 2.1.2 és ampliat a l'Apèndix A, on, a més, s’hi descriu un nou mètode més general que utilitza un model de màxima versemblança. Tant el mètode heurístic com el basat en el model de màxima versemblança són comparats amb l'eina més comunament usada per a l'alineament estadístic de mots: GIZA++ (Och i Ney, 2003). Els resultats obtinguts confirmen que els mètodes basats en FIB són capaços d'alinear mots amb una precisió comparable a l'obtinguda per GIZA++, tot i que, en general, la cobertura és més baixa. Els mètodes basats en FIB sols tenen una cobertura millor que GIZA++ quan els models estadístics d'alineament de mots són entrenats sobre un corpus paral·lel menut (al voltant de 10.000 parells de segments o menys). Tot i que els resultats obtinguts amb alineament de mots basat en FIB no són tan acurats com s’esperava, aquest treball obri la porta a l'etapa següent de la recerca: l'EQ utilitzant FIB directament, la qual es descriu a la Secció 2.2 i conté una sola publicació: • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. Using machine translation to provide target-language edit hints in computer-aided translation based on translation memories. En Journal of Artificial Intelligence Research, volum 53, p. 169–222. [Article reimprés 2.2.1] L’article reimprés 2.2.1 descriu dos mètodes diferents que fan servir FIB directament per a l'EQ de cada mot: un d'heurístic, i un que utilitza un classificador binari basat en aprenentatge automàtic. L’objectiu principal de la recerca descrita en aquest article és confirmar la següent hipòtesi de treball: - Hipòtesi #3: és possible utilitzar FIB directament per a estimar la qualitat en cada mot de la traducció en TAO basada en MT. Els mètodes descrits a l'article reimprés 2.2.1 es comparen amb els mètodes basats en models estadístics d'alineament de mots proposats en l'article reimprés 2.1.1, per a cinc parells de llengües diferents: anglés–espanyol, anglés–francés, anglés–alemany, anglés–finés, i espanyol–francés. El marc d'avaluació proposat en aquest article és més fiable per als diferents mètodes descrits al Capítol 2, ja que aquests mètodes s’avaluen per a la traducció entre llengües molt properes (com ara l'espanyol i el francés, que són llengües romàniques, o l'anglés i l'alemany, que són llengües germàniques), entre llengües de la mateixa família, tot i no ser tan properes (l'anglés, l'espanyol, l'alemany i el francés són totes llengües indoeuropees, però les diferències entre les llengües germàniques i romàniques són substancials), i, fins i tot, entre llengües que no tenen cap relació entre elles (el finés és una llengua uràlica, i, per tant, no està relacionada de cap forma amb cap de les altres quatre llengües, que són indoeuropees). Els experiments descrits en aquest article confirmen que els resultats obtinguts amb els mètodes basats directament en FIB són en general millors que els obtinguts pels mètodes basats en models estadístics d'alineament de mots, especialment quan aquests han de traduir textos de dominis diferents als dels textos que s’han utilitzat per a entrenar els models d'alineament. *** Ús de fonts d'informació bilingüe per a l'estimació de la qualitat de la traducció per a traducció automàtica *** La segona tecnologia de la traducció en què aquesta tesi doctoral se centra és la TA. Trobem a la bibliografia diverses tècniques que aborden el problema de l'EQ en TA; la majoria, basades en aprenentatge automàtic. Aquestes tècniques basades en aprenentatge automàtic extrauen característiques de les traduccions mitjançant les quals és possible discernir quins mots són adequats i quins no ho són i, per tant, necessiten ser posteditats. Aquestes característiques es divideixen, principalment, en dues classes: les que necessiten accedir a les dades internes del sistema de TA que ha produït la traducció i les que són independents del sistema de TA (Quirk, 2004; Blatz et al., 2004; Specia et al., 2010). Tanmateix, fins a on sabem, totes les col·leccions de característiques disponibles a la bibliografia depenen d'una font d'informació específica, com ara models de llengua, lexicons bilingües, models de reordenament de mots, etc.; en altres paraules, cap d'aquestes col·leccions usa FIB d'una manera agnòstica. Per tant, l'objectiu d'aquest bloc de recerca és desenvolupar mètodes que, basant-se en els descrits al Capítol 2, siguen capaços d'estimar la qualitat de les traduccions produïdes per un sistema de TA utilitzant qualsevol FIB disponible. Arribats a aquest punt, és important analitzar les diferències entre els problemes de l'EQ per a TA i per a TAO basada en MT: mentre en la TAO basada en MT el problema consisteix a detectar quins mots en una traducció adequada de S no són part de la traducció del nou segment S' , en TA s’hi treballa sobre una traducció automàtica de S' , la qual pot ser adequada o no. Per tant, tot i que l'objectiu és aprofitar els conceptes principals del mètode basat en FIB que s’ha desenvolupat per a l'EQ en TAO basada en MT, cal definir un mètode substancialment diferent per al cas de la TA. Així, el Capítol 3 descriu un nou mètode basat en FIB que aborda el problema de l'EQ de cada mot per a TA amb un enfocament de classificació binària. Aquest mètode aplica la mateixa tècnica d'aprenentatge automàtic descrita en la Secció 2.2, però utilitzant noves característiques de les traduccions T, per marcar-ne els mots com a “bons” (no cal posteditar-los) o “roïns” (cal eliminar-los o substituir-los). En el cas de l'EQ per a TA, s’han definit dues famílies de característiques: una amb característiques positives, que proporcionen informació a favor que el mot siga marcat com a bo, i una altra amb característiques negatives, que indiquen que el mot podria haver de ser eliminat o substituït. El Capítol 3 conté dues publicacions: • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. Using on-line available sources of bilingual information for word-level machine translation quality estimation. En Proceedings of the 18th Annual Conference of the European Association for Machine Translation, p. 19–26, Antalya, Turquia, 11–13 de maig de 2015. [Article reimprés 3.1] • Esplà-Gomis, M., Sánchez-Martínez, F. i Forcada, M.L. 2015. UAlacant wordlevel machine translation quality estimation system at WMT 2015. En Proceedings of the 10th Workshop on Statistical Machine Translation, p. 309–315, Lisboa, Portugal, 17–18 de setembre de 2015. [Article reimprés 3.2] Aquestes dues publicacions tenen com a objectiu confirmar la hipòtesi de treball següent: - Hipòtesi #4: és possible adaptar les tècniques d'EQ desenvolupades per a TAO basada en MT al cas de la TA. L’article reimprés 3.1 descriu el mètode basat en classificació binària proposat, així com les col·leccions de característiques que fa servir el classificador binari automàtic. A més, l'article conté una col·lecció d'experiments que serveixen per a avaluar el mètode proposat utilitzant les dades d'avaluació proporcionades pels organitzadors de la tasca compartida d'EQ de cada mot per a TA en l'edició de 2014 del Workshop on Statistical Machine Translation (Bojar et al., 2014). La tasca compartida d'EQ de cada mot del Workshop on Statistical Machine Translation porta organitzant-se des de fa tres anys, i és un torneig en què s’avaluen sistemes d'EQ de cada mot desenvolupats pels concursants sobre unes dades d'avaluació comunes. Els organitzadors de la tasca proporcionen una col·lecció de segments en LO i les corresponents traduccions obtingudes amb un sistema de TA. Tres conjunts de dades són proporcionats: un d'entrenament, un de desenvolupament, i un de prova. Per als dos primers conjunts, els mots de les traduccions estan etiquetats com a “bons” i “roïns” (tot i que alguns anys també s’han proporcionat conjunts d'etiquetes amb un gra més fi per als diferents tipus d'errors de traducció), mentre que els participants han d'etiquetar els mots de les traduccions del conjunt de prova. L’ús d'un conjunt de dades comú proporciona un marc d'avaluació adequat per a comparar els sistemes desenvolupats per a la tasca, tal com ho són els que es descriuen en aquesta tesi doctoral. Les dades usades en l'avaluació per a la tasca en 2014 eren disponibles per a dos parells d'idiomes: anglés–espanyol i anglés–alemany, en totes dues direccions de traducció. Tal com s’explica al Capítol 3, tot i les diferències entre les llengües, els resultats obtinguts no sols confirmen la viabilitat del mètode proposat, sinó que, a més, els sistemes desenvolupats en aquesta tesi demostren una gran eficàcia, comparable a la dels sistemes que van obtenir els millors resultats en aquesta edició de la tasca compartida. L’article reimprés 3.2 descriu l'aplicació del mètode proposat en aquesta tesi a l'edició de 2015 de la tasca compartida d'EQ de cada mot per a TA (Bojar et al., 2015). En aquesta edició, les dades d'avaluació van ser proporcionades només per a la traducció de l'espanyol a l'anglés. A més, aquest any l'organització va proporcionar un conjunt de característiques bàsiques com a punt de partida per als sistemes desenvolupats. La combinació de les característiques definides a l'article reimprés 3.1 i les característiques bàsiques proporcionades per l'organització de la tasca van permetre al nostre sistema obtenir els millors resultats (Bojar et al., 2015) entre tots els participants de la tasca de 2015. *** Construcció de noves fonts d'informació bilingüe per a parells de llengües amb pocs recursos *** Un dels pilars principals d'aquesta tesi doctoral és la disponibilitat de FIB. De fet, tal com s’explica al principi d'aquesta introducció, un dels objectius de la recerca duta a terme és aprofitar la gran quantitat de FIB que són disponibles per al seu ús. Tanmateix, tal com podríeu haver pensat, aquesta suposició no és vàlida per a tots els parells de llengües. L’estudi de Rehm i Uszkoreit (2013), que té per objectiu analitzar les tecnologies lingüístiques disponibles per a 30 llengües europees (23 d'elles oficials a la Unió Europea), aporta dades que donen suport a aquesta idea. Una de les conclusions d'aquest informe és que “moltes llengües manquen fins i tot de les tecnologies bàsiques per a l'anàlisi de textos i de recursos lingüístics essencials”. Per mitigar la mancança de FIB per a alguns parells de llengües, part d'aquesta tesi doctoral s’ha centrat en desenvolupar un mètode per a crear noves FIB mitjançant l'ús de l'eina Bitextor (Esplà-Gomis i Forcada, 2010) (versió 4.1) per a la recol·lecció de textos paral·lels a partir de llocs webs multilingües. Aquesta eina descarrega llocs web multilingües i n’alinea els documents mitjançant: (i) l'ús de lexicons bilingües que permeten la comparació del contingut dels documents amb un mètode basat en el de Sánchez-Martínez i Carrasco (2011), i (ii) la comparació de l'estructura HTML dels documents (Resnik i Smith, 2003). A més, Bitextor és capaç d'alinear els documents per segments mitjançant l'eina Hunalign (Varga et al., 2005). Aquests corpus paral·lels alineats per segments poden ser fàcilment utilitzats per a construir noves FIB, com ara lexicons bilingües, taules de subsegments, o sistemes de TA estadística, que es poden usar amb les tècniques d'EQ de cada mot descrites als Capítols 2 i 3. El Capítol 4 descriu la recerca duta a terme sobre la creació de noves FIB, i conté dues publicacions: • Esplà-Gomis, M., Klubička, F., Ljubešić, N., Ortiz-Rojas, S., Papavassiliou, S. i Prokopidis, P. 2014. Comparing two acquisition systems for automatically building an English–Croatian parallel corpus from multilingual websites. En Proceedings of the 9th International Conference on Language Resources and Evaluation, p. 1252–1258, Reykjavík, Islàndia, 26–31 de maig de 2014. [Article reimprés 4.1] • Toral, A., Rubino, R., Esplà-Gomis, M., Pirinen, T., Way, A. i Ramírez-Sánchez, G. 2014. Extrinsic evaluation of web-crawlers in machine translation: a case study on Croatian–English for the tourism domain. En Proceedings of the 17th Annual Conference of the European Association for Machine Translation, p. 221–224, Dubrovnik, Croàcia, 16–18 de juny de 2014. [Article reimprés 4.2] Tal com s’indica al prefaci d'aquesta tesi doctoral, la major part de la recerca descrita en aquest capítol s’ha desenvolupat en el marc del projecte Abu-MaTran, finançat per la Unió Europea, el qual se centra en les llengües eslaves del sud, parant una especial atenció al croat. Per aquest motiu, tots dos articles se centren en la creació de FIB per al parell de llengües anglés–croat. La recerca que s’hi descriu té com a objectiu confirmar la hipòtesi de treball següent: - Hipòtesi #5: és possible crear noves FIB per a l'EQ de cada mot per a parells de llengües sense cap FIB disponible utilitzar Bitextor per a recol·lectar corpus paral·lels. L’article reimprés 4.1 descriu l'avaluació intrínseca del corpus paral·lel anglés–croat recol·lectat a partir de 21 llocs web amb Bitextor i un altre sistema actual per a la recol·lecció de textos paral·lels: l'ILSP Focused Crawler (Papavassiliou et al., 2013). L’article descriu els resultats obtinguts per totes dues eines, en termes de quantitat de text paral·lel obtingut i qualitat del corpus construït, i els compara mitjançant l'avaluació manual d'una fracció aleatòria dels corpus. Els resultats prometedors que es van obtenir en aquests experiments, especialment pel que fa a la qualitat dels corpus, van motivar la recerca descrita a l'article reimprés 4.2, on s’avaluen aquests corpus extrínsecament. Per a fer-ho, tots dos corpus van ser utilitzats per a entrenar un sistema de TA estadística basat en sintagmes (Koehn et al., 2003), que va ser avaluat en una tasca de traducció entre l'anglés i el croat. Els resultats d'aquest article confirmen la utilitat de les dades recol·lectades per a la creació d'un sistema de TA estadística plenament funcional. Tot i els bons resultats descrits als articles reimpresos 4.1 i 4.2, en el moment de publicar aquesta memòria encara no s’havia publicat una avaluació de l'impacte de FIB creades amb Bitextor per a l'EQ. Per aquest motiu, l'Apèndix B informa sobre els resultats dels experiments addicionals duts a terme en aquest sentit, l'objectiu dels quals és confirmar la darrera hipòtesi de treball d'aquesta tesi doctoral: - Hipòtesi #6: els resultats obtinguts per a l'EQ de cada mot per a parells de llengües amb pocs recursos poden ser millorats mitjançant l'ús de noves FIB obtingudes a través de la recol·lecció de corpus paral·lels. Els nous experiments duts a terme recuperen alguns dels experiments descrits a la Secció 2.2 i se centren en el parell de llengües amb menys recursos d'aquells descrits en la Secció 6 de l'article reimprés 2.2.1: l'anglés–finés. Els experiments originals mostraven que, a causa de la cobertura relativament reduïda de les FIB disponibles per a aquest parell de llengües, la qualitat d'una part important de els mots al conjunt de prova (més del 10%) no havia pogut ser estimada. La baixa cobertura de FIB feia que no es poguera projectar la informació sobre els mots de S que concordaven amb S' sobre T. Els experiments descrits a l'Apèndix B.2 demostren que la quantitat de mots per als quals no es pot estimar la qualitat cau dramàticament quan s’utilitzen les FIB obtingudes amb Bitextor. *** Discussió *** En conclusió, en aquesta tesi doctoral s’han descrit un seguit de mètodes que permeten l'EQ de cada mot per a dues tecnologies, la TAO basada en MT i la TA, fent servir FIB. L’objectiu principal d'aquests mètodes és el d'aprofitar les FIB que són disponibles, per exemple a Internet, i donar-los un nou ús en l'àmbit de la traducció. En aquesta tesi es descriuen, per primera vegada, mètodes que permeten l'EQ de cada mot per a TAO basada en MT. La rellevància d'aquesta tasca ha estat avaluada mitjançant la realització d'experiments amb traductors professionals, i s’ha demostrat que l'EQ de cada mot en TAO pot permetre estalviar fins al 14% del temps invertit en una tasca de traducció. Els mètodes desenvolupats han estat avaluats en múltiples tasques de traducció amb diferents condicions, com ara les llengües a traduir, el domini dels textos o les FIB utilitzades. En tots els casos, la viabilitat dels mètodes ha estat demostrada. Els mètodes per a l'EQ de cada mot en TAO basada en MT han estat, posteriorment, ampliats a una segona tecnologia de la traducció: la TA. En el cas d'aquesta tecnologia, la bibliografia conté nombrosos treballs sobre EQ. Tanmateix, la idea d'usar FIB com a font d'informació és nova, ja que la resta de mètodes desenvolupats depenen de fonts d'informació específiques. Més enllà de l'originalitat en l'ús de FIB per a l'EQ, l'avaluació mitjançant les dades de les tasques compartides en EQ de cada mot per a TA en les edicions de 2014 i 2015 del Workshop on Statistical Machine Translation ha demostrat que els resultats obtinguts pels mètodes desenvolupats en aquesta tesi doctoral són comparables als sistemes més reeixits en aquesta tasca. Podem concloure, per tant, que l'ús de FIB no només permet reaprofitar recursos ja disponibles per a l'EQ, sinó que, a més, permet assolir les màximes quotes d'eficàcia en aquesta tasca. Finalment, i com a complement de la recerca desenvolupada en el camp de l'EQ, cal destacar els resultats obtinguts pel que fa a la creació de noves FIB per al seu ús en EQ. La darrera part d'aquesta tesi doctoral s’ha enfocat a l'estudi de l'impacte que les FIB obtingudes automàticament mitjançant la recol·lecció de dades paral·leles a partir d'Internet poden tenir en aquesta tasca. Així, d'una banda, s’ha estudiat l'ús de l'eina Bitextor en la creació de FIB per a un parell de llengües amb pocs recursos: anglés–croat. Aquesta recerca ha demostrat una gran eficiència de l'eina a l'hora de crear corpus paral·lels, tant pel que fa a la quantitat de dades obtingudes, com a la qualitat d'aquestes. També s’ha estudiat l'ús dels corpus paral·lels recol·lectats per a la creació de sistemes de traducció automàtica, amb resultats molt positius. Finalment, l'ús de les FIB obtingudes amb Bitextor ha estat avaluat per al cas de l'EQ de cada mot per a la TAO basada en MT. Els experiments duts a terme han confirmat que l'ús de noves FIB creades expressament per a aquesta tasca en millora el rendiment dramàticament, especialment quan es tracta de llengües amb pocs recursos. Un dels elements clau d'aquesta tesi doctoral és que defineix, per primera vegada, una estratègia per a l'EQ que utilitza les mateixes fonts d'informació tant per a la TAO basada en MT com per a la TA. Açò significa que aquestes estratègies podrien ser integrades en un sistema de TAO que implemente totes dues tecnologies de traducció per a estimar la qualitat dels suggeriments de traducció provinents d'ambdues fonts en paral·lel i mitjançant les mateixes FIB. Així, els traductors podrien gaudir del suport d'aquestes tècniques sense haver de crear models específics per a cadascuna d'elles. Fins i tot seria possible integrar l'eina Bitextor en aquest entorn de TAO per proporcionar suport a aquells parells de llengües per als quals l'usuari no disposara de FIB, permetent la màxima disponibilitat de l'EQ dins d'aquest entorn.