Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2010-2011 > M. Amparo Alcina Caudet. Historia, precedentes
El español en el mundo

Los traductores automáticos en la red

María Amparo Alcina Caudet

2. Historia, precedentes

El inicio de la traducción automática se sitúa en 1954, cuando se hicieron las primeras pruebas de un prototipo que traducía algunas frases entre ruso e inglés. El éxito del experimento despertó muchas esperanzas y en los años siguientes se desarrollaron numerosos proyectos de investigación para conseguir la deseada traducción automática de alta calidad. En 1966 el informe ALPAC mostraba que, dados los resultados obtenidos hasta la fecha, aún faltaba un largo camino hasta conseguir sistemas de traducción automática verdaderamente útiles. Las conclusiones mostradas en el informe supusieron un freno a la investigación sobre traducción automática en los años siguientes. Sin embargo, se continuó investigando y desarrollando programas con objetivos más modestos en el ámbito del procesamiento del lenguaje natural. En los años siguientes, sin embargo, se fueron consiguiendo algunos resultados alentadores. Por ejemplo, en Canadá se puso en marcha el sistema Météo, desarrollado en la Universidad de Montreal para traducir boletines meteorológicos entre francés e inglés. Y en Europa, la Comisión Europea adoptó el sistema SYSTRAN para realizar las traducciones de documentos en su servicio de traducción. Al mismo tiempo, se inició el proyecto de investigación europeo EUROTRA.

A lo largo de este periodo, desde 1954 hasta la actualidad, la investigación en traducción automática y herramientas lingüísticas ha generado distintos tipos de sistemas y metodologías. Empezando por la más sencilla, la traducción directa, que consiste en poco más que sustituir las palabras del texto origen por sus equivalentes en la lengua meta utilizando un glosario y en ocasiones un análisis morfológico. A ello, se añaden algunas reglas para reorganizar los elementos de las frases. Algunos programas muy sencillos de traducción automática utilizan esta estrategia directa aún hoy en día. Ofrecen resultados de muy pobre calidad y resulta más apropiado para lenguas muy próximas tipológicamente. En el desarrollo de este tipo de sistemas participaron ingenieros y matemáticos. En su diseño no se tuvieron en cuenta aspectos de teoría de la traducción y muy poco de teoría lingüística. Pertenecen a esta categoría programas como Météo y el antiguo diseño de Systran.

Más adelante se comienzan a desarrollar estrategias basadas en reglas lingüísticas, que incorporan reglas de tipo morfológico, sintáctico y semántico en el análisis del texto origen. Las distintas fases del análisis y la generación del texto se gestionan en distintos módulos del programa y por ello, en contraste con la estrategia directa, se les denominaba estrategia indirecta. Se distinguen tradicionalmente dos tipos de programa de estrategia directa: transferencia e interlingua.

En la estrategia interlingua, el texto origen se convierte a una representación abstracta, independiente de cualquier lengua, que contiene el significado esencial de la frase. A partir de esta representación abstracta, y con la aplicación de reglas gramaticales y diccionarios de la lengua meta, se genera la frase en la lengua meta. Cada módulo de análisis y generación es independiente, de manera que se pueden añadir módulos de distintas lenguas tanto para el análisis como para la generación. Pertenecen a esta categoría el sistema KANT, desarrollado por The Carnegie Mellon University, y el sistema actual KANTOO, Mikrokosmos (New Mexico State University), Pivot (NEC) y HICATS (Hitachi). Estos sistemas se enfrentan con la gran dificultad de encontrar una forma de representación lingüística que sea verdaderamente abstracta y neutra, y no esté de algún modo basada en alguna lengua o tipo de lengua específico. Su gran ventaja será su gran modularidad y el hecho de que, una vez diseñado el módulo de análisis de cualquier nueva lengua, esta podría ser traducida a cualquiera de las lenguas en las que ya esté disponible el módulo de generación.

En la estrategia de transferencia, el texto origen se analiza y se crea una representación abstracta de ese texto. El módulo de transferencia convierte esa representación abstracta del texto origen en una representación abstracta del texto meta. En esta estrategia, por tanto, la representación intermedia que se produce de los dos textos no es independiente de las lenguas, como ocurría en la estrategia interlingua. A diferencia de la estrategia interlingua, será necesario desarrollar módulos de representaciones intermedias para cada pareja de lenguas. La ventaja es que este desarrollo será más sencillo que cuando se busca una representación totalmente independiente de las lenguas. Esta estrategia está basada en cierto modo en la teoría lingüística contrastiva. Algunos sistemas que utilizan esta estrategia son Arianne (GETA), SUSY (Universidad de Saarbrücken), METAL (Universidad de Texas en Austin), Atlas-I (Fujitsu) y Duet (Sharp).

Tanto la estrategia directa como las indirectas de transferencia e interlingua son estrategias basadas en reglas lingüísticas, es decir, pretenden llevar a cabo la traducción a través de la descripción de las características del lenguaje y su funcionamiento. Los sistemas basados en interlingua no han pasado de ser prototipos, mientras que los sistemas basados en transferencia son los que por tener un enfoque más sencillo pudieron convertirse en sistemas comerciales hacia finales de la década de 1980.

A principios de la década de los noventa comienzan a desarrollarse estrategias basadas en corpus. Estos sistemas basados en corpus utilizan la información que encuentran en traducciones que han sido realizadas con anterioridad. Las frases de los textos en la lengua origen son alineadas con las frases traducidas. Este conjunto de frases, el corpus, es utilizado por el sistema para producir nuevas traducciones a partir de la comparación entre los nuevos textos que debe traducir y los textos que aparecen en el corpus. Se utilizan dos tipos de estrategias basadas en corpus: estrategia estadística y estrategia de ejemplos. Ambas procuran evitar la complejidad que conllevan los métodos basados en reglas lingüísticas.

La estrategia estadística se basa en la premisa de que la traducción se puede modelar con un proceso estadístico. La idea es que se puede combinar el conocimiento que tenemos de hechos anteriores y a partir de ahí inferir la probabilidad de que ocurra un hecho en el futuro. Así, una oración en lengua origen puede tener un gran número de traducciones, y cada una de estas traducciones tiene una determinada probabilidad de ser correcta. Aplicando el teorema de Bayes se calcula la probabilidad de los distintos resultados (traducciones) y se escoge el de probabilidad más alta. El proceso consiste en segmentar el texto origen en cadenas de palabras y frases, a continuación se comparan con los textos del corpus, y finalmente se obtienen nuevos segmentos en la lengua meta utilizando el corpus alineado. En la comparación y en el cálculo de resultados se miden distintos parámetros que se establecen en el modelo de traducción o modelo de lengua, como la distorsión, la información contextual o gramatical, entre otros. Un sistema que emplea esta estrategia estadística es Candide (IBM).

La estrategia de traducción automática basada en ejemplos también se ha denominado basada en analogía, basada en memoria, en patrones, en casos o en similitud. Esta estrategia surge hacia mediados de la década de 1980 y comparte rasgos ente los sistemas basados en reglas y estadísticos. Al igual que en la estrategia estadística, la estrategia basada en ejemplos requiere un corpus de textos bilingüe alineado. El proceso consiste en 1) buscar coincidencias entre los segmentos del texto origen que se desea traducir y los segmentos que aparecen en el corpus; 2) extraer los segmentos de traducción alineados con los segmentos coincidentes en el corpus; y 3) recombinar las coincidencias para generar un texto meta.

Las estrategias basadas en corpus presentan algunos inconvenientes. Puede ocurrir que no existan en el corpus coincidencias con los segmentos del texto origen. Añadir nuevos ejemplos puede mejorar o perjudicar la eficiencia del sistema. Por otra parte, la existencia de demasiadas repeticiones de ejemplos similares también puede desequilibrar los cálculos que se realizan. El tamaño del corpus puede ser demasiado pequeño o demasiado grande según el objetivo que se pretenda.

La investigación y desarrollo de los últimos años tiende a utilizar sistemas híbridos, que incorporan las ventajas de los sistemas basados en reglas y los sistemas basados en corpus, equilibrando los inconvenientes de unos y otros. Hay ejemplos de sistemas que vienen a unificar un sistema basado en reglas como CAT2 con un sistema basado en ejemplos como Edgar, o un sistema basado en ejemplos con una estrategia interlingua, como Pangloss Mark II.

También se han generado expectativas en la incorporación de traductores humanos en el proceso. Los sistemas de traducción automática se diseñan con interfaces para que el traductor pueda intervenir en el proceso, y se integran dentro de la estación de trabajo del traductor. Ejemplos de estos sistemas son LING-STAT, TransType2, WebDIPLOMAT y DBMT.

Hasta finales de la década de 1980, los progresos en traducción automática y las posibilidades de aplicación han sido muy limitadas. Con la aparición de Internet, aumentan considerablemente las oportunidades y necesidades de traducción, y la traducción automática también salta a la Red y al gran público. La historia de la traducción automática en red dio un gran paso en 1997 con la aparición de Babel Fish, un servicio de traducción automática que ofrece traducciones en Internet de forma gratuita al gran público. Este proyecto fue desarrollado por Systran, que poseía la tecnología de la traducción automática, y AltaVista, que poseía uno de los motores de búsqueda de mayor éxito. Systran ya había ofrecido su programa de traducción automática en red a los clientes de Minitel, en Francia, desde finales de la década de los ochenta. Este sistema ofrecía los pares de lenguas francés-inglés, inglés-francés y alemán-inglés. El servicio se proporcionaba a 4,5 millones de usuarios de Minitel. Más tarde, desde 1996, Systran también empezó a ofrecer el servicio de traducción automática en línea desde su propia página web.

Para este gran paso fue de gran interés toda la investigación y experiencia generada anteriormente por el grupo CompuServe, que prestó los servicios de traducción a más de dos millones de usuarios a través de la Red para usuarios registrados desde 1992. CompuServe ofrecía el servicio de traducción de bajo coste, aunque también de baja calidad, utilizando el programa Transcend. Por ejemplo, se traducían los mensajes enviados a foros y se mostraban en versiones paralelas en inglés y alemán. Durante el primer mes se tradujeron más de 900.000 palabras a una velocidad de 3.000 palabras por minuto. La oferta de este servicio de traducción automática a un público amplio permitió tener un banco de pruebas para testar tanto la utilidad del sistema como las necesidades de los usuarios. Así se vio que los usuarios mostraron su rechazo a estos sistemas de formas variadas. Por ejemplo, cerca de un 25% de usuarios abandonaron el uso del servicio, y por otra parte CompuServe recibió numerosas quejas y críticas, además de currículos de traductores profesionales que ofrecían sus servicios. CompuServe pudo descubrir así cuál era su mercado: un mercado para el cual era más importante obtener una traducción rápida que una traducción de alta calidad. No obstante, para una parte del público seguía siendo importante la calidad, por lo que ofrecieron también un servicio opcional de «post-edición», con un sobrecoste elevado en relación con la simple traducción ofrecida automáticamente. Solo el 15% de los clientes pagaron para obtener una post-edición profesional de sus documentos, mientras que el 85% de los clientes siguieron utilizando la traducción cruda (texto que resulta directamente del proceso de aplicar la traducción automática, sin ninguna post-edición). Atendiendo al número de palabras, el volumen de traducción para el que se pidió post-edición era del 40%, mientras que para el 60% del volumen de traducción se aceptaba la traducción cruda.

Después de Babel Fish, han ido surgiendo numerosos sistemas de traducción automática que ofrecen sus servicios en red de forma gratuita. El uso de estos servicios, por otra parte, no está restringido al uso particular, sino que también los empleados de empresas han hecho uso de estos sistemas para comprender documentos o producir documentos. Esto es visto por las empresas como un riesgo para su confidencialidad. Por ello, cada vez más las empresas optan por adquirir software de traducción automática e instalar sus propios servicios de traducción en su propia red local. Esto permite además poder personalizar su sistema mediante la incorporación de sus propios glosarios y la incorporación de sus propias memorias de traducción, lo que conlleva por una parte una mejora sustancial de la calidad de sus traducciones pero también una inversión económica inicial para llevar a cabo la personalización. El desarrollo de esta personalización del entorno da como resultado la obtención de traducciones con una calidad suficiente que puede hacer innecesaria la post-edición y ser utilizada para publicación.

flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es