María Amparo Alcina Caudet
En los últimos años se ha desarrollado mucha investigación y reflexión sobre el Procesamiento del Lenguaje Natural en general y sobre la traducción automática en particular. El desarrollo de herramientas como anotadores, programas de alineación de corpus bilingüe, de traducción asistida, y recursos lingüísticos como corpus, memorias de traducción, diccionarios electrónicos, bases de datos léxicas y terminológicas, ontologías, etc. proporciona recursos e ideas para el desarrollo de nuevas vías también para la traducción automática.
La traducción automática estadística está consiguiendo muchos avances y cada vez se está convirtiendo en una estrategia más utilizada en los sistemas de traducción automática, aunque muchas veces en combinación con estrategias basadas en reglas, constituyendo sistemas híbridos.
Para conseguir que los resultados sean de buena calidad, se diseñan y se utilizan distintos tipos de estrategia como la especialización temática y la personalización de los entornos mediante el uso de diccionarios terminológicos. Paulatinamente, la pre-edición y post-edición de textos son estrategias más utilizadas y en ellas se invierte tiempo y dinero porque se sabe que a medio plazo será rentable. En esta línea, se sigue investigando sobre los lenguajes controlados y, por otra parte, se diseñan y desarrollan entornos que faciliten a los usuarios el proceso de post-edición. Así, por ejemplo, la empresa Asia Online ha lanzado recientemente el sistema de traducción automática y post-edición Language Studio, e IBM ha lanzado nFluent, un sistema de traducción automática estadística y post-edición.
En esta misma línea, por ejemplo, como ya se ha expuesto en el apartado 5.3.2, el proyecto europeo Faust (http://www.faust-fp7.eu/) pretende construir un entorno en el que los usuarios puedan modificar las traducciones resultado del proceso de traducción automática y que estas modificaciones retroalimenten el sistema.
La calidad sigue siendo por tanto un objetivo de la traducción automática, y por ello, una de las líneas de trabajo es la evaluación de los sistemas que se desarrollan. Para ello, se diseñan metodologías, técnicas y tests que tienen como objetivo medir la calidad de los resultados de la traducción automática, que se plasma en distintas métricas. Como ejemplo, podemos mencionar el documento J2450 elaborado por la Society for Automotive Engineering para identificar los errores que pueden aparecer en un texto traducido, clasificarlos en una categoría (error léxico, sintáctico, morfológico, puntuación, ortográfico) y asignarles una valoración. Con un método de evaluación, resulta más fácil comparar los resultados de traducción obtenidos con diferentes sistemas.
En los últimos años, el interés por las aplicaciones libres también se ha reflejado en la traducción automática y han emergido sistemas de código abierto. Así tenemos por ejemplo el sistema Moses (http://www.statmt.org/moses/), de la Universidad de Edimburgo y desarrollado gracias a los proyectos europeos Euromatrix (http://www.euromatrix.net/) y Euromatrixplus (http://www.euromatrixplus.net/) También cabe destacar la plataforma Apertium desarrollada por el grupo Transducens, de la Universidad de Alicante, y Prompsit Language Engineering. Además, otros grupos de la Universidad de Vigo y la Universitat Pompeu Fabra contribuyen aportando recursos lingüísticos.
El auge de la traducción automática estadística requiere, por otra parte, de la creación y disponibilidad de corpus alineados, que constituyen los datos a partir de los cuales se pueden obtener otros datos para realizar la traducción. Esto implica la necesidad de disponer de grandes colecciones de corpus. Internet constituye una fuente de datos, pero también las empresas generan grandes cantidades de datos lingüísticos. Por ello, han surgido asociaciones y consorcios que tienen por objetivo compartir entre ellos sus colecciones de datos lingüísticos de forma que puedan incrementar la productividad de sus sistemas. Como ejemplo de ello cabe mencionar la iniciativa de la asociación TAUS (http://www.translationautomation.com/) y TAUS Data Association (http://www.tausdata.org/).
También han surgido diversas redes que tratan de aunar esfuerzos para compartir los datos y recursos lingüísticos. Cabe mencionar proyectos como:
La combinación de la traducción automática y del habla ha visto ya algunos avances y seguirá desarrollándose en los próximos años. Grupos de investigación del ámbito de la traducción automática y del reconocimiento y síntesis de voz han colaborado en proyectos como GALE (financiado por DARPA, Estados Unidos) orientado a la comunicación multilingüe en tiempo real para los militares en zonas desplazadas o TC-STAR: Technology and Corpora for Speech to Speech Translation (financiado por la Unión Europea), especializado en la traducción de conversaciones y discurso hablado en inglés, español y chino. En este proyecto participó, entre otros, la Universidad Politécnica de Cataluña. La información se halla disponible en la dirección http://www.darpa.mil/i2o/programs/gale/gale.asp/.
Por último, otro de los objetivos en el programa de traducción automática es que esta esté presente en cualquier ámbito, servicio o producto. En esta línea, es deseable que la traducción automática esté disponible en los dispositivos móviles de bolsillo. Un desarrollo futuro para estos dispositivos podrá ser la incorporación de reconocimiento óptico de caracteres asociado a la cámara del dispositivo. De este modo, se podrá captar una imagen con texto, convertirla a texto y por último traducir el texto.
Uno de los retos de la traducción automática es fomentar que cada vez sean más los usuarios que confían en la traducción automática, la conocen (con sus ventajas e inconvenientes) y saben usarla. Hacia esta línea se orienta por ejemplo el proyecto europeo itranslate4 (http://itranslate4.eu/), que pretende aumentar la confianza y el uso de la traducción automática y a la vez obtener una evaluación de los resultados. En este proyecto se integrarán diferentes sistemas de traducción automática y se ofrecerá traducción automática gratuita para numerosos pares de lenguas, a la vez que se consigue de los usuarios información sobre la calidad de los resultados.