Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2010-2011 > M. Amparo Alcina Caudet. La traducción automática hoy...
El español en el mundo

Los traductores automáticos en la red

María Amparo Alcina Caudet

5. La traducción automática hoy ¿dónde estamos en este momento?, ¿qué se está investigado en este campo y quién, universidades, etc.?, ¿qué tipo de tecnologías subyacentes?

La investigación en traducción automática es muy activa a nivel internacional tanto por el número de grupos que se dedican a este tema como por la actividad en cuanto a congresos, talleres y asociaciones específicas sobre este tema. La Unión Europea mantiene un sistema de financiación de nuevos proyectos relacionados con las tecnologías del lenguaje y en particular con la traducción automática que ha permitido que universidades y empresas compartan sus conocimientos y combinen sus intereses académicos y comerciales para desarrollar y comercializar nuevos productos de traducción automática.

En este apartado presentamos algunas de las asociaciones más destacadas en este ámbito, los grupos de investigación más activos en este campo y finalmente una breve descripción de los últimos proyectos financiados por la Unión Europea en los que participan grupos españoles.

5.1 Asociaciones, congresos y publicaciones sobre traducción automática

La asociación internacional de traducción automática International Association for Machine Translation (IAMT), fundada en 1991, agrupa tres asociaciones que cubren los ámbitos de los continentes europeo, asiático y americano.

  • European Association for Machine Translation (EAMT)
  • Asia-Pacific Association for Machine Translation (AAMT)
  • Association for Machine Translation in the Americas (AMTA)

La IAMT patrocina la elaboración del «Compendium de software de traducción», una relación de programas y recursos de traducción organizado por tipos de programas y proveedores. También organiza un congreso bianual sobre traducción automática: la «MT Summit», que reúne a las tres asociaciones filiales. Mantiene y ofrece en Internet un archivo o repositorio electrónico y una amplia bibliografía de artículos, libros y comunicaciones sobre traducción automática y programas informáticos relacionados (http://www.mt-archive.info). Además de estas actividades, cada una de las asociaciones filiales organiza actividades propias.

5.1.1 European Association for Machine Translation (EAMT)

La Asociación Europea de Traducción Automática (http://www.eamt.org/) está formada por personas interesadas en traducción automática y programas informáticos para traducción, e incluye usuarios, desarrolladores e investigadores. Organiza un congreso cada año en el ámbito europeo, y cada dos años un congreso conjunto con la IAMT. Mantiene una lista de distribución de correo (mt-list@eamt.org) para la discusión de temas sobre tecnologías de la traducción. En su página web ofrece información sobre grupos y proyectos de investigación, y sobre los eventos relacionados con la traducción automática. Ofrece a sus miembros gratuitamente un compendio de programas informáticos de traducción, elaborado por John Hutchins que se actualiza anualmente.

5.1.2 Asia-Pacific Association for Machine Translation (AAMT)

La Asociación Asiática de Traducción Automática (http://www.aamt.info/) fue fundada en 1991 y está formada por investigadores, desarrolladores y usuarios de esta materia de su ámbito geográfico. Mantiene una revista que distribuye entre sus miembros con información sobre eventos, informes y noticias.

5.1.3 Association for Machine Translation in the Americas (AMTA)

Al igual que las asociaciones europea y asiática, esta asociación (http://www.amtaweb.org/) reúne a investigadores, estudiantes, desarrolladores, usuarios y patrocinadores de traducción automática. En su página web informa sobre las actividades principales y eventos organizados en relación con los temas de la asociación. También mantiene una página de ofertas laborales.

5.2 Grupos de investigación

Los grupos de investigación sobre traducción automática son numerosos. En ocasiones, se trata de una línea de investigación más dentro de un grupo de investigación que abarca distintos temas sobre procesamiento del lenguaje natural, en otras ocasiones la traducción automática constituye el eje central de la investigación, por último, muchos desarrollos que se producen en líneas de investigación de procesamiento del lenguaje tienen como resultado productos o recursos con aplicación en traducción automática (corpus, ontologías, bases de datos léxicas, etc.). Debido a la gran expansión de grupos y líneas de investigación relacionadas con el procesamiento del lenguaje y la lingüística computacional, resulta muy complicado delimitar los grupos específicamente.

En el panorama del Estado español destacan por su larga trayectoria en investigación o por sus actuales proyectos de investigación sobre traducción automática y resultados obtenidos los grupos IXA (Universidad del País Vasco), PRHLT (Universidad Politécnica de Valencia), Transducens (Universidad de Alicante), TALP (Universidad Politécnica de Cataluña) y Barcelona Media.

5.2.1 Procesamiento del Lenguaje Natural, IXA, de la Universidad del País Vasco

IXA (http://ixa.si.ehu.es/Ixa/) es un grupo de investigación de la Universidad del País Vasco que trabaja en procesamiento del lenguaje natural. Forman parte de este grupo más de cuarenta investigadores, entre los que cuentan con ocho lingüistas. El grupo ha desarrollado proyectos de investigación en distintos ámbitos, y cabe destacar los siguientes en el ámbito de la traducción automática.

Proyectos:

  • OpenMT-2: traducción automática híbrida y evaluación avanzada. Las lenguas de trabajo son español, catalán, vasco e inglés. Se puede acceder a una demo en la dirección http://ixa2.si.ehu.es/openmt-demo/. Proyecto conjunto con el grupo TALP de la Universidad Politécnica de Cataluña.
  • OROIMEN: integración de memorias de traducción en un sistema de ayuda a la traducción híbrido (2009-2010).
  • EurOpenTrad(3): traducción automática avanzada de código abierto para la integración europea de las lenguas del Estado español (2008).
  • EurOpenTrad: traducción automática de código abierto para la integración europea de las lenguas del Estado español (2006-2007).
  • AVIVAVOZ: tecnologías para la traducción de voz: reconocimiento, traducción estadística basada en corpus y síntesis (2006-2009).

5.2.2 Grupo de investigación Pattern Recognition and Human Language Technology (PRHLT), de la Universidad Politécnica de Valencia

El grupo de investigación PRHLT de la Universidad Politécnica de Valencia (http://prhlt.iti.es/), formado por una veintena de investigadores doctores del ámbito de la informática, investiga en diversos ámbitos, siendo uno de ellos la traducción automática tanto de textos como de discurso hablado para dominios restringidos, basado en estadística. El grupo cuenta con una amplia experiencia en reconocimiento automático del habla. El grupo ha desarrollado cerca de catorce proyectos de investigación en el ámbito de la traducción automática.

Proyectos:

  • TRACOM: Traducción y Comprensión del Lenguaje Hablado mediante Técnicas de Aprendizaje a partir de Ejemplos.
  • EUTRANS-I: Example Based Undestanding and Translation Systems.
  • EUTRANS: Example Based Undestanding and Translation Systems.
  • EXTRA: extensiones del sistema de traducción de texto y habla en dominios restringidos aprendible con ejemplos.
  • TAVAL: traductor automático bidireccional entre castellano y valenciano.
  • Spanish-German integrated action.
  • SISHITRA: sistemas híbridos para la traducción valenciano-castellano a partir de voz y texto.
  • AMETRA: ayuda a la traducción basada en memorias de traducción.
  • Spanish-Portuguese integrated action.
  • TeFaTe: inferencia de traductores de estados finitos para la traducción automática y la ayuda a la traducción en tareas específicas.
  • ALMPR: Adaptive Learning in Multimodality and Pattern Recognition.
  • ITRANS2: Interactive Transcription and Translation.
  • Erudito.com.
  • AdInCAT: Development of Statistical Techniques for Adaptive and Interactive Learning in Computer-Assisted Translation.

5.2.3 Transducens, de la Universidad de Alicante

El grupo Transducens de la Universidad de Alicante (http://transducens.dlsi.ua.es) investiga en traducción automática, especialmente en traducción automática entre lenguas emparentadas y lenguas románicas, en el marco de los proyectos interNOSTRUM, Universia, TACALEE, TEFBARNet. Como resultados, ofrece los sistemas de traducción automática interNOSTRUM (http://www.internostrum.com/) y Traductor Universia (http://traductor.universia.net/).

Proyectos:

  • interNOSTRUM: desarrollo de un sistema de traducción automática del castellano al balear, catalán y valenciano (1998-2003).
  • Universia: desarrollo de un sistema de traducción automática en Internet entre el español y el portugués (2002-2004).
  • SISHITRA: sistemas híbridos para la traducción valenciano-castellano a partir de voz y texto (2001-2004).
  • TACALEE: traducción automática de código abierto para las lenguas del Estado español (2004-2005).
  • TEFBARNet: traductores de estados finitos a partir de bitextos alineados procedentes de Internet (2003-2006).

5.2.4 TALP, Centro de Tecnologías y Aplicaciones del Lenguaje y del Habla, de la Universidad Politécnica de Cataluña

Este centro (http://www.talp.cat) cuenta con una línea de investigación específica sobre traducción automática oral y textual. Están desarrollando su propio sistema de traducción estadística del habla, al que incorporan conocimiento lingüístico (morfológico, sintáctico y semántico) para mejorar sus prestaciones. Las lenguas de trabajo son español, catalán e inglés, pero también mandarín y árabe. Todo ello, en el marco de proyectos nacionales y europeos (ALIADO, FAME, LC-STAR y TC-STAR). Actualmente participan en el proyecto europeo MOLTO, que tiene por objetivo desarrollar un conjunto de herramientas para traducir textos entre múltiples lenguas de forma instantánea con alta calidad, basado en interlingua.

Proyectos:

  • OpenMT: traducción automática híbrida y evaluación avanzada (2006-2009). Proyecto conjunto con el grupo IXA mencionado arriba.
  • MOLTO: Multilingual Online Translation, financiado por la Unión Europea.
  • FAUST: Feedback Analysis for User Adaptive Statistical Translation (2010-2013), financiado por la Unión Europea.
  • EuroOpenTrad: traducción automática de código abierto para la integración europea de las lenguas del Estado español. Disponible el sistema de traducción en http://www.opentrad.org/.
  • TC-STAR: tecnología y corpus para traducción voz a voz.
  • OpenTrad: traducción automática de código abierto para las lenguas del Estado español.
  • ALIADO: tecnologías del habla y el lenguaje para un asistente personal.
  • LC-STAR: componentes de léxico y corpus para traducción voz a voz.

5.2.5 Otros grupos de investigación en Procesamiento del Lenguaje Natural

En la página web de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) se puede consultar un listado amplio de los grupos de investigación españoles que trabajan en Procesamiento del Lenguaje Natural. La información se halla disponible en la dirección http://www.sepln.org/grupos.php/.

5.3 Proyectos de investigación financiados por la UE

En este apartado mostramos a modo de ejemplo algunos proyectos de investigación sobre traducción automática que han sido financiados por la Unión Europea en la última convocatoria y en los que participan grupos de investigación españoles. Son por tanto, proyectos en los que está asegurada la presencia del español o de algunas de las lenguas cooficiales.

5.3.1 Molto: Multilingual Online Translation

Periodo: 2010-2013

Este proyecto (http://www.molto-project.eu/) tiene como objetivo desarrollar un conjunto de herramientas para la traducción de textos entre múltiples lenguas en tiempo real con alta calidad, utilizando gramáticas multilingües basadas en interlinguas semánticas. Cubrirán la mayoría de las lenguas de la Unión Europea, entre ellas: español, catalán, inglés, francés, alemán, holandés, danés, noruego, sueco, rumano, polaco e italiano. Participan en este proyecto la Universidad de Gothenburg (Suecia), la Universidad de Helsinki (Finlandia), la Universidad Politécnica de Cataluña y Ontotext (Bulgaria).

5.3.2 Faust: Feedback Analysis for User Adaptive Statistical Translation

Periodo: 2010-2013

El objetivo de este proyecto (http://www.faust-fp7.eu/faust/), financiado por la Unión Europea con 3,76 millones de euros, es desarrollar sistemas de traducción en red capaces de incorporar retroalimentación de los usuarios en tiempo real. La idea es desarrollar mecanismos que permitan animar a los usuarios a interactuar con el sistema y recoger esta retroalimentación para mejorar la traducción. Utilizan como punto de partida los sistemas desarrollados por Language Weaver (ahora SDL Language Weaver) y Softissimo-Reverso. Las lenguas en que se desarrolla son español-inglés, español-catalán, checo-inglés, francés-inglés, rumano-inglés. El proyecto lo coordina la Universidad de Cambridge, y en él participan la Universidad Politécnica de Cataluña, la Universidad Karlova V Praze (República Checa), Softissimo y Language Weaver.

flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es