Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



EMPRESAS E INVESTIGACIÓN DE LA LENGUA ESPAÑOLA

Congreso de Sevilla
 

La tecnología lingüística: de los proyectos de investigación a la comercialización de productos
Luis de Sopeña. IBM. Centro de la tecnología de la Lengua


Lograr una comunicación «natural» entre el hombre y el ordenador es uno de los más importantes retos que tiene planteado el sector informático en esta década. Mientras que las interfaces evolucionan con el objetivo de simplificar al máximo la comunicación con el usuario, y mientras que los logros de la microinformática en este sentido están siendo «imitados» y exportados a los grandes sistemas, miles de investigadores en todo el mundo trabajan para ir haciendo realidad el ya clásico mito de lograr hablar «de tú a tú» con la máquina. Todas las grandes compañías dedicadas al negocio de la información tienen destinados en la actualidad importantes recursos a esta línea de investigación prioritaria.

Pero, aunque la evolución de los ordenadores se encamine hacia la tecnología multimedia y el lenguaje natural, no hay que recurrir al próximo futuro para lograr que la tecnología de la lengua resalte por su trascendencia económica actual: ya hoy asistimos a la aparición en el mercado de nuevos productos o componentes que incorporan algunas funciones de lengua natural, de un grado variable de complejidad.

No olvidemos que el cúmulo de informaciones que se generan en el mundo hoy todavía se representan, conservan y transmiten mayoritariamente por medio de las lenguas naturales; a ello hay que añadir que buena parte de los textos se producen ya directamente por medio de ordenadores (automatización de oficinas, correo electrónico, impresión y fotocomposición, bases de datos, etc.). Existen por lo tanto al menos dos razones importantes detrás del desarrollo de las tecnologías de la lengua: la necesidad de manipular una cantidad creciente de textos escritos, y la necesidad de acercar al ordenador a los usuarios finales.

1.   No creemos que sea necesario insistir en la avalancha de «literatura gris» que todos podemos constatar en nuestro trabajo diario: informes, cartas, correo electrónico, partes, memorandos, resúmenes, etc. Sirvan las tres cifras siguientes para dar una idea de los volúmenes de información escrita que nuestra sociedad está generando:

—   En Francia, la producción de documentos por parte de las empresas privadas y las administraciones supera ya los 400 000 millones de páginas al año.

—   En la Comunidad Económica Europea se traducen anualmente unos 100 millones de páginas, lo que supone un costo de unos 130 000 millones de pesetas.

—   Los textos técnicos suponen una buena parte del volumen total; por ejemplo, los manuales de mantenimiento de un avión pueden llegar al millón de páginas.

Manipular esas cantidades de información, determinar cuál es relevante, comprenderla cuando está escrita en una lengua extraña para nosotros, son tareas de gran dificultad, pero en las que los ordenadores pueden ayudar: elaborar los documentos, recuperarlos, resumirlos, traducirlos, etc.

2.   Por otro lado, y pensando en una escala más humana, mientras los ordenadores puedan comunicarse solamente por medio de lenguajes artificiales diseñados específicamente para ello, su uso estará restringido a una minoría de personas especialmente entrenadas. Además, esos lenguajes no son siempre fáciles de aprender y utilizar, y requieren con frecuencia que la persona piense en términos del sistema que hay debajo (recordemos, por ejemplo, los sistemas de bases de datos y sus lenguajes de interrogación). Si a ello añadimos la cada vez mayor difusión de los ordenadores y el número creciente de usuarios, deduciremos el interés de acercar la máquina al hombre por medio de mecanismos que hagan posible la comunicación en la lengua que éste está acostumbrado a usar.

Lo natural sería permitir al usuario dirigirse al ordenador en su propio idioma, preguntando (por escrito, a través del teclado tradicional, o incluso oralmente, utilizando un micrófono conectado con la maquina) por aquellos datos que desea extraer del cúmulo de informaciones almacenados en el ordenador. Si recordamos cómo ha evolucionado la programación de los ordenadores, desde el primitivo cableado de circuitos hasta los más modernos lenguajes, parece razonable pensar que el paso siguiente debería ser, al menos en algunas aplicaciones, el uso de la lengua natural. De lo que se trata, en definitiva, es de que las máquinas estén más al servicio del hombre, en vez de ser éste quien tenga que adecuarse a las exigencias de aquéllas.

En consecuencia, es necesario que se desarrollen herramientas que hagan posible pasar de un tratamiento «artesanal» de la información en lengua natural a un proceso «industrial», por un lado, y de una interacción «restrictiva» a un diálogo «amistoso» con el ordenador, por otro.

Pero aún cabe un nuevo punto de vista. Hasta aquí, hemos afirmado que la Lengua es importante para la Industria. Pero no es menos cierto que también la Industria es importante para la Lengua. La realidad lingüística hoy es simultáneamente cultural y económica; además del número de hablantes hay otros factores relevantes, como el desarrollo tecnológico. En el plano cultural, las lenguas nacionales constituyen un patrimonio cuya conservación es fundamental para el mantenimiento de la identidad nacional. Y es preciso reconocer que las lenguas que no se «industrialicen», que no se incorporen a este movimiento tecnológico, dejarán de ser, en un plazo de tiempo más o menos largo, lenguas de civilización.


Subir


Los proyectos del centro de tecnología de la lengua

El Centro de Tecnología de la Lengua (CTL) se constituyó en 1990 en Sevilla, y recoge la larga experiencia acumulada en procesamiento del Lenguaje Natural por el Centro de Investigación UAM-IBM de Madrid. En él participan, junto a IBM, la Sociedad Estatal Expo’92, el Instituto de Fomento de Andalucía y la Consejería de Educación de la Junta de Andalucía.

Su objetivo fundamental es la investigación y elaboración de aplicaciones en el área del tratamiento del lenguaje natural, tanto en forma escrita como hablada. Para ello, el CTL colabora en varios proyectos con el Centro de Investigación T. J. Watson de IBM en Nueva York, con otros Centros Científicos de IBM en Europa, con varias universidades españolas y, con otras diversas instituciones.

Enumeramos a continuación los distintos temas de trabajo en tecnología lingüística actualmente en desarrollo en el CTL.


 
TANGORAJE: Reconocedor de habla en castellano

El propósito de este proyecto es desarrollar un sistema capaz de transcribir por escrito las palabras enunciadas oralmente por distintos locutores humanos, es decir, una máquina de dictado automático. El proyecto se lleva a cabo en colaboración con el Centro de Investigación T. J. Watson de IBM en Hawthorne (Nueva York), que cuenta con una dilatada experiencia en este campo, y dispone de uno de los sistemas más potentes existentes hoy en el mundo.

Se han realizado varios prototipos preliminares de 1200 y 6000 palabras, y nuestro esfuerzo se concentra ahora en reconocer 20 000 palabras. La actual tasa de reconocimiento del sistema se sitúa en torno al 95 %. El sistema utiliza el llamado «modelo acústico», realizado en una primera etapa a partir de los datos fonéticos resultantes de las grabaciones del vocabulario que se desea reconocer, pronunciado muchas veces por diversos locutores. Para facilitar esta tarea hemos desarrollado recientemente diversas herramientas que nos permiten sintetizar automáticamente las formas base de las nuevas palabras que se desean introducir en el reconocedor, y por tanto la generación del modelo acústico, ahorrando así la etapa de grabación. De este modo, el sistema es mucho más flexible y adaptable a nuevos vocabularios de forma rápida y poco costosa sin pérdida de eficiencia en la tasa de reconocimiento.

Junto al modelo acústico se elabora el «modelo de lenguaje», a partir del tratamiento de un corpus textual muy amplio, del que se extraen el vocabulario de la aplicación y los datos estadísticos de ocurrencias y contextos que el reconocedor utilizará para la desambiguación. Disponemos ya de un corpus que supera los 100 millones de palabras, compuesto fundamentalmente por texto periodístico, novela contemporánea, historia y medicina.

CORRECTOR: Ayuda a la redacción de textos

Los sistemas de ayuda a la escritura de textos desarrollados hasta ahora para el español están relacionados, en su mayor parte, con la verificación y corrección de errores ortográficos. El sistema en el que nosotros trabajamos se enfrenta a un nuevo aspecto: la detección de errores sintácticos y de problemas de estilo.

Para ello, somete al texto proporcionado por el usuario a una revisión que se lleva a cabo en tres fases bien diferenciadas:

1.   Verificación gráfica: con la ayuda de un diccionario dotado de información morfológica completa, se determina si las palabras, consideradas como cadenas individuales, son correctas. En caso contrario, el sistema sugiere cambios al usuario y proporciona una lista de alternativas correctas.

2.   Verificación sintáctica: en este caso es una extensa gramática del español la que describe las combinaciones permitidas de términos. Las reglas sintácticas que la constituyen se apoyan en los contenidos del mismo diccionario, tanto en lo que respecta a la información morfológica como a las características sintácticas y de subcategorización incluidas en el mismo. Los errores detectados son también señalados al usuario; además, al igual que en el caso anterior, se sugiere la forma de corregir el error, Y se proporciona una explicación gramatical razonada como documentación adicional.

3.   Verificación estilística: un conjunto de funciones de estilo codifican una amplia serie de problemas de estilo que suelen presentarse en textos redactados en castellano, detectan su aparición en el texto fuente, los señalan al usuario y proponen una forma de subsanarlos, razonando también el motivo y las sugerencias aportadas.

Estas tres fases no constituyen compartimentos estancos, sino que se trata de una convención que hemos seguido para delimitar claramente la misión de cada una de ellas y el tipo de información que era preciso codificar en cada caso para conseguir dicho objetivo. Aunque el funcionamiento es secuencial, el tipo de errores que se detectan en cada una de ellas puede pertenecer a una clase distinta de la indicada por el nombre de la fase en cuestión, es decir, las tres fases cooperan al objetivo final del sistema.

Además de la utilidad del programa para un usuario de tipo general, son de gran interés sus posibles aplicaciones en el campo educativo, ya que se puede adaptar a las características y necesidades del usuario final, a sus distintos niveles de conocimiento del castellano, a las dificultades específicas de los hablantes de una lengua extranjera, etc.


Subir
 
LMT: Traducción Automática

Es un entorno de Traducción Automática en Prolog basado en la arquitectura de transferencia, y que fundamenta su diseño en la modularidad de sus componentes. Sigue un método básicamente lexicalista, es decir, presta una relevancia fundamental a los contenidos del diccionario. Se está trabajando en los pares de lenguas inglés-español y español-inglés, utilizando manuales de ordenador como textos base en la traducción.

Siguiendo el modelo de transferencia mencionado, se distinguen tres fases en el proceso de traducción:

1.   Análisis de la lengua fuente. LMT utiliza una gramática, ESG (English Slot Grammar), que proporciona estructuras sintácticas del tipo función-argumento; es decir, cada función gramatical es rellenada por un número arbitrario de argumentos, dependiendo siempre de la naturaleza de la información expresada en el diccionario. Las entradas de este diccionario contienen información relativa a los argumentos (complementos y adjuntos) opcionales u obligatorios, que admite una palabra dada, por lo que las reglas simplemente tienen que unificar el contenido de la entrada de la palabra con la declaración de la regla propiamente dicha.

2.   Transferencia de la lengua fuente a la destino. Se contemplan dos tipos de operaciones: léxicas y estructurales. En LMT se aplica primero el transfer composicional o léxico, que consiste en la sustitución de las palabras en la lengua fuente por su correspondiente en la lengua destino, y a continuación el transfer estructural, que consiste en la adaptación de la estructura fuente a la estructura destino.

3.   Generación de la forma externa en la lengua destino. El módulo de generación está implementado mediante una serie de reglas y hechos de Prolog. La estrategia consiste en buscar la forma base en un diccionario y generar a continuación la forma flexionada adecuada, realizando después los reajustes superficiales necesarios.

El sistema LMT ha alcanzado un nivel de calidad suficiente para ser utilizado en la traducción de textos reales, y se encuentra en fase de pruebas en el Centro de Traducciones de IBM España en Barcelona.

SILVIA: Interfaz en castellano con SQL

Empleando este programa, el usuario puede expresar su pregunta a una Base de Datos tecleándola en castellano; el sistema la analiza sintácticamente (por medio de la utilización de una gramática basada en Prolog), y la interpreta semánticamente (buscando la correspondencia de los términos utilizados en la pregunta con elementos de la base de datos que se está interrogando —información que se codifica en el diccionario de usuario correspondiente—).

El programa convierte la frase en castellano a los términos del lenguaje SQL adecuados, y además genera una paráfrasis de la misma forma que el usuario pueda comprobar que la interpretación que el sistema ha dado a su pregunta y, por lo tanto, la interrogación generada se corresponde con su pregunta.

Herramientas lingüísticas

Todo proyecto de tecnología lingüística necesita del soporte de un buen número de herramientas léxicas y textuales. En nuestro caso, disponemos de varios diccionarios accesibles en línea: Webster 7, Longman Dictionary of Contemporary English, Roget Thesaurus, Collins inglés-español y español-inglés, así como del Diccionario de Sinónimos y Antónimos de F. C. Sainz de Robles.

Además, los datos léxicos elaborados por nuestro grupo están disponibles en una base de datos SQL. Junta a ella, hemos elaborado una nueva base de datos que contiene el Diccionario Collins bilingüe, que permite el acceso, de forma individualizada y selectiva, a todos y cada uno de los campos que constituyen cada artículo del diccionario, con objeto de estudiar, entre otras cosas, la extracción automática de datos léxicos, sintácticos y semánticos, relevantes para otros proyectos de lengua natural.

Finalmente, la recopilación de un corpus de textos escritos en castellano constituye otro de nuestros esfuerzos. Gracias a la colaboración de varias editoriales y de los diarios El País y El Heraldo de Aragón, disponemos ya de varios millones de palabras procedentes de prensa escrita, de libros de historia, novela contemporánea, una revista de medicina, así como de manuales técnicos y de un corpus multilingüe extraído del Boletín Oficial de la Comunidad Europea.


Subir
 
De la investigación a la comercialización

Creemos que la tecnología lingüística está ya en condiciones de aportar productos útiles y rentables, y que el mercado está también maduro para recibirlas. Frases como las siguientes hemos podido leerlas recientemente en anuncios o en folletos publicitarios: «Puesto de trabajo para el lexicógrafo y el terminólogo», «A versatile text analysis program ... », «Writing Assistant for French», «Dictionary Maintenante Programs», «Le Système le plus complet de traduction assistée par ordinateur», «Extending the reach of the Language Industries», «Accesing data using your native language», ... aunque es preciso reconocer que en algunos casos el contenido de este tipo de productos es más bien escaso en lo que a componentes de tecnología lingüística se refiere.

Pero no sólo la prensa informática habla de estos temas: «La Gaceta de los Negocios» publicó recientemente que el tratamiento de textos mueve más de 1.500 millones de pesetas al año, y que las aplicaciones de más futuro son justamente las lingüísticas para las lenguas distintas del inglés. El New York Times presenta como noticia el proyecto del Diccionario Electrónico japonés, el esfuerzo más costoso (más de 100 millones de dólares) y ambicioso nunca llevado a cabo para desarrollar un diccionario, «un diccionario que con seguridad muy poca gente va a leer» (agosto 1992). El País, por su parte, habla a doble página de las industrias de la lengua y llama la atención sobre la necesidad de impulsar estas actividades en nuestro país (octubre 1992).

Naturalmente, no es fácil el paso de un prototipo de laboratorio a un producto susceptible de ser comercializado con éxito. No basta con demostrar que una teoría funciona en ciertos casos, no basta con modelar un fragmento de la morfología o la sintaxis, o con construir un pequeño diccionario válido para un mundo restringido. Es preciso proporcionar casi siempre una cobertura amplia en el tamaño del léxico, en las estructuras sintácticas reconocidas, en la semántica aceptada, en el número de locutores a los que se entiende, en el tipo de textos que el sistema acepta y es capaz de procesar, traducir, resumir o sintetizar oralmente. Muchas veces las restricciones son válidas, pero en general es preciso pensar que la escala es mucho mayor que en un prototipo, y varios órdenes de magnitud mayor.

Con estos objetivos nos hemos planteado los proyectos en el CTL, como se los plantea la mayor parte de la industria que dedica recursos a la tecnología lingüística, es decir, pensando en el usuario final y en la aplicación y entorno reales en que se usará el sistema.
 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.