|
|
La tecnología
lingüística: de los proyectos de investigación a la comercialización de productos
Luis de Sopeña. IBM. Centro de la tecnología de la Lengua
|
|
Lograr una comunicación «natural» entre el hombre y el ordenador es uno de los más
importantes retos que tiene planteado el sector informático en esta década. Mientras que
las interfaces evolucionan con el objetivo de simplificar al máximo la comunicación con
el usuario, y mientras que los logros de la microinformática en este sentido están
siendo «imitados» y exportados a los grandes sistemas, miles de investigadores en todo
el mundo trabajan para ir haciendo realidad el ya clásico mito de lograr hablar «de tú
a tú» con la máquina. Todas las grandes compañías dedicadas al negocio de la
información tienen destinados en la actualidad importantes recursos a esta línea de
investigación prioritaria.
Pero, aunque la evolución de los ordenadores se encamine hacia la tecnología multimedia
y el lenguaje natural, no hay que recurrir al próximo futuro para lograr que la
tecnología de la lengua resalte por su trascendencia económica actual: ya hoy asistimos
a la aparición en el mercado de nuevos productos o componentes que incorporan algunas
funciones de lengua natural, de un grado variable de complejidad.
No olvidemos que el cúmulo de informaciones que se generan en el mundo hoy todavía se
representan, conservan y transmiten mayoritariamente por medio de las lenguas naturales; a
ello hay que añadir que buena parte de los textos se producen ya directamente por medio
de ordenadores (automatización de oficinas, correo electrónico, impresión y
fotocomposición, bases de datos, etc.). Existen por lo tanto al menos dos razones
importantes detrás del desarrollo de las tecnologías de la lengua: la necesidad de
manipular una cantidad creciente de textos escritos, y la necesidad de acercar al
ordenador a los usuarios finales.
1. No creemos que sea necesario insistir en la avalancha de «literatura
gris» que todos podemos constatar en nuestro trabajo diario: informes, cartas, correo
electrónico, partes, memorandos, resúmenes, etc. Sirvan las tres cifras siguientes para
dar una idea de los volúmenes de información escrita que nuestra sociedad está
generando:
En Francia, la producción de
documentos por parte de las empresas privadas y las administraciones supera ya los 400 000
millones de páginas al año.
En la Comunidad Económica Europea se traducen anualmente unos 100
millones de páginas, lo que supone un costo de unos 130 000 millones de pesetas.
Los textos técnicos suponen una buena parte del volumen total; por
ejemplo, los manuales de mantenimiento de un avión pueden llegar al millón de páginas.
Manipular esas cantidades de información,
determinar cuál es relevante, comprenderla cuando está escrita en una lengua extraña
para nosotros, son tareas de gran dificultad, pero en las que los ordenadores pueden
ayudar: elaborar los documentos, recuperarlos, resumirlos, traducirlos, etc.
2. Por otro lado, y pensando en una escala más humana, mientras los
ordenadores puedan comunicarse solamente por medio de lenguajes artificiales diseñados
específicamente para ello, su uso estará restringido a una minoría de personas
especialmente entrenadas. Además, esos lenguajes no son siempre fáciles de aprender y
utilizar, y requieren con frecuencia que la persona piense en términos del sistema que
hay debajo (recordemos, por ejemplo, los sistemas de bases de datos y sus lenguajes de
interrogación). Si a ello añadimos la cada vez mayor difusión de los ordenadores y el
número creciente de usuarios, deduciremos el interés de acercar la máquina al hombre
por medio de mecanismos que hagan posible la comunicación en la lengua que éste está
acostumbrado a usar.
Lo natural sería permitir al usuario dirigirse al ordenador en su propio idioma,
preguntando (por escrito, a través del teclado tradicional, o incluso oralmente,
utilizando un micrófono conectado con la maquina) por aquellos datos que desea extraer
del cúmulo de informaciones almacenados en el ordenador. Si recordamos cómo ha
evolucionado la programación de los ordenadores, desde el primitivo cableado de circuitos
hasta los más modernos lenguajes, parece razonable pensar que el paso siguiente debería
ser, al menos en algunas aplicaciones, el uso de la lengua natural. De lo que se trata, en
definitiva, es de que las máquinas estén más al servicio del hombre, en vez de ser
éste quien tenga que adecuarse a las exigencias de aquéllas.
En consecuencia, es necesario que se desarrollen herramientas que hagan posible pasar de
un tratamiento «artesanal» de la información en lengua natural a un proceso
«industrial», por un lado, y de una interacción «restrictiva» a un diálogo
«amistoso» con el ordenador, por otro.
Pero aún cabe un nuevo punto de vista. Hasta aquí, hemos afirmado que la Lengua es
importante para la Industria. Pero no es menos cierto que también la Industria es
importante para la Lengua. La realidad lingüística hoy es simultáneamente cultural y
económica; además del número de hablantes hay otros factores relevantes, como el
desarrollo tecnológico. En el plano cultural, las lenguas nacionales constituyen un
patrimonio cuya conservación es fundamental para el mantenimiento de la identidad
nacional. Y es preciso reconocer que las lenguas que no se «industrialicen», que no se
incorporen a este movimiento tecnológico, dejarán de ser, en un plazo de tiempo más o
menos largo, lenguas de civilización. |
 |
Los proyectos del centro de tecnología de la lengua
El Centro de Tecnología de la Lengua (CTL) se constituyó en 1990 en Sevilla, y recoge la
larga experiencia acumulada en procesamiento del Lenguaje Natural por el Centro de
Investigación UAM-IBM de Madrid. En él participan, junto a IBM, la Sociedad Estatal
Expo92, el Instituto de Fomento de Andalucía y la Consejería de Educación de la Junta
de Andalucía.
Su objetivo fundamental es la investigación y elaboración de aplicaciones en el área
del tratamiento del lenguaje natural, tanto en forma escrita como hablada. Para ello, el
CTL colabora en varios proyectos con el Centro de Investigación T. J. Watson de IBM en
Nueva York, con otros Centros Científicos de IBM en Europa, con varias universidades
españolas y, con otras diversas instituciones.
Enumeramos a continuación los distintos temas de trabajo en tecnología lingüística
actualmente en desarrollo en el CTL.
|
|
TANGORAJE: Reconocedor de habla en castellano
El propósito de este proyecto es desarrollar un sistema capaz de transcribir por escrito
las palabras enunciadas oralmente por distintos locutores humanos, es decir, una máquina
de dictado automático. El proyecto se lleva a cabo en colaboración con el Centro de
Investigación T. J. Watson de IBM en Hawthorne (Nueva York), que cuenta con una dilatada
experiencia en este campo, y dispone de uno de los sistemas más potentes existentes hoy
en el mundo.
Se han realizado varios prototipos preliminares de 1200 y 6000 palabras, y nuestro
esfuerzo se concentra ahora en reconocer 20 000 palabras. La actual tasa de reconocimiento
del sistema se sitúa en torno al 95 %. El sistema utiliza el llamado «modelo
acústico», realizado en una primera etapa a partir de los datos fonéticos resultantes
de las grabaciones del vocabulario que se desea reconocer, pronunciado muchas veces por
diversos locutores. Para facilitar esta tarea hemos desarrollado recientemente diversas
herramientas que nos permiten sintetizar automáticamente las formas base de las nuevas
palabras que se desean introducir en el reconocedor, y por tanto la generación del modelo
acústico, ahorrando así la etapa de grabación. De este modo, el sistema es mucho más
flexible y adaptable a nuevos vocabularios de forma rápida y poco costosa sin pérdida de
eficiencia en la tasa de reconocimiento.
Junto al modelo acústico se elabora el «modelo de lenguaje», a partir del tratamiento
de un corpus textual muy amplio, del que se extraen el vocabulario de la aplicación y los
datos estadísticos de ocurrencias y contextos que el reconocedor utilizará para la
desambiguación. Disponemos ya de un corpus que supera los 100 millones de palabras,
compuesto fundamentalmente por texto periodístico, novela contemporánea, historia y
medicina.
CORRECTOR: Ayuda a la redacción de textos
Los sistemas de ayuda a la escritura de textos desarrollados hasta ahora para el español
están relacionados, en su mayor parte, con la verificación y corrección de errores
ortográficos. El sistema en el que nosotros trabajamos se enfrenta a un nuevo aspecto: la
detección de errores sintácticos y de problemas de estilo.
Para ello, somete al texto proporcionado por el usuario a una revisión que se lleva a
cabo en tres fases bien diferenciadas:
1. Verificación gráfica: con la
ayuda de un diccionario dotado de información morfológica completa, se determina si las
palabras, consideradas como cadenas individuales, son correctas. En caso contrario, el
sistema sugiere cambios al usuario y proporciona una lista de alternativas correctas.
2. Verificación sintáctica: en este caso es una extensa gramática del
español la que describe las combinaciones permitidas de términos. Las reglas
sintácticas que la constituyen se apoyan en los contenidos del mismo diccionario, tanto
en lo que respecta a la información morfológica como a las características sintácticas
y de subcategorización incluidas en el mismo. Los errores detectados son también
señalados al usuario; además, al igual que en el caso anterior, se sugiere la forma de
corregir el error, Y se proporciona una explicación gramatical razonada como
documentación adicional.
3. Verificación estilística: un conjunto de funciones de estilo codifican
una amplia serie de problemas de estilo que suelen presentarse en textos redactados en
castellano, detectan su aparición en el texto fuente, los señalan al usuario y proponen
una forma de subsanarlos, razonando también el motivo y las sugerencias aportadas.
Estas tres fases no constituyen compartimentos
estancos, sino que se trata de una convención que hemos seguido para delimitar claramente
la misión de cada una de ellas y el tipo de información que era preciso codificar en
cada caso para conseguir dicho objetivo. Aunque el funcionamiento es secuencial, el tipo
de errores que se detectan en cada una de ellas puede pertenecer a una clase distinta de
la indicada por el nombre de la fase en cuestión, es decir, las tres fases cooperan al
objetivo final del sistema.
Además de la utilidad del programa para un usuario de tipo general, son de gran interés
sus posibles aplicaciones en el campo educativo, ya que se puede adaptar a las
características y necesidades del usuario final, a sus distintos niveles de conocimiento
del castellano, a las dificultades específicas de los hablantes de una lengua extranjera,
etc. |
 |
LMT: Traducción Automática
Es un entorno de Traducción Automática en Prolog basado en la arquitectura de
transferencia, y que fundamenta su diseño en la modularidad de sus componentes. Sigue un
método básicamente lexicalista, es decir, presta una relevancia fundamental a los
contenidos del diccionario. Se está trabajando en los pares de lenguas inglés-español y
español-inglés, utilizando manuales de ordenador como textos base en la traducción.
Siguiendo el modelo de transferencia mencionado, se distinguen tres fases en el proceso de
traducción:
1. Análisis de la lengua fuente. LMT
utiliza una gramática, ESG (English Slot Grammar), que proporciona estructuras
sintácticas del tipo función-argumento; es decir, cada función gramatical es rellenada
por un número arbitrario de argumentos, dependiendo siempre de la naturaleza de la
información expresada en el diccionario. Las entradas de este diccionario contienen
información relativa a los argumentos (complementos y adjuntos) opcionales u
obligatorios, que admite una palabra dada, por lo que las reglas simplemente tienen que
unificar el contenido de la entrada de la palabra con la declaración de la regla
propiamente dicha.
2. Transferencia de la lengua fuente a la destino. Se contemplan dos tipos de
operaciones: léxicas y estructurales. En LMT se aplica primero el transfer
composicional
o léxico, que consiste en la sustitución de las palabras en la lengua fuente por su
correspondiente en la lengua destino, y a continuación el transfer
estructural, que
consiste en la adaptación de la estructura fuente a la estructura destino.
3. Generación de la forma externa en la lengua destino. El módulo de
generación está implementado mediante una serie de reglas y hechos de Prolog. La
estrategia consiste en buscar la forma base en un diccionario y generar a continuación la
forma flexionada adecuada, realizando después los reajustes superficiales necesarios.
El sistema LMT ha alcanzado un nivel de calidad
suficiente para ser utilizado en la traducción de textos reales, y se encuentra en fase
de pruebas en el Centro de Traducciones de IBM España en Barcelona.
SILVIA: Interfaz en castellano con SQL
Empleando este programa, el usuario puede expresar su pregunta a una Base de Datos
tecleándola en castellano; el sistema la analiza sintácticamente (por medio de la
utilización de una gramática basada en Prolog), y la interpreta semánticamente
(buscando la correspondencia de los términos utilizados en la pregunta con elementos de
la base de datos que se está interrogando información que se codifica en el
diccionario de usuario correspondiente).
El programa convierte la frase en castellano a los términos del lenguaje SQL adecuados, y
además genera una paráfrasis de la misma forma que el usuario pueda comprobar que la
interpretación que el sistema ha dado a su pregunta y, por lo tanto, la interrogación
generada se corresponde con su pregunta.
Herramientas lingüísticas
Todo proyecto de tecnología lingüística necesita del soporte de un buen número de
herramientas léxicas y textuales. En nuestro caso, disponemos de varios diccionarios
accesibles en línea: Webster 7, Longman Dictionary of Contemporary English, Roget
Thesaurus, Collins inglés-español y español-inglés, así como del Diccionario
de Sinónimos y Antónimos de F. C. Sainz de Robles.
Además, los datos léxicos elaborados por nuestro grupo están disponibles en una base de
datos SQL. Junta a ella, hemos elaborado una nueva base de datos que contiene el
Diccionario Collins bilingüe, que permite el acceso, de forma individualizada y
selectiva, a todos y cada uno de los campos que constituyen cada artículo del
diccionario, con objeto de estudiar, entre otras cosas, la extracción automática de
datos léxicos, sintácticos y semánticos, relevantes para otros proyectos de lengua
natural.
Finalmente, la recopilación de un corpus de textos escritos en castellano constituye otro
de nuestros esfuerzos. Gracias a la colaboración de varias editoriales y de los diarios
El País y El Heraldo de Aragón, disponemos ya de varios millones de palabras
procedentes de prensa escrita, de libros de historia, novela contemporánea, una revista
de medicina, así como de manuales técnicos y de un corpus multilingüe extraído del
Boletín Oficial de la Comunidad Europea. |
 |
De la investigación a la comercialización
Creemos que la tecnología lingüística está ya en condiciones de aportar productos
útiles y rentables, y que el mercado está también maduro para recibirlas. Frases como
las siguientes hemos podido leerlas recientemente en anuncios o en folletos publicitarios:
«Puesto de trabajo para el lexicógrafo y el terminólogo», «A versatile text analysis
program ... », «Writing Assistant for French», «Dictionary Maintenante Programs»,
«Le Système le plus complet de traduction assistée par ordinateur», «Extending the
reach of the Language Industries», «Accesing data using your native language», ...
aunque es preciso reconocer que en algunos casos el contenido de este tipo de productos es
más bien escaso en lo que a componentes de tecnología lingüística se refiere.
Pero no sólo la prensa informática habla de estos temas: «La Gaceta de
los Negocios» publicó recientemente que el tratamiento de textos mueve
más de 1.500 millones de pesetas al año, y que las aplicaciones de más
futuro son justamente las lingüísticas para las lenguas distintas del
inglés. El New York Times presenta como noticia el
proyecto del Diccionario Electrónico japonés, el esfuerzo más costoso (más de 100
millones de dólares) y ambicioso nunca llevado a cabo para desarrollar un diccionario,
«un diccionario que con seguridad muy poca gente va a leer» (agosto 1992). El País,
por su parte, habla a doble página de las industrias de la lengua y llama la
atención sobre la necesidad de impulsar estas actividades en nuestro país (octubre
1992).
Naturalmente, no es fácil el paso de un prototipo de laboratorio a un producto
susceptible de ser comercializado con éxito. No basta con demostrar que una teoría
funciona en ciertos casos, no basta con modelar un fragmento de la morfología o la
sintaxis, o con construir un pequeño diccionario válido para un mundo restringido. Es
preciso proporcionar casi siempre una cobertura amplia en el tamaño del léxico, en las
estructuras sintácticas reconocidas, en la semántica aceptada, en el número de
locutores a los que se entiende, en el tipo de textos que el sistema acepta y es capaz de
procesar, traducir, resumir o sintetizar oralmente. Muchas veces las restricciones son
válidas, pero en general es preciso pensar que la escala es mucho mayor que en un
prototipo, y varios órdenes de magnitud mayor.
Con estos objetivos nos hemos planteado los proyectos en el CTL, como se los plantea la
mayor parte de la industria que dedica recursos a la tecnología
lingüística, es decir,
pensando en el usuario final y en la aplicación y entorno reales en que se usará el
sistema. |
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|