Joaquim Llisterri y Juan M. Garrido Almiñana
El término «ingeniería lingüística» utilizado para delimitar el ámbito de este capítulo abarca un amplio espectro de actividades que suelen englobarse dentro de lo que se ha denominado «las industrias de la lengua». La ingeniería lingüística podría definirse, siguiendo un documento reciente de la Comisión Europea, como «la aplicación de los conocimientos sobre la lengua al desarrollo de sistemas informáticos que puedan reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas» (Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje). Por su parte, las industrias de la lengua se centran en «una serie de actividades comerciales en las que el tratamiento del lenguaje por personas o por máquinas o por una combinación de unas y otras, forma una parte fundamental del producto o servicio» (Lenguaje y tecnología. De la torre de Babel a la aldea global, p.12).
Como se desprende de ambas definiciones, la existencia de las industrias de la lengua, entendidas como una actividad de índole fundamentalmente comercial, requiere el desarrollo de la ingeniería lingüística para disponer de las herramientas y técnicas a partir de las que se crean productos que realizan diversas funciones relacionadas con la utilización del lenguaje.
El presente capítulo se centra en las actividades que actualmente se llevan a cabo en España en el campo de la ingeniería lingüística en lengua española, dejando para una etapa posterior el análisis más detallado de las industrias de la lengua en su sentido más amplio. Por otra parte, este último ámbito ha sido abordado recientemente en el capítulo dedicado a «las industrias del idioma» del informe sobre la lengua española en las autopistas de la información editado por Fundesco en 1996.
La ingeniería lingüística comprende una serie de técnicas relacionadas con el tratamiento informático del lenguaje. En conjunto, estas técnicas pueden dividirse entre las que se aplican al tratamiento de la lengua hablada y las propias del procesamiento del texto escrito, aunque debe señalarse que cada vez existe una mayor convergencia entre ambas, difuminando progresivamente una separación relativamente estricta hasta hace unos años. Para cada uno de estos campos, existen procedimientos que permiten la entrada de información lingüística en un sistema informático, y métodos que facilitan la generación de lengua hablada o escrita, tal como se representa en la figura 1.
El texto escrito puede introducirse en un ordenador tanto desde una fuente impresa reconocimiento óptico de caracteres (ROC) como desde una fuente manuscrita reconocimiento de caracteres manuscritos o reconocimiento inteligente de caracteres (RIC), mientras que, en el caso de la lengua hablada, la entrada de información siempre se lleva a cabo mediante la voz. Sin embargo, en este último caso puede pretenderse la conversión del habla en un texto escrito reconocimiento de habla, identificar quién es la persona que habla y verificar su identidad o descubrir automáticamente la lengua que está utilizando un determinado locutor.
La salida de un sistema de procesamiento de lengua escrita es siempre un texto, sea generado automáticamente por el sistema a partir de una información básica generación de textos sea modificado a partir de los datos lingüísticos de entrada. En cambio, la producción de información oral por un ordenador requiere aplicar métodos de síntesis del habla, entre los cuales destaca la conversión de texto a habla, que permite transformar una representación escrita en su equivalente sonoro.
Además de integrar y generar información lingüística, los sistemas informáticos desarrollados en el marco de la ingeniería lingüística pueden también llevar a cabo el procesamiento de dicha información. Las principales técnicas aplicadas para tal fin se resumen en la figura 2.
Observamos como, tanto en el caso de la lengua escrita como en el de la lengua oral, es posible alcanzar la compresión, entendiendo por tal concepto algo mucho más restringido que la comprensión humana; se trata aquí de llegar a que el sistema informático disponga de datos suficientes para procesar la información lingüística en función de las necesidades de la aplicación que se desee darle por ejemplo la traducción o el establecimiento de un diálogo para que el usuario realice determinadas transacciones. La comprensión requiere, naturalmente, un análisis, que puede llevarse a cabo tanto en lo que se refiere a la estructura de las palabras análisis morfológico, de las frases análisis sintáctico, del significado análisis semántico o de las características comunicativas del texto análisis pragmático.
La ingeniería lingüística requiere también la existencia de los denominados recursos lingüísticos, consistentes en corpus textuales, orales o léxicos que proporcionan los datos necesarios para el desarrollo o el funcionamiento de las aplicaciones. En la figura 3 se resumen los principales tipos de recursos empleados habitualmente.
Existen corpus de tipo textual, corpus orales (constituidos bien sea por grabaciones o por transcripciones ortográficas de la lengua oral) y corpus léxicos consistentes en elementos del vocabulario de la lengua (Leech, 1991; Leech y Fligelstone, 1992; McEnery y Wilson, 1996). Para el desarrollo de ciertas aplicaciones, es necesario disponer también de recursos terminológicos que cubran áreas especializadas del léxico de la lengua (Cabré, 1992). Finalmente, las gramáticas computacionales o electrónicas son un componente indispensable de buena parte de los sistemas de procesamiento del lenguaje natural.
La utilización de los corpus está ligada a una serie de procesos y herramientas que facilitan su uso y su explotación, resumidos en la figura 4.
La codificación consiste en la introducción en el corpus de marcas relacionadas con su estructura y formato, de modo que éste pueda recuperarse al ser utilizado en sistemas informáticos diferentes.
Operaciones más propiamente lingüísticas son las que pueden llevarse a cabo mediante herramientas de segmentación de palabras, de descomposición de la palabra en su raíz y sus terminaciones (lematización) o de desambiguación, a fin de determinar la categoría gramatical o el significado de palabras que pueden tener más de uno. Por otra parte, la utilización de un corpus requiere a menudo que los elementos que lo componen estén anotados lingüísticamente mediante un conjunto de etiquetas que definen sus propiedades; en el caso de los corpus orales, suele etiquetarse el nivel fonético segmental y el nivel prosódico sincronizando la anotación con la señal sonora si es preciso, mientras que en los corpus textuales, los elementos léxicos se etiquetan en función de sus propiedades morfológicas, sintácticas, semánticas o, en algún caso, pragmáticas.
Finalmente, se han creado diversas herramientas para la explotación de los corpus, especialmente en la investigación lingüística y en la lexicografía: entre ellas destacan los programas que realizan listas de palabras ordenándolas en función de su frecuencia de aparición o los que permiten obtener concordancias en las que las palabras buscadas aparecen ordenadas alfabéticamente, acompañadas de su contexto anterior y posterior; en esta misma línea, también puede obtenerse información sobre la frecuencia con la que dos o más palabras aparecen seguidas (colocaciones).
Este breve repaso, necesariamente ni exhaustivo ni detallado, muestra que la ingeniería lingüística constituye un campo de trabajo interdisciplinar, en el que confluyen la informática y la lingüística de aquí que algunos autores se refieran a la «lingüística informática» o la «informática lingüística» en este contexto y con el que se relacionan especialidades como la lingüística computacional, el procesamiento del lenguaje natural y el procesamiento del habla. Para más información sobre la ingeniería lingüística en sus diferentes vertientes, remitimos al lector a la excelente recopilación de Cole et al. (Eds.) (1997) y a otros trabajos que presentan panorámicas generales como son los de Carré et al. (1991), Fuchs (1993), Moure y Llisterri (1996), Vidal Beneyto (1991) o Vidal y Busquets (1996).
Las posibilidades de procesar la información lingüística han dado lugar al surgimiento de herramientas y productos que forman la base de las industrias de la lengua, también denominadas «industrias del idioma». En la figura 5 se esquematizan algunas de ellas.
Cae fuera del alcance de este capítulo realizar una descripción pormenorizada de cada una de las aplicaciones de la ingeniería lingüística; las publicaciones de la DG XIII/E de la Comunidad Europea citadas en la bibliografía (Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje; Lenguaje y tecnología, De la torre de Babel a la aldea global; ¿Ingeniería lingüística? Un mayor uso del lenguaje en todos los sentidos y Language Engineering, The Technology), así como el trabajo más avanzado de Sager (1992), ofrecen una panorámica general de las industrias de la lengua para los lectores interesados. Nos limitaremos, pues, a mencionar que, como puede observarse en la figura 5, tanto las técnicas propias del tratamiento del texto escrito como las desarrolladas para el procesamiento del habla dan lugar a diversas funciones que se incorporan a programas informáticos, denominados a veces en inglés.
En el campo de la lengua escrita, señalamos las herramientas de ayuda a la redacción y corrección de documentos que abarcan de los correctores ortográficos a la creación de un entorno con acceso a diccionarios electrónicos, enciclopedias y correctores gramaticales o de estilo, la gestión de la documentación, incluyendo la posibilidad de generar y resumir automáticamente documentos, y la traducción, tanto en su modalidad completamente automática como en lo que se refiere a las herramientas que pueden ayudar al traductor humano.
En cuanto al tratamiento del habla, se dispone en la actualidad de programas que permiten el dictado automático o la conversión en su forma sonora de un texto en formato electrónico. Es posible también, mediante los sistemas de diálogo que incorporan síntesis, reconocimiento y un cierto grado de comprensión, obtener información o realizar transacciones a través del teléfono.
Cabe destacar que el multilingüismo es un aspecto recurrente en la mayoría de las aplicaciones de la ingeniería lingüística. Los recursos lingüísticos que enumeramos en la figura 3 pueden ser tanto monolingües como multilingües, con el fin de incorporarlos a sistemas de traducción, ya sea de lengua escrita o de traducción del habla. Por otra parte, algunas de las aplicaciones desarrolladas en el ámbito de las industrias de la lengua encuentran su utilidad en la enseñanza de lenguas asistida por ordenador, tanto en los sistemas presenciales como en la enseñanza a distancia.
Para finalizar este apartado, es necesario referirse también a la relevancia de las aplicaciones de la ingeniería lingüística como ayuda a las personas con discapacidades visuales que pueden hacer uso de conversores de texto a habla, auditivas para quienes la conversión de habla en texto puede ser una alternativa viable en ciertos casos o con transtornos de la producción del habla, que pueden utilizar igualmente sistemas de conversión de texto a habla.