 |
 |
El
ámbito de la ingeniería lingüística
El ámbito de las industrias de la
lenguaEl término
«ingeniería lingüística» utilizado para delimitar el ámbito de este capítulo abarca
un amplio espectro de actividades que suelen englobarse dentro de lo que se ha denominado
«las industrias de la lengua». La ingeniería lingüística podría definirse, siguiendo
un documento reciente de la Comisión Europea, como «la aplicación de los conocimientos
sobre la lengua al desarrollo de sistemas informáticos que puedan reconocer, comprender,
interpretar y generar lenguaje humano en todas sus formas» (Ingeniería
lingüística. Cómo aprovechar la fuerza del lenguaje). Por su parte, las industrias
de la lengua se centran en «una serie de actividades comerciales en las que el
tratamiento del lenguaje por personas o por máquinas o por una combinación de unas y
otras, forma una parte fundamental del producto o servicio» (Lenguaje y tecnología.
De la torre de Babel a la aldea global, p.12).
Como se desprende de ambas definiciones, la
existencia de las industrias de la lengua, entendidas como una actividad de índole
fundamentalmente comercial, requiere el desarrollo de la ingeniería lingüística para
disponer de las herramientas y técnicas a partir de las que se crean productos que
realizan diversas funciones relacionadas con la utilización del lenguaje.
El presente capítulo se centra en las
actividades que actualmente se llevan a cabo en España en el campo de la ingeniería
lingüística en lengua española, dejando para una etapa posterior el análisis más
detallado de las industrias de la lengua en su sentido más amplio. Por otra parte, este
último ámbito ha sido abordado recientemente en el capítulo dedicado a «las industrias
del idioma» del informe sobre la lengua española en las autopistas de la información
editado por Fundesco en 1996. |
 |
El ámbito de la ingeniería
lingüísticaLa ingeniería
lingüística comprende una serie de técnicas relacionadas con el tratamiento
informático del lenguaje. En conjunto, estas técnicas pueden dividirse entre las que se
aplican al tratamiento de la lengua hablada y las propias del procesamiento del texto
escrito, aunque debe señalarse que cada vez existe una mayor convergencia entre ambas,
difuminando progresivamente una separación relativamente estricta hasta hace unos años.
Para cada uno de estos campos, existen procedimientos que permiten la entrada de
información lingüística en un sistema informático, y métodos que facilitan la
generación de lengua hablada o escrita, tal como se representa en la figura 1.
El texto escrito puede introducirse en un
ordenador tanto desde una fuente impresa reconocimiento óptico de caracteres
(ROC) como desde una fuente manuscrita reconocimiento de caracteres
manuscritos o reconocimiento inteligente de caracteres (RIC), mientras que, en el
caso de la lengua hablada, la entrada de información siempre se lleva a cabo mediante la
voz. Sin embargo, en este último caso puede pretenderse la conversión del habla en un
texto escrito reconocimiento de habla, identificar quién es la persona que
habla y verificar su identidad o descubrir automáticamente la lengua que está utilizando
un determinado locutor.
La salida de un sistema de procesamiento de
lengua escrita es siempre un texto, sea generado automáticamente por el sistema a partir
de una información básica generación de textos sea modificado a partir de
los datos lingüísticos de entrada. En cambio, la producción de información oral por un
ordenador requiere aplicar métodos de síntesis del habla, entre los cuales destaca la
conversión de texto a habla, que permite transformar una representación escrita en su
equivalente sonoro.
Además de integrar y generar información
lingüística, los sistemas informáticos desarrollados en el marco de la ingeniería
lingüística pueden también llevar a cabo el procesamiento de dicha información. Las
principales técnicas aplicadas para tal fin se resumen en la figura 2. |
 |
Observamos como, tanto en el caso de la lengua
escrita como en el de la lengua oral, es posible alcanzar la compresión, entendiendo por
tal concepto algo mucho más restringido que la comprensión humana; se trata aquí de
llegar a que el sistema informático disponga de datos suficientes para procesar la
información lingüística en función de las necesidades de la aplicación que se desee
darle por ejemplo la traducción o el establecimiento de un diálogo para que el
usuario realice determinadas transacciones. La comprensión requiere, naturalmente,
un análisis, que puede llevarse a cabo tanto en lo que se refiere a la estructura de las
palabras análisis morfológico, de las frases análisis
sintáctico, del significado análisis semántico o de las
características comunicativas del texto análisis pragmático.La ingeniería lingüística requiere también la
existencia de los denominados recursos lingüísticos, consistentes en corpus textuales,
orales o léxicos que proporcionan los datos necesarios para el desarrollo o el
funcionamiento de las aplicaciones. En la figura 3 se
resumen los principales tipos de recursos empleados habitualmente.
Existen corpus de tipo textual, corpus orales
(constituidos bien sea por grabaciones o por transcripciones ortográficas de la lengua
oral) y corpus léxicos consistentes en elementos del vocabulario de la lengua (Leech,
1991; Leech y Fligelstone, 1992; McEnery y Wilson, 1996). Para el desarrollo de ciertas
aplicaciones, es necesario disponer también de recursos terminológicos que cubran áreas
especializadas del léxico de la lengua (Cabré, 1992). Finalmente, las gramáticas
computacionales o electrónicas son un componente indispensable de buena parte de los
sistemas de procesamiento del lenguaje natural.
La utilización de los corpus está ligada a una
serie de procesos y herramientas que facilitan su uso y su explotación, resumidos en la figura 4.
La codificación consiste en la introducción en
el corpus de marcas relacionadas con su estructura y formato, de modo que éste pueda
recuperarse al ser utilizado en sistemas informáticos diferentes.
Operaciones más propiamente lingüísticas son
las que pueden llevarse a cabo mediante herramientas de segmentación de palabras, de
descomposición de la palabra en su raíz y sus terminaciones (lematización) o de
desambiguación, a fin de determinar la categoría gramatical o el significado de palabras
que pueden tener más de uno. Por otra parte, la utilización de un corpus requiere a
menudo que los elementos que lo componen estén anotados lingüísticamente mediante un
conjunto de etiquetas que definen sus propiedades; en el caso de los corpus orales, suele
etiquetarse el nivel fonético segmental y el nivel prosódico sincronizando la
anotación con la señal sonora si es preciso, mientras que en los corpus textuales,
los elementos léxicos se etiquetan en función de sus propiedades morfológicas,
sintácticas, semánticas o, en algún caso, pragmáticas.
Finalmente, se han creado diversas herramientas para la explotación de los corpus,
especialmente en la investigación lingüística y en la lexicografía: entre ellas
destacan los programas que realizan listas de palabras ordenándolas en función de su
frecuencia de aparición o los que permiten obtener concordancias en las que las
palabras buscadas aparecen ordenadas alfabéticamente, acompañadas de su contexto
anterior y posterior; en esta misma línea, también puede obtenerse información
sobre la frecuencia con la que dos o más palabras aparecen seguidas (colocaciones).
Este breve repaso, necesariamente ni exhaustivo
ni detallado, muestra que la ingeniería lingüística constituye un campo de trabajo
interdisciplinar, en el que confluyen la informática y la lingüística de aquí
que algunos autores se refieran a la «lingüística informática» o la «informática
lingüística» en este contexto y con el que se relacionan especialidades como la
lingüística computacional, el procesamiento del lenguaje natural y el procesamiento del
habla. Para más información sobre la ingeniería lingüística en sus diferentes
vertientes, remitimos al lector a la excelente recopilación de Cole et al.
(Eds.) (1997) y a otros trabajos que presentan panorámicas generales como son los de
Carré et al. (1991), Fuchs (1993), Moure y Llisterri (1996), Vidal Beneyto
(1991) o Vidal y Busquets (1996). |
 |
El ámbito de las industrias de la lenguaLas posibilidades de procesar la información
lingüística han dado lugar al surgimiento de herramientas y productos que forman la base
de las industrias de la lengua, también denominadas «industrias del idioma». En la figura 5 se esquematizan algunas de ellas.
Cae fuera del alcance de este capítulo realizar
una descripción pormenorizada de cada una de las aplicaciones de la ingeniería
lingüística; las publicaciones de la DG XIII/E de la Comunidad Europea citadas en la
bibliografía (Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje;
Lenguaje y tecnología, De la torre de Babel a la aldea global; ¿Ingeniería
lingüística? Un mayor uso del lenguaje en todos los sentidos y Language
Engineering, The Technology), así como el trabajo más avanzado de Sager (1992),
ofrecen una panorámica general de las industrias de la lengua para los lectores
interesados. Nos limitaremos, pues, a mencionar que, como puede observarse en la figura 5, tanto las técnicas propias del tratamiento del
texto escrito como las desarrolladas para el procesamiento del habla dan lugar a diversas
funciones que se incorporan a programas informáticos, denominados a veces en inglés.
En el campo de la lengua escrita, señalamos las
herramientas de ayuda a la redacción y corrección de documentos que abarcan de los
correctores ortográficos a la creación de un entorno con acceso a diccionarios
electrónicos, enciclopedias y correctores gramaticales o de estilo, la gestión de
la documentación, incluyendo la posibilidad de generar y resumir automáticamente
documentos, y la traducción, tanto en su modalidad completamente automática como en lo
que se refiere a las herramientas que pueden ayudar al traductor humano.
En cuanto al tratamiento del habla, se dispone en
la actualidad de programas que permiten el dictado automático o la conversión en su
forma sonora de un texto en formato electrónico. Es posible también, mediante los
sistemas de diálogo que incorporan síntesis, reconocimiento y un cierto grado de
comprensión, obtener información o realizar transacciones a través del teléfono.
Cabe destacar que el multilingüismo es un
aspecto recurrente en la mayoría de las aplicaciones de la ingeniería lingüística. Los
recursos lingüísticos que enumeramos en la figura 3
pueden ser tanto monolingües como multilingües, con el fin de incorporarlos a sistemas
de traducción, ya sea de lengua escrita o de traducción del habla. Por otra parte,
algunas de las aplicaciones desarrolladas en el ámbito de las industrias de la lengua
encuentran su utilidad en la enseñanza de lenguas asistida por ordenador, tanto en los
sistemas presenciales como en la enseñanza a distancia.
Para finalizar este apartado, es necesario
referirse también a la relevancia de las aplicaciones de la ingeniería lingüística
como ayuda a las personas con discapacidades visuales que pueden hacer uso de
conversores de texto a habla, auditivas para quienes la conversión de habla
en texto puede ser una alternativa viable en ciertos casos o con transtornos de la
producción del habla, que pueden utilizar igualmente sistemas de conversión de texto a
habla. |
|
|
|
|
|