Joaquim Llisterri
Una de las primeras cuestiones que, con respecto a España, se señalan en el informe EUROMAP es la ausencia de un programa nacional centrado en las tecnologías lingüísticas, contrariamente a lo que sucede en otros países europeos como Alemania, Francia o el Reino Unido. Los datos recogidos a lo largo del proyecto muestran que, en efecto, buena parte de las investigaciones en procesamiento del lenguaje y del habla en nuestro país se han financiado, en los últimos años, en el marco de programas como el de Tecnologías de la Información y de las Comunicaciones o el de Promoción General del Conocimiento; se ha dado, además, una clara tendencia a que en el primero participaran equipos con una fuerte orientación tecnológica, mientras que en el segundo se concentraran los grupos del ámbito de las humanidades.
La presencia, como puede verse en la tabla 1, en el Plan Nacional de I+D+I para el período 2004-20074 de una Acción estratégica denominada «Ingeniería del lenguaje humano adaptado (sic.) al castellano y a otras lenguas del Estado español», integrada en el Programa Nacional de Tecnologías Informáticas y concebida para facilitar el desarrollo de «la interacción hombre-máquina, interfaces y accesos que asuman el uso de las lenguas oficiales del Estado español» constituye, sin duda, una iniciativa muy positiva, que debería contribuir a paliar la falta de visibilidad de las tecnologías lingüísticas en los programas nacionales y la consiguiente dispersión de los proyectos. Sin embargo, tal como muestra la tabla 1, las tecnologías lingüísticas siguen formando parte de varios programas, debido tal vez a su propia naturaleza, que hace posible las aplicaciones a diversos sectores si éstas se conciben como un instrumento para facilitar la interacción entre personas y sistemas informáticos y para gestionar de un modo eficaz la información.
Dejando al margen esta acción estratégica, que comentaremos más adelante, las tecnologías lingüísticas están presentes, aunque no de forma mayoritaria, en los programas nacionales de Seguridad —«sistemas de tratamiento de información en diferentes idiomas», reflejados en la prioridad temática dedicada a la protección de información digital— y de Tecnología Electrónica y Comunicaciones —«reconocimiento y síntesis de voz», en la prioridad sobre tratamiento de señal del subprograma de Tecnologías de las Comunicaciones.
Las tecnologías del lenguaje encuentran realmente su lugar preferente en el Programa Nacional de Tecnologías Informáticas por una parte, y en el de Tecnologías de Servicios de la Sociedad de la Información por otra. En el primero, las tecnologías lingüísticas tienen cabida en tres prioridades temáticas: sistemas inteligentes, con una línea de acción sobre «interfaces avanzadas de comunicación», gestión de información —«metadatos y procesamiento semántico» y «contenidos multimedia: indexación, interrogación y recuperación»—, y en la prioridad sobre interfaces avanzadas, que incluye líneas de actuación centradas en «interfaces multimodales» y en «reconocimiento y generación del habla». En el segundo, las «interfaces hombre-máquina» constituyen una línea de acción en la prioridad temática e-Administración, mientras que el subprograma nacional e-Contenidos incluye tres líneas de acción: «adaptación de estándares e interfaces a las especificidades de los idiomas y culturas», «desarrollos dedicados a integrar los contenidos en las lenguas del Estado español en un entorno internacional multilingüe» y «desarrollo de nuevos lenguajes e interfaces que hagan más fácil la utilización de los contenidos». Finalmente, en el área de Tecnologías de la Sociedad de la Información, la iniciativa estratégica sobre «Seguridad y confianza en los sistemas de información, las comunicaciones y los servicios de la sociedad de la información» toma en consideración el reconocimiento del habla —identificación mediante «patrones de habla» en el texto ministerial— entre las tecnologías para la identificación de personas.
A su vez, el Programa Nacional de Humanidades recoge como dos de las prioridades temáticas las «aplicaciones de la lingüística e industrias de la lengua» y el «desarrollo y aplicación de nuevas tecnologías a las Humanidades», en las que también pueden intervenir las tecnologías lingüísticas, dada la referencia al uso de herramientas informáticas para la conservación y difusión del patrimonio documental y, por ejemplo, para la «decodificación de lenguas antiguas».
Por lo que se refiere a la acción estratégica específicamente centrada en las tecnologías lingüísticas, se mencionan en ella cinco líneas de actuación, cuya descripción reproducimos tal como aparece en el Plan Nacional:
Dejando de lado los demostradores, puede apreciarse que se promueven tres líneas relacionadas con lo que tradicionalmente constituyen las tecnologías del habla —conversión de texto en habla, reconocimiento del habla y sistemas de diálogo, y reconocimiento del locutor— y una centrada en lo que se conoce como procesamiento del lenguaje natural. Cabe interpretar que por «reconocimiento del lenguaje natural» se alude al reconocimiento y la comprensión del habla en el contexto de los sistemas de diálogo —lo que incluye también un componente de procesamiento del lenguaje— y que, tal vez, los «reconocedores» mencionados en la línea dedicada al procesamiento del lenguaje natural hagan referencia a otro tipo de tecnología.
Es interesante también señalar que, en el texto de presentación, se especifican las siguientes líneas de investigación:
En el contexto español, esto se puede concretar en la mejora de la base tecnológica que soporta (sic.) el reconocimiento y procesamiento del castellano y otras lenguas oficiales del Estado español, la traducción de voz a texto y viceversa, la interpretación de comandos de voz, el discurso espontáneo, los sistemas de diálogo, la utilización del lenguaje natural para la búsqueda de información en bases de datos, etc.
Las actividades en esta acción se encuadrarán en un rango que abarca desde la investigación básica en áreas como el aprendizaje automático, la lingüística computacional (análisis sintáctico y expansión semántica, entre otros), o el diseño de motores de búsqueda basados en el procesamiento del lenguaje natural, a temas más aplicados como el trabajo colaborativo y otros cercanos al área de humanidades (comunicación multicultural, etc.) (pág. 336).
Las áreas de trabajo propuestas son, pues, la conversión de texto en habla, el reconocimiento y la comprensión del habla, los sistemas de diálogo sin restricciones en cuanto al estilo y la búsqueda y recuperación de información empleando técnicas de procesamiento del lenguaje natural, todo ello en el contexto de interfaces para la interacción entre personas y sistemas informáticos que permitan tanto el uso de la lengua escrita como de la oral. Puede observarse que, en conjunto, estos campos se relacionan con los dos ámbitos que en el Programa de Tecnologías para la Sociedad de la Información del VI Pro grama Marco de la Unión Europea (2002-2006) recogen de un modo más directo las tecnologías lingüísticas: «interfaces multimodales», por una parte, y «sistemas de conocimiento basados en la semántica», por otra, ambos incluidos en las denominadas «tecnologías para las interfaces y el conocimiento».
Sin embargo, no deja de resultar un tanto sintomático de esa dispersión a la que aludíamos al principio que en el Plan Nacional se recojan diversas denominaciones para la misma tecnología: la conversión de texto en habla, por ejemplo, la encontramos como «síntesis de voz», «generación del habla», «conversores texto/voz» o «traducción de texto a voz», mientras que el reconocimiento aparece mencionado como «reconocimiento de voz», «reconocimiento del habla», «reconocimiento automático del habla», «traducción de voz a texto» o en aplicaciones específicas como la «interpretación de comandos de voz». También, en lo que se refiere a cuestiones terminológicas, se ha optado por la denominación «ingeniería del lenguaje humano», quizá en una referencia conjunta a lo que en su momento fueron los programas de Ingeniería Lingüística (LE, Language Engineering) en el IV Programa Marco (1994-1998) y de Tecnologías para el Lenguaje Humano (HLT, Human Language Technologies) en el Quinto (1998-2002). Algo similar sucede con las industrias de la lengua: en el Programa Nacional de Humanidades se indica que: «En este campo, se habla ya de industrias de la lengua, como transferencia de conocimientos y técnicas al ámbito empresarial y a la sociedad en general» (pág. 451). No cabe duda de que la definición es acertada, pero no puede ignorarse que tal expresión, habitual a principios y mediados de la década de los noventa, no parece ya encontrarse, al igual que la de «ingeniería del lenguaje», en los programas europeos.
Estas cuestiones de detalle no deben hacer olvidar la importancia de que, finalmente, una acción estratégica centrada en las tecnologías lingüísticas tenga un lugar en la política de investigación y desarrollo de nuestro país. Sería, quizá, conveniente, tras este primer ensayo, intentar alcanzar una mayor cohesión, tanto en lo que se refiere a la propia denominación de las tecnologías como a su inclusión en distintos programas. Bien es cierto, no obstante, que el Plan Nacional recoge muy oportunamente en cada caso la relación entre las diversas iniciativas y que, en cierto modo, es inevitable que un campo «transversal» aparezca en más de una ocasión. Así, se reconoce, por ejemplo, que la acción estratégica sobre ingeniería del lenguaje humano «se realizará en común con el Área de Humanidades, Ciencias Sociales y Económicas, y tendrá participación de otros agentes nacionales (Real Academia de la Lengua [sic.], Instituto Cervantes, etc.)», e indicaciones parecidas pueden encontrarse en otros casos.
Un segundo aspecto que afecta al entorno institucional y que señala el informe EUROMAP es que, en España, la inversión del sector público en tecnologías lingüísticas se sitúa ligeramente por debajo de la media europea (4 puntos, en una escala del 1 al 7, en la que la media es de 4,2). A este respecto, debe tenerse en cuenta que, justamente a causa de la dispersión en diferentes programas y sectores, no resulta sencillo disponer de cifras que reflejen fielmente la financiación que reciben las tecnologías lingüísticas y que, por lo tanto, cualquier cantidad constituye una estimación. El único modo de proceder, en nuestra opinión, consistiría en obtener datos sobre la asignación a cada uno de los proyectos de procesamiento del lenguaje y del habla que se llevan a cabo con fondos públicos. Esta tarea implica disponer de suficiente información individual sobre los proyectos y no deja de estar exenta de problemas, puesto que, por un lado, las tecnologías lingüísticas pueden ser uno de los múltiples componentes de un proyecto y, por otro, no siempre es sencillo, como se explica más adelante, determinar los límites de las tecnologías del lenguaje.