Joaquim Llisterri
El informe EUROMAP enfatiza —pensamos que con total acierto— el potencial de la comunidad investigadora que en España se dedica a las tecnologías lingüísticas. En la tabla de datos que aparece en el informe se contabilizan unos 30 centros de investigación, frente a los 73 grupos de I+D que se recogen en DILE (Datos de la Ingeniería Lingüística en España)5 y a los 120 mencionados en el Anuario del Instituto Cervantes de 1998, cifra que, sin embargo, se proponía reducir a 30 si se tenían en cuenta sólo aquellos equipos que habían participado en más de un proyecto, contaban con un núcleo estable de investigadores y se presentaban al exterior como grupos claramente orientados a la investigación y el desarrollo de tecnologías lingüísticas. Tal vez actualmente, y con los datos recogidos para este trabajo, podría hablarse de una cifra situada en torno a los 40 grupos, si nos referimos únicamente a las universidades, lo que denotaría un cierto crecimiento en los últimos años.
No obstante, determinar el número de grupos dedicados al sector de nuestro interés es una tarea que no está exenta de complicaciones y que depende, esencialmente, del concepto de tecnologías lingüísticas que se adopte. Una visión restrictiva consideraría únicamente los equipos que se centran en el procesamiento del lenguaje natural y en las tecnologías del habla, con lo que buena parte de los investigadores en departamentos vinculados a las humanidades quedarían, probablemente, excluidos, al menos en España. Una perspectiva más amplia llevaría a expandir las fronteras de las tecnologías del lenguaje hacia la gestión del conocimiento —término también ya de por sí genérico, al igual que el de «web semántica»—, pero no en todos los casos quienes desarrollan aplicaciones en este campo incorporan componentes lingüísticos a sus sistemas. Podría también considerarse si la investigación filológica o lingüística con ayuda de herramientas informáticas, la constitución de corpus textuales, orales y léxicos o las labores relacionadas con la terminología forman parte de las tecnologías lingüísticas; si es el caso, el número de grupos en nuestro país sería, con toda probabilidad, más alto que el que aquí se ha propuesto, y deberían añadirse los centros dedicados a la fijación y difusión de la terminología en castellano, catalán, euskera y gallego. Un problema añadido es que la información disponible no siempre es tan completa como sería deseable, pues ni todos los equipos proporcionan el mismo nivel de detalle sobre sus actividades ni actualizan sus datos con la misma frecuencia. En este sentido, una herramienta como DILE es de gran utilidad aunque inevitablemente no escape a algunos de los problemas mencionados.6
Un primer dato que nos parece interesante mencionar, en relación con el campo de trabajo de los grupos, es que aproximadamente un 40% de los equipos identificados se dedica al tratamiento del habla, mientras que el 60% centra sus trabajos en el procesamiento de la lengua escrita. Esto se refleja en el informe EUROMAP, en el que los indicadores utilizados para cuantificar la investigación y la transferencia de tecnología proporcionan para España valores más altos en este segundo ámbito. Debe señalarse, sin embargo, que en los últimos años han surgido iniciativas de colaboración materializadas en centros o en proyectos interdisciplinares, motivadas por la misma evolución de las tecnologías, que lleva a una progresiva integración entre el procesamiento del lenguaje natural y el del habla, especialmente en campos relacionados con las interfaces en los que es preciso abordar no sólo el reconocimiento sino también la comprensión —es decir, la interpretación semántica— del habla.
Un segundo elemento que caracteriza la investigación en tecnologías lingüísticas en España es que algo más del 30% de los grupos universitarios dedicados a este sector se encuentra en departamentos de filología o de lingüística. El resto se ubica en departamentos vinculados a facultades de informática en lo que se refiere al tratamiento de la lengua escrita, o de ingeniería de telecomunicación en el caso de las tecnologías del habla. Este hecho es, en buena medida, previsible, considerando que la formación que se recibe en las licenciaturas filológicas no proporciona, por lo general, los conocimientos necesarios para abordar en condiciones adecuadas un proyecto de I+D en tecnologías lingüísticas. No deja tampoco de ser cierto que las carreras técnicas raramente dotan de la formación lingüística que sería deseable para enfrentarse a un fenómeno complejo como es el lenguaje, pero en cambio ofrecen una preparación en el desarrollo de técnicas y herramientas informáticas que hacen posible la puesta a punto de sistemas, hasta cierto punto independientes de su aplicación futura. Esta situación, en la que unos tienen el conocimiento y otros la capacidad de implementarlo, lleva finalmente a que el lingüista se convierta en un «proveedor de datos» para el ingeniero o el informático. No es entonces extraño que algunos de los grupos que trabajan en tecnologías lingüísticas en el campo de las humanidades hayan orientado su labor hacia la constitución de corpus textuales, recursos léxicos y terminológicos o corpus orales.
Esta división de tareas se detectó ya en el Anuario del Instituto Cervantes de 1998, y no parece haber cambiado sustancialmente. Por ello se insistía allí en la conveniencia de «iniciar en España una reflexión sobre las necesidades de formación en ingeniería lingüística, atendiendo tanto a las necesidades del mundo académico como a la experiencia de las empresas» (Llisterri y Garrido, págs. 349-350), haciéndose eco de un estado de opinión general entre los expertos en el sector. La actual licenciatura en lingüística incluye en el plan de estudios una asignatura troncal de Lingüística Computacional, con un descriptor que los especialistas juzgarán con qué grado de acierto refleja la realidad de nuestro campo: «Procesamiento automático del lenguaje. Criterios formales de modelización lingüística. Reconocimiento automático del habla». También debe reconocerse que algunas licenciaturas en filología ofrecen asignaturas relacionadas con el tratamiento informático de la lengua, pero aun así, la oferta de ciclos completos de formación en tecnologías lingüísticas previa al tercer ciclo sigue siendo prácticamente inexistente7 pese a la posibilidad de creación de títulos propios en las universidades. En el tercer ciclo y en los posgrados pueden cursarse asignaturas específicas, tanto en centros de humanidades como en tecnológicos, pero no parece, por ahora, que se hayan planteado estudios similares a los del Máster Europeo en Lenguaje y Habla auspiciado por ELSNET o el que, por ejemplo, ofrece la Universidad de Saarbrüken en Ciencia y Tecnología del Lenguaje,8 iniciativas que podrían venir facilitadas por la existencia, en España, de doctorados interuniversitarios.
Una de las opciones que parecen más lógicas, dado este estado de cosas, es la creación de grupos que integren expertos del ámbito tecnológico y especialistas en lingüística, haciendo así realidad la denominación de «tecnologías lingüísticas». Sin embargo, los grupos constituidos como tales, a juzgar por nuestros datos, son más bien la excepción que la regla. En cambio, sí es relativamente frecuente —aunque menos de lo que sería deseable—, la colaboración en proyectos, en algunos casos con una larga tradición, o la incorporación temporal de colaboradores de uno u otro ámbito financiados con becas o contratos limitados a la duración de los proyectos.
Otra de las consecuencias poco deseables de la falta de formación tecnológica de los expertos en lingüística es que, debido a la orientación aplicada de los programas de I+D europeos y, en parte, de los nacionales, los grupos que se encuentran en situación de obtener recursos son aquellos capaces de desarrollar sistemas, herramientas o prototipos. Señalábamos ya en el apartado anterior que los equipos del campo de las humanidades que trabajan en tecnologías lingüísticas han logrado una parte importante de su financiación a través del Programa de Promoción General del Conocimiento —y previsiblemente a partir de ahora la conseguirán a través del Programa Nacional de Humanidades— y con mucha menor frecuencia en otros programas de orientación tecnológica. En ocasiones, este resultado viene también condicionado por los propios mecanismos de evaluación de las propuestas de proyectos: puede muy bien llegar a ocurrir que proyectos de desarrollo de tecnologías del lenguaje se financien sin que los equipos cuenten con el adecuado apoyo de especialistas en lingüística, mientras que quizá no resulte muy habitual que en un programa tecnológico tengan éxito propuestas presentadas únicamente por lingüistas.
Por otra parte, si analizamos la presencia española en los veintidós proyectos aprobados hasta el momento en las áreas de «interfaces multimodales» y «sistemas de conocimiento basados en la semántica» del VI Programa Marco de la Unión Europea,9 observamos que han participado universidades en once de los quince proyectos que cuentan con socios españoles; en siete de ellos se trata de universidades politécnicas (en seis proyectos participa la Universitat Politècnica de Catalunya y en uno la de Madrid) y los restantes se reparten entre la Universitat Pompeu Fabra, que interviene en dos proyectos, la Autònoma de Barcelona, que participa a través del Instituto de Inteligencia Artificial del CSIC, la Autónoma de Madrid (Escuela Politécnica Superior), la Universitat de Girona (Centro de Innovación y Desarrollo Conceptual de Nuevos Productos) y la Universidad de Alicante, que participan en un proyecto cada una. Ninguno de los grupos de estas universidades proviene del campo de la lingüística, lo que parece confirmar la apreciación con la que iniciábamos estas líneas.
Finalmente, en lo que se refiere a la investigación, quisiéramos destacar que, según datos de los Indicadores de Ciencia y Tecnología 2002 facilitados por el Ministerio de Ciencia y Tecnología, en el año 2000 —último para el que se ofrecen informaciones comparables— la media de la Unión Europea en el gasto de I+D como porcentaje del PIB para las instituciones de enseñanza superior era de 0,40, mientras que en España se situaba en el 0,28, es decir, algo menos de la mitad. Si a ello le añadimos que, según esta misma fuente, el gasto anual de I+D por investigador en las universidades en 2001 era de 40.999 euros (frente a 74.111 euros en las administraciones públicas y 172.000 euros en empresas), debe reconocerse que la evaluación positiva de EUROMAP es aún más meritoria.