Joaquim Llisterri
Pese a mencionar la existencia de «un número relativamente elevado de pequeñas empresas» que trabajan en el sector de las tecnologías lingüísticas, el papel que éstas tienen en «ciertos laboratorios comerciales» y la importancia de «una pequeña pero significativa base de empresas que desarrollan y venden productos», el informe EUROMAP pone claramente de relieve la baja inversión de la industria española en el campo que nos ocupa.
En términos globales, el diagnóstico parece adecuado si se consideran nuevamente los indicadores generales proporcionados por el Ministerio de Ciencia y Tecnología: el gasto en I+D como porcentaje del PIB del año 2000 se situaba, para el ámbito empresarial, en un 0,5 en España, frente a un 1,21 de media en la Unión Europea; al igual que en el caso de la investigación, nos encontramos de nuevo con algo menos de la mitad de inversión respecto a la media europea. Un interesante dato complementario que puede extraerse del mismo documento es que, aunque cada sector presenta sus especificidades, el 78,6% de los gastos de I+D de las empresas españolas se financiaron en 2001 con fondos propios, mientras que la aportación de la Administración pública fue del 9,5%.
En el Anuario del Instituto Cervantes de 1998 se identificaron unas veintisiete empresas directamente implicadas en el desarrollo de proyectos de tecnologías lingüísticas; algo más de un 50% se orientaban hacia el tratamiento del texto, y el resto se dividían a partes iguales entre las centradas en el procesamiento del habla y las del sector editorial, dedicadas a la creación y explotación de recursos lingüísticos.
Actualmente pueden encontrarse en DILE 57 empresas,10 aunque con un criterio más restrictivo podrían reducirse a 31 si no se toman en consideración las empresas extranjeras sin implantación en España —que, posiblemente, se incluyen en la base de datos por disponer de productos en español—, las empresas proveedoras de servicios generales de tecnologías de la información y las empresas de ingeniería del software o de gestión de la información. Los datos recogidos para este trabajo sugieren que podrían identificarse unas dieciséis empresas dedicadas primordialmente a las tecnologías lingüísticas y otras dieciocho que, aunque éstas no constituyan su único sector de actividad, desarrollan productos o actúan como proveedores de tecnología y de servicios relacionados con el tratamiento del lenguaje y del habla. Esta estimación parece congruente con los quince proveedores de tecnologías lingüísticas que se citan en el informe EUROMAP. De las 34 empresas, casi un 60% se ocupa de la lengua escrita, mientras que aproximadamente un 40% se dedica al tratamiento del habla, una proporción prácticamente idéntica a la que encontrábamos al analizar los campos en los que se encuadran los grupos de investigación, y que, de nuevo, es coherente con la diferente puntuación que para España recibe cada sector en el informe EUROMAP.
Las diferencias entre las cifras de 1998 y las que aquí se presentan ponen de manifiesto, al menos, dos hechos. En primer lugar, al igual que se hacía notar para los grupos de investigación, la dificultad de establecer los límites de las tecnologías del lenguaje, especialmente en relación con el desarrollo de recursos lingüísticos —corpus y léxicos para la confección de diccionarios— en el sector editorial, y en relación también con las actuales herramientas de gestión del conocimiento, que pueden incluir algún componente de tipo lingüístico. En segundo lugar, como se expone a continuación, los datos disponibles muestran que los cambios en el entorno empresarial han sido significativos.
Un primer fenómeno que destacaríamos es la aparición de, al menos, cuatro empresas —tres en el campo del procesamiento de la lengua escrita y una en el de las tecnologías del habla— surgidas de equipos de investigación universitarios que han optado por comercializar sus productos. Esto constituye, sin duda, un buen indicador del potencial de las tecnologías lingüísticas; cabe añadir que, en la práctica, estas empresas pueden proporcionar empleo a lingüistas que estén suficientemente familiarizados con las técnicas y herramientas empleadas en el tratamiento informático de la lengua oral y escrita.
Un segundo factor importante nos parece la expansión de las tecnologías del habla, propiciada por el auge de los portales de voz y de los servicios telefónicos de atención al cliente o de venta de productos. Así, encontramos al menos una decena de empresas que en España compiten por ofrecer servicios de este tipo, bien desarrollando tecnología propia, bien implementando en sus plataformas tecnologías de reconocimiento y de conversión de texto en habla creadas por terceros.
En tercer lugar, cabe señalar el peso de las empresas que desarrollan sistemas de traducción automática y herramientas de traducción asistida y que, simultáneamente, suelen ofrecer servicios de traducción a través de la Web. Como mínimo, ocho de las identificadas responden a esta descripción.
En cuanto a los sectores de actividad, señalaremos también el papel relevante que ha adquirido la gestión de información y del conocimiento, tanto si se trata de documentos convencionales como de sitios web. A este sector se dedican unas seis empresas, casi todas ellas con productos en más de una lengua.
Finalmente, no quisiéramos dejar de señalar que entre los 22 proyectos aprobados hasta el momento en las áreas de «interfaces multimodales» y «sistemas de conocimiento basados en la semántica» del VI Programa Marco mencionados en el apartado anterior, únicamente cinco cuentan con participación empresarial española, todos ellos en el campo de los sistemas de conocimiento. Recordemos que los datos de 1998 acercaban la presencia de las empresas en los proyectos españoles a casi el 50%, mientras que en la actualidad se sitúa, según la información recogida en Cordis, en un tercio. Es también relevante que únicamente una de las empresas que estamos considerando en este apartado —Telefónica I+D, que forma parte de un proyecto y de una red de excelencia— se encuentra entre los socios de proyectos. El resto de la participación corresponde a ISOCO11, con dos proyectos, y a Alma Bioinformatics.12
Tal vez una de las razones de esta situación pueda encontrarse en la propia naturaleza de los proyectos del VI Programa Marco, que requieren una gestión compleja y sólo al alcance, prácticamente, de centros que cuenten con la infraestructura administrativa adecuada. La definición de las líneas de trabajo contribuye también a que las tecnologías del lenguaje sean, en ocasiones, un componente más de sistemas de mayor alcance. Probablemente la incorporación a los proyectos de las empresas que tienen su campo de actividad principal en las tecnologías lingüísticas —que, por lo general, entran en la categoría de PYME— deba realizarse a través de subcontratos para proporcionar tecnología y herramientas específicas. Esto requiere, claro está, una labor de promoción y difusión de sus trabajos así como sistemas eficaces de ayuda para la búsqueda de socios.