Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2004 > J. Llisterri. Las oportunidades...
El español en el mundo

Las tecnologías lingüísticas en España

Joaquim Llisterri

5. Las oportunidades para las tecnologías lingüísticas en España

La primera reflexión de los autores del informe EUROMAP es que: «España ha realizado progresos ejemplares en el desarrollo de las competencias en tecnologías lingüísticas necesarias para cubrir las necesidades de su población, lingüísticamente compleja» (pág. 43).13 Esa «complejidad lingüística» a la que se alude a menudo en el informe es, precisamente, en opinión de Joscelyne y Lockwood, una de las mayores ventajas y, a la vez, uno de los mayores inconvenientes para la competitividad española. Por una parte, afirman estos autores que la «regionalización» ha contribuido a «diluir» el énfasis en el español, por lo que estamos ante una «oportunidad perdida» para la comunidad dedicada a las tecnologías lingüísticas, que debería, desde su punto de vista, centrarse, en el ámbito nacional, en el desarrollo de productos para el español «para competir más eficazmente en un mercado global».14 Por otra, reconocen, que «el compromiso con la investigación multilingüe, especialmente a través de programas regionales de I+D, es un modelo para la Unión» y que existe en España una profunda «experiencia científica con lenguas menos densas que es virtualmente única en Europa», ya que pocos Estados miembros desarrollan productos y servicios multilingües centrados en las «lenguas regionales». En resumen: España pierde una oportunidad importante al no concentrar sus esfuerzos en una lengua con un amplísimo mercado global, pero gana el conocimiento, la experiencia y la tecnología necesarios para enfrentarse a una situación multilingüe, que es la que caracteriza el mercado europeo.

Ante este diagnóstico, cabría tal vez acercarse más en profundidad a los datos. Una constatación inicial es que en el campo de las tecnologías lingüísticas prácticamente no existen, según nuestras informaciones, grupos de investigación ni empresas que se dediquen únicamente al catalán, al euskera o al gallego sin incorporar el castellano a sus trabajos, salvo el caso de empresas dedicadas a desarrollar y distribuir un único producto específico como, por ejemplo, los correctores de textos.

Tres motivos podrían explicar esta situación: el primero, que no se dispuso de fuentes de financiación procedentes de programas autonómicos de I+D hasta el momento en que se consolidaron las iniciativas en este nivel de la Administración. A modo de ejemplo, el Gobierno vasco empezó a financiar Xuxen, un corrector ortográfico para el euskera, en 1992, el Centro Ramón Piñeiro para la Investigación en Humanidades de la Xunta de Galicia en el que se desarrollan recursos para las tecnologías lingüísticas en gallego se creó en 1993 e inició sus primeros proyectos en 1994, y en Cataluña, el Centre de Referència en Enginyeria Lingüística de la Generalitat comenzó su andadura en 1996. Un caso paradigmático, que se ha repetido en otras ocasiones, podría ser el de WordNet, un recurso léxico que se empezó a desarrollar para el español en 1996 —con financiación europea procedente del programa Language Engineering— y que, posteriormente, cuando se contó con recursos autonómicos, se amplió al catalán, al euskera y al gallego. Por citar otro ejemplo en el terreno empresarial, Telefónica I+D dispuso de un conversor de texto en habla para el español, Amigo, desde principios de los años noventa, mientras que las versiones en otras lenguas del Estado no estuvieron desarrolladas hasta bien entrada la segunda mitad de la década.

Una segunda razón estriba en la propia dinámica de las tecnologías lingüísticas, pues si en algunos casos, como en la traducción automática, sea de texto o de habla, el multilingüismo es inherente al desarrollo de un producto, en otros constituye una notable ventaja competitiva respecto a un sistema monolingüe. Esto lleva al tercer motivo, que no es otro que el mercado. Si tal vez un grupo de investigación puede permitirse trabajar en una única lengua de las que EUROMAP denomina «menos densas» —aunque, como hemos visto, éste no suele ser el caso—, el número de hablantes de catalán, euskera y gallego hace que para una empresa sea poco viable centrarse únicamente en estas lenguas.15 Ciertamente encontramos algunas empresas especializadas en traducción automática entre el catalán y el castellano o en recursos y herramientas para el euskera o el gallego, pero, por ejemplo, la empresa que ha desarrollado Imaxin, un corrector ortográfico en gallego, mantiene también otras líneas de actividad. Si consideramos el mercado, observamos que un producto para el usuario final como un sistema de dictado automático está disponible para el español —desarrollado por IBM en el caso de ViaVoice, y por ScanSoft en el caso de Dragon Naturally Speaking—, lo estuvo para el catalán, con FreeSpeech de Philips, que contó con el apoyo económico del Gobierno autónomo, pero dejó de comercializarse por cambios en la estrategia empresarial y, según nuestras noticias, no se ha desarrollado aún en euskera ni en gallego.

Atendiendo a los perfiles de los grupos de I+D y de las empresas, no parece pues que se haya «diluido» el énfasis en el español: más bien, a nuestro modo de ver, o se ha partido de desarrollos existentes en castellano para ampliarlos a otras lenguas o se ha asumido la necesidad de crear productos multilingües que incluyen el español para situarse en el mercado. En lo que respecta al «apoyo nacional a una serie de lenguas “regionales”» al que se refiere el informe EUROMAP, cabría precisar que se ha tratado de un apoyo que procede, fundamentalmente, de las Comunidades Autónomas, algunas de las cuales han incorporado acciones sobre lengua y tecnología a sus programas de I+D. No deja de ser cierto que los programas nacionales han financiado proyectos en los que tenían cabida el catalán, el euskera y el gallego, y que la acción estratégica a la que aludíamos en el segundo apartado recoge adecuadamente las «otras lenguas oficiales del Estado español»16 —denominación más afortunada que la de «lenguas “regionales”»—, pero, aun así, no parece posible argumentar que las tecnologías lingüísticas en español han recibido una menor financiación estatal a causa de la dispersión de esfuerzos en otras lenguas.

Un segundo elemento que no se menciona específicamente para España pero que aparece recogido en las conclusiones y las recomendaciones de EUROMAP, y que incide muy directamente en las oportunidades para las tecnologías del lenguaje, es el de los recursos lingüísticos. Es bien sabido que las tecnologías lingüísticas no pueden desarrollarse sin contar con una serie de elementos como son los corpus textuales y orales convenientemente anotados en todos los niveles, los recursos léxicos y terminológicos, las gramáticas computacionales y las herramientas de análisis lingüístico. Por esta razón, buena parte de los grupos y empresas que se han propuesto la creación de aplicaciones en el terreno del tratamiento del texto o del habla han debido proveerse, en primer lugar, de estos recursos lingüísticos básicos. El resultado es que se ha invertido reiteradamente en la financiación de corpus y herramientas que cumplen objetivos similares y que no siempre están al alcance de toda la comunidad investigadora, aun en los casos en que se han realizado esencialmente con fondos públicos.

Una situación similar se produce en lo que se refiere a los recursos para la investigación más puramente lingüística o filológica. Como acertadamente reconoce el propio Plan Nacional de I+D+I:

En lo que atañe específicamente a las investigaciones lingüísticas y textuales, se están creando varios corpora tanto sincrónicos como diacrónicos de las diferentes lenguas españolas que son esenciales para una gran cantidad de estudios teóricos y aplicados. Sin embargo, se hace necesario establecer instrumentos de coordinación de tales corpora de manera que no solamente puedan estar a disposición de toda la comunidad de investigadores, sino que además sea viable su utilización en investigaciones que abarquen más de una lengua. [.]

En este sentido, es urgente una acción encaminada a coordinar los corpora y las herramientas que existen en la actualidad y dedicar los recursos necesarios para dotar a las lenguas de España de dichos instrumentos, que tendrá una gran utilidad de investigación para diversas disciplinas, y estimulará además la investigación sobre dichas lenguas, no sólo por parte de grupos de España, sino del mundo entero.

En consecuencia, se propone inventariar y estudiar los corpora existentes, investigar en las bases metodológicas que permitan la compatibilidad entre ellos así como establecer criterios uniformes de etiquetamiento y configuración de sus contenidos textuales, no sólo en lo que atañe a los materiales ya existentes, sino también a los de los nuevos corpora cuya creación se vaya a promover. Finalmente se sugiere también facilitar el acceso general a estas importantes bases documentales, por ejemplo mediante la creación y mantenimiento de una página web desde donde se pueda realizar consultas a todos ellos (págs. 452-453).

En este sentido, el Observatorio Español de Industrias de la Lengua del Instituto Cervantes realizó y difundió un censo de los corpus existentes para el español en 1994, actualizado y publicado en las páginas web del OEIL en 1996, actividad que parecía adecuarse completamente a lo que ahora se afirma que es urgente en el Plan Nacional. Podemos mencionar también, en este contexto, el proyecto RILE (Servidor de Recursos para el desarrollo de la Ingeniería Lingüística en Español), promovido igualmente por el Instituto Cervantes y financiado por el Ministerio de Industria y Energía entre 1999 y 2000, cuyo objetivo era la realización de una prueba piloto encaminada a resolver los problemas de compatibilidad implicados en la futura creación de un servidor común con corpus, herramientas e información al que pudiera acceder la comunidad dedicada al desarrollo de tecnologías lingüísticas en español. Pese a que cabe pensar que respondía en buena parte a las necesidades que en estos momentos se plantean, se trató, una vez más, de una acción que, a tenor de la información recogida, no ha tenido tampoco la continuidad esperada.

Es oportuno recordar que en el Anuario de 1998 se exponía ya la conveniencia de «disponer, en el marco nacional, de fuentes de información completas sobre los recursos y herramientas existentes y en desarrollo» y se destacaba «la necesidad de coordinación entre grupos y proyectos, evitando la duplicación de esfuerzos y el consiguiente desaprovechamiento de medios» (Llisterri y Garrido, págs. 347-348). Esto lleva a suponer que tal vez nos encontramos ante un problema recurrente y que, tanto en lo que se refiere a la investigación lingüística como a las tecnologías del lenguaje, parece que no se ha logrado aún tomar las medidas adecuadas para racionalizar los importantes esfuerzos realizados, lo que implica, seguramente, una pérdida de oportunidades para el desarrollo del sector.

  • (13) Andrew Joscelyne y Rose Lockwood, Benchmarking HLT progress in Europe. The EUROMAP Study, Copenhague, EUROMAP Language Technologies, Center for Sprogteknologi, 2003. volver
  • (14) También en el resumen del informe se insiste en este aspecto: «una excepción notable es el caso del español europeo, en que el esfuerzo de investigación sigue siendo bastante difuso, en parte como consecuencia del apoyo nacional a una serie de lenguas «regionales», todas ellas de carácter oficial» (Lockwood y Joscelyne, pág. 13). volver
  • (15) Así se reconoce en el informe EUROMAP, que identifica «la magnitud de la comunidad lingüística» como uno de los factores que influyen en la transferencia de las tecnologías lingüísticas al mercado. volver
  • (16) Nótese, en relación con esta hipotética dispersión de recursos, que al referirse a la coordinación entre la acción estratégica y otros programas se señala que deben intervenir «otros agentes nacionales (Real Academia de la Lengua [sic.], Instituto Cervantes, etc.)». Tal vez, considerando que la iniciativa se hace extensiva al conjunto de lenguas oficiales españolas, no hubiera estado de más mencionar los centros equiparables a la Real Academia Española para las otras lenguas. volver
flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es