Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 1998 > J. Llisterri y J. M. Garrido. Situación actual...
El español en el mundo

La ingeniería lingüística en España

Joaquim Llisterri y Juan M. Garrido Almiñana

3. Situación actual de la ingeniería lingüística en España

Contando con una visión general del marco de actuación y de algunas de las actividades llevadas a cabo en los últimos años, es posible centrarse en la situación actual de la ingeniería lingüística en España. Como se ha indicado al principio, el presente estudio no pretende abarcar de forma exhaustiva las industrias de la lengua, sino que se orienta especialmente hacia la ingeniería lingüística tal como se lleva a cabo en centros públicos y privados de investigación y desarrollo que trabajan en España sobre la lengua española.

Por este motivo, no se realiza un análisis exhaustivo de los productos comerciales (véase, por ejemplo, Gómez Guinovart (1994) y las pp. 46-55 del informe de FUNDESCO en lo que se refiere a la traducción automática) ni de algunas de las áreas de aplicación como la enseñanza de lenguas asistida por ordenador, que ha sido objeto de un estudio específico recogido en el Catálogo de materiales informáticos para el aprendizaje del español como lengua extranjera, publicado en 1996 por el Instituto Cervantes (véase también Arrarte y Llisterri, 1997); tampoco se consideran detalladamente las aplicaciones de la ingeniería lingüística a la ayuda a discapacitados, aunque ocasionalmente se mencionen algunos proyectos en este campo y en los mencionados anteriormente. En cambio, se ha intentado obtener información lo más completa posible sobre los trabajos realizados en lo que se refiere al procesamiento del texto escrito y del habla, y a los recursos lingüísticos, partiendo de las fuentes de información descritas en los párrafos que vienen a continuación.

Los datos empleados en la preparación de este trabajo han sido recogidos, fundamentalmente, a partir de las actividades de identificación de grupos y proyectos de investigación llevadas a cabo en el Observatorio Español de Industrias de la Lengua del Instituto Cervantes. Parte de este trabajo se ha realizado en el marco de los proyectos MAP-SPAIN (Measures for Raising Awareness and Stimulating Programme Participation in Spain) y EUROMAP (European Opportunity Mapping), ambos financiados por el sector de ingeniería lingüística de la DG XIII/E, en los que participa el OEIL.

Una fuente de información esencial ha sido la preparación, conjuntamente con la SEPLN, de una publicación, distribuida en 1997, dedicada a los grupos de investigación en procesamiento del lenguaje y del habla en España, que recoge las líneas de investigación, los proyectos y las publicaciones de 21 grupos. Se ha incorporado también, en lo que se refiere a los recursos lingüísticos y los grupos que los desarrollan, los datos recogidos en el Informe sobre recursos lingüísticos para el español, elaborado por el OEIL en 1996 y resumido por Llisterri (1996). Algunos estudios sectoriales como los de Baeza (1996), Díez Carrera (1984), el reciente volumen de Terminómetro (1996), dedicado a la terminología en España, o el de Llisterri (1995) en lo que se refiere a la fonética y las tecnologías del habla, han constituido también fuentes de información, así como el ya mencionado informe de Fundesco.

Como fuente complementaria se han utilizado también el Language Engineering Directory (1996) y el Language Industry Atlas (Edwards y Kingscott, 1996), dos compilaciones clásicas en lo que se refiere a la ingeniería lingüística y las industrias de la lengua.

En lo que respecta a los proyectos de investigación, se han consultado especialmente las bases de datos de la Comisión Interministerial de Ciencia y Tecnología, así como las correspondientes a los proyectos europeos llevados a cabo en los programas del sector de Ingeniería Lingüística de la DG XIII y en el programa ESPRIT.

Finalmente, la información disponible en Internet en las páginas web de muchos de los grupos de investigación y empresas españolas ha constituido una referencia básica a la hora de obtener datos sobre los diversos proyectos y líneas de investigación.

Sin embargo, pese a que se ha intentado obtener información lo más detallada posible en el ámbito fijado para este estudio, no se pretende haber alcanzado la exhaustividad en ninguno de los aspectos que se cubren. Los datos recogidos permiten disponer de una visión general, pero deben ser necesariamente complementados por aportaciones posteriores que permitan llegar a una perspectiva detallada de la ingeniería lingüística en España.

Grupos de investigación

En este primer apartado se ofrecen datos sobre los grupos de I+D, laboratorios, seminarios y departamentos en las universidades, centros públicos y empresas que han sido identificados a lo largo del estudio. Una primera visión general se presenta en la figura 6, donde se recoge el número de grupos identificados —incluyendo las categorías que se acaban de mencionar—, su principal ámbito de trabajo y el tipo de institución en la que desarrollan sus actividades.

En conjunto, se han detectado 120 grupos, centros o empresas en los que se llevan a cabo actividades de investigación y desarrollo que pueden considerarse como parte de la ingeniería lingüística, tal como se definía en el primer apartado de este trabajo: Ingeniería lingüística e industrias de la lengua. Se ha intentado, partiendo de la información sobre los proyectos, líneas de investigación o productos, establecer el área de especialización de cada grupo, siguiendo las tres categorías —tratamiento del texto, tratamiento del habla y recursos lingüísticos— presentadas al principio del capítulo. Aunque, indudablemente, es un dato aproximativo, puede decirse que el 39,1% de los grupos (47) tiene una dedicación principal al procesamiento del texto escrito, un 36,6% (44 grupos) al habla y un 24,1% (29 grupos) a los recursos lingüísticos.

Se observa pues, globalmente, una situación notablemente equilibrada en lo que se refiere al procesamiento del texto y al procesamiento del habla, siendo algo menor el número de grupos cuya actividad primordial en el campo de la ingeniería lingüística son los diversos tipos de recursos recursos lingüísticos, especialmente en el mundo empresarial.

También puede deducirse de la figura 6 que la ingeniería lingüística, tal como se concibe en el presente trabajo, tiene una mayor presencia en el ámbito universitario que en el empresarial, ya que el 77,5% de los grupos identificados (93) pertenecen a departamentos universitarios o a centros públicos de investigación. Sin embargo, no debe olvidarse, a la hora de evaluar estos primeros resultados, que los datos disponibles sobre la investigación en el contexto académico son más accesibles que las fuentes de información sobre la actividad comercial. Aún así, las tendencias observadas parecen ser un reflejo adecuado de la situación de la ingeniería lingüística en lengua española en nuestro país.

Los grupos de investigación en las universidades

En conjunto se han identificado 88 grupos de investigación, laboratorios, seminarios o departamentos en universidades públicas y privadas cuyas líneas de trabajo se relacionan con algunas de las vertientes de la ingeniería lingüística, el procesamiento del lenguaje y del habla o la constitución y explotación de recursos lingüísticos. Es preciso señalar que esta cifra corresponde tanto a grupos de investigación organizados como tales —de los cuales se han identificado 36— , a laboratorios (13) y a departamentos (39).

Atendiendo a su contexto académico, 42 grupos, laboratorios o departamentos se sitúan en el ámbito de la lingüística y la filología, mientras que 25 se relacionan con diversas áreas de la informática (inteligencia artificial, lenguajes y sistemas informáticas, ingeniería del software), ocho se encuadran en centros de ingeniería de telecomunicación, cuatro en otros campos científico-técnicos (estadística o electrónica) y siete en áreas humanísticas o de ciencias sociales (psicología, ciencias de la comunicación, lógica o filosofía).

En conjunto, 49 grupos (55,7%) se enmarcan en las humanidades o las ciencias sociales frente a 39 (44,3%) relacionados con las ciencias o la tecnología.

Ha sido posible obtener información sobre el número de miembros de 53 de los grupos localizados lo que, junto a los grupos de los que únicamente se ha identificado al responsable, lleva a un total de 474 investigadores universitarios dedicados a alguna de las áreas de la ingeniería lingüística en el sentido en que aquí se la define.

Los resultados para los grupos de los que se conoce el número de miembros muestran que el tamaño medio es de ocho investigadores por grupo, oscilando entre un mínimo de dos y un máximo de 29. El 39% (21 grupos) tiene entre dos y cinco miembros, el 28,3% (15 grupos) entre seis y 10 miembros, el 16,9% (9 grupos) entre 11 y 15, el 11.3% entre 16 y 20 y sólo el 3,7% de los grupos (2) llega a más de 21 investigadores.

Es interesante señalar que los equipos de investigación más numerosos (14 investigadores por grupo como media, con un mínimo de tres y un máximo de 23) se encuentran en los centros relacionados con la ingeniería de telecomunicación; en el ámbito de la informática, el número medio de investigadores por grupo es de 10 (con un mínimo de dos y un máximo de 29) , mientras que los grupos que trabajan en departamentos de filología tienen, por término medio, entre cinco y seis investigadores, con 17 investigadores en el grupo más numeroso.

Se ha establecido igualmente la distribución por comunidades, observándose que existen concentraciones de equipos en Madrid (23 grupos, que representan un 26,1% del total), Cataluña (17 grupos, 19,3%), Andalucía (16 grupos, 18,1%), Valencia (8 grupos, 9%), el País Vasco (7 grupos, 7,9%) y Galicia (6 grupos, 6,8%); Castilla y León (4 grupos), Murcia (3 grupos), Aragón (2 grupos) y las Islas Canarias (2 grupos) son las comunidades en las que se ha detectado más de un grupo o departamento con líneas de trabajo relacionadas con la ingeniería lingüística.

A fin de obtener una primera aproximación a las actividades llevadas a cabo en el seno de los equipos de investigación, se ha establecido una clasificación general en tres grandes áreas, siguiendo la presentada en la primera parte de este estudio: tecnologías del texto escrito —incluyendo lo que habitualmente suele denominarse «procesamiento del lenguaje natural» y «lingüística computacional»—, tecnologías del habla —considerando también la investigación en fonética— y recursos lingüísticos.

Aunque en ciertos casos es relativamente difícil establecer cuál es el ámbito de actividad primordial de un grupo de investigación, los resultados muestran que 34 grupos, laboratorios o departamentos se dedican fundamentalmente a las tecnologías del texto escrito (38,6%), 32 a las tecnologías del habla (36,3%) y 22 a los recursos lingüísticos (25%).

En relación con los datos anteriores sobre la adscripción a ámbitos científicos de los grupos y laboratorios, se observa en la figura 7 que los grupos relacionados con la lingüística y la filología se centran en proyectos sobre recursos lingüísticos (19 grupos, 45,2% del total de grupos en el ámbito de la lingüística), con una menor dedicación a las tecnologías del texto (14 grupos, 33,3%) y a las tecnologías del habla (9 grupos, 21,4%); en cambio, entre los equipos que se enmarcan en la ingeniería de telecomunicaciones, las tecnologías del habla constituyen, como es lógico, la actividad mayoritaria (8 grupos, cien por cien de los grupos de ingeniería de telecomunicaciones).

En el campo de las ciencias de la computación, existen 18 grupos dedicados primordialmente a las tecnologías del texto (58% de los grupos del ámbito de la informática), frente a 13 (42%) que llevan a cabo su actividad principal en el campo de las tecnologías del habla. Cabe señalar en departamentos de psicología la existencia de equipos que desarrollan recursos lingüísticos (3) para el estudio de la adquisición del lenguaje.

A partir de los proyectos y de las líneas de investigación de cada grupo o departamento se han intentado establecer una serie de áreas o campos de trabajo que corresponden a las descritas en la primera parte de este estudio. Con ello, puede llegarse a una aproximación a las especialidades que tienen un mayor peso en la investigación en ingeniería lingüística llevada a cabo en el entorno universitario. Las tablas 1, 2, 3 y 4 muestran el número de equipos con proyectos o líneas de investigación en cada una de las áreas.

Como puede observarse en la tabla 1, entre las tecnologías básicas para el procesamiento del texto escrito se encuentra un número significativo de grupos (10 grupos, 29,4% del total de grupos dedicados al texto) que trabajan en el tratamiento del nivel morfológico, lo que incluye el desarrollo de lematizadores, etiquetadores, generadores y otras herramientas correspondientes a este nivel de análisis; el segundo nivel más frecuentemente abordado es el léxico (6 grupos, 17,6%), dada su importancia en el desarrollo de sistemas de procesamiento del lenguaje natural; también en el procesamiento del texto tienen relevancia los trabajos sobre formalismos gramaticales (5 grupos, 14,7%), modelos de lenguaje (4 grupos, 11,7%) y sobre las técnicas de aprendizaje automático (4 grupos, 11,7%).

En lo que se refiere a las aplicaciones de las tecnologías del texto, existe un importante número de grupos trabajando en cuestiones relacionadas con el tratamiento y la recuperación de la información (9 grupos, 26,5% del total de grupos dedicados al texto escrito), así como con la traducción automática (6 grupos, 17,6%), la generación de textos (5 grupos, 14,7%) y los interfaces en lenguaje natural (5 grupos, 14,7%).

La tabla 2 muestra cómo en las tecnologías del habla el reconocimiento es un campo de trabajo privilegiado, considerando el número de grupos que se dedican a esta actividad (18 grupos, 56,2% del total de los dedicados a las tecnologías del habla), seguido de la síntesis (8 grupos, 25%). Entre las aplicaciones destaca el número de grupos que trabajan en la conversión de texto a habla (11 grupos, 34,4%); otros ámbitos cubiertos por los grupos universitarios incluyen la identificación y verificación del locutor (5 grupos, 15,6%) o las ayudas a discapacitados (4 grupos, 12,5%).

En cuanto a los recursos lingüísticos, tal como puede apreciarse en la tabla 3, destaca el número de grupos que incluyen entre sus actividades la constitución de recursos léxicos (9 grupos, 41% del total de los grupos principalmente dedicados a recursos); este resultado parece coherente con el predominio del tratamiento morfológico y léxico entre las investigaciones llevadas a cabo en lo que se refiere al procesamiento del texto. El desarrollo de corpus orales (8 grupos, 36,3%), de corpus textuales (7 grupos, 31,8%) y de herramientas para su anotación (7 grupos, 31,8%), forma parte también, como es lógico, de los intereses de los investigadores que utilizan recursos lingüísticos.

Se ha optado por incluir, además de las tres áreas básicas anteriormente comentadas, algunos aspectos de la investigación lingüística tanto básica como aplicada, ya que también forma parte de los intereses de los grupos y departamentos situados en la esfera de las áreas humanísticas y de las ciencias sociales que trabajan en áreas relacionadas con la ingeniería lingüística. La tabla 4 muestra la existencia de un número importante de grupos dedicados a la fonética, especialmente en Laboratorios de Fonética de departamentos de filología (12 grupos, 24,5% del total de grupos en el ámbito de las humanidades y las ciencias sociales), así como también el relevante papel de la lexicografía (8 grupos, 16,3%). Es preciso señalar que muchos de los campos presentes en la tabla 4 se corresponden con aplicaciones de los recursos lingüísticos, tanto corpus textuales como orales, mencionados en la tabla 3.

Los centros de investigación

En los centros públicos de investigación se llevan también a cabo proyectos de investigación y se desarrollan líneas de trabajo relacionadas con la ingeniería lingüística. De los cinco grupos o departamentos identificados, cuatro se enmarcan en el Consejo Superior de Investigaciones Científicas (CSIC), mientras que la Real Academia Española (RAE) se integra en el Instituto de España.

La actividad de buena parte de los grupos se centra, en lo que a la ingeniería lingüística se refiere, en la constitución y explotación de recursos lingüísticos. Mientras que TERMESP, en el Centro de Información y Documentación Científica (CINDOC) del CSIC, se dedica de forma monográfica a la terminología, en el Instituto de Lexicografía de la RAE se lleva a cabo una importante labor en el campo de los corpus textuales —sincrónicos y diacrónicos— y orales, así como en la creación de recursos para la lexicografía. Por otra parte, el Departamento de Lengua Española del Instituto de Filología del CSIC lleva a cabo proyectos en el ámbito de los corpus orales para el estudio de la variación lingüística o la adquisición de la lengua.

En el terreno de las tecnologías del habla, se desarrollan diversos proyectos en el Laboratorio de Tratamiento de Señales, Palabras y Música del Centro de Tecnologías Físicas «Leonardo Torres Quevedo» (CSIC), así como en el Laboratorio de Fonética del Instituto de Filología, centrándose los primeros en la síntesis y el reconocimiento, y los segundos en la investigación lingüística.

Cabe citar también en este apartado que, en otros centros oficiales, existen líneas de trabajo relacionadas con la ingeniería lingüística, desarrolladas en colaboración con grupos universitarios o empresas en el marco de proyectos conjuntos.

Entre las actividades identificadas se cuentan la participación del Centro Superior de Información de la Defensa (CESID) en el proyecto AVENTINUS, «Advanced Information System for Multinational Drug Enforcement», en el que se utilizan tecnologías de extracción y recuperación de información y de traducción automática. También en lo que se refiere al tratamiento del texto, el Instituto Nacional de Metereología participa en el proyecto MULTIMETEO, «Multilingual Production of Weather Forecasts», basado en procedimientos de generación de lenguaje y traducción automática. Por su parte, el Departamento de Acústica e Imagen del Servicio de Policía Judicial de la Dirección General de la Guardia Civil colabora con grupos de investigación universitarios en el campo de la identificación y verificación de locutores.

También en el área de los recursos lingüísticos, el Departamento de Tecnología Lingüística del Instituto Cervantes es responsable de la informatización del Archivo Gramatical de la Lengua Española (AGLE) de Salvador Fernández Ramírez, mientras que en la Biblioteca Hispánica de la Agencia Española de Cooperación Internacional se desarrollan recursos terminológicos en el marco de proyectos del campo de la biblioteconomía y la documentación.

Como puede observarse, a los 88 grupos o departamentos universitarios caracterizados en el anterior apartado, deben añadirse los 10 centros u organismos públicos en los que se llevan a cabo actividades relacionadas con la ingeniería lingüística en sus diversas vertientes, llegando pues a 98 equipos ubicados en centros públicos dedicados a la investigación.

La I+D en el mundo empresarial

Aunque se ha indicado al principio que no se pretendía ofrecer una visión exhaustiva de las industrias de la lengua en España, se ha realizado una primera aproximación, cuyos resultados se presentan en este apartado, al mundo de la I+D empresarial, considerando especialmente aquellas empresas que participan en proyectos de ingeniería lingüística o que dedican buena parte de sus esfuerzos a este sector.

Atendiendo a este criterio, se han identificado 35 empresas, que pueden dividirse en tres grandes categorías: empresas con proyectos y actividades en el campo de la ingeniería lingüística pertenecientes al sector de los servicios (22 empresas, 62,8% del total de empresas consideradas) editoriales (6 empresas, 17%) y grandes grupos que participan principalmente como usuarios de proyectos pero que no tienen como parte fundamental de sus actividades la ingeniería lingüística (7 empresas, 20%). Una de las empresas (Language % Technology) se dedica especialmente a proyectos de consultoría, como la elaboración del Language Engineering Directory.

Tomando en consideración las 27 empresas más directamente implicadas en el desarrollo de proyectos —las clasificadas en el sector de servicios y las editoriales—, es posible, al igual que en el caso de los grupos de investigación universitarios, obtener una primera aproximación a la presencia de las tres grandes áreas en las que hemos dividido el ámbito de la ingeniería lingüística. Se observan actividades relacionadas con las tecnologías del tratamiento del texto escrito en 14 empresas (51,8% del total de las consideradas), con el procesamiento del habla en 10 (37%) y con los recursos lingüísticos en 10 (37%), encontrándose, como se deduce de estos datos, empresas dedicadas a más de uno de estos campos.

Una primera aproximación a la situación de la I+D empresarial se presenta en la figura 8, en la que se relacionan los tres ámbitos mencionados anteriormente con la tipología de empresas establecida en este estudio.

Las empresas que genéricamente hemos denominado «de servicios» —que incluyen empresas de informática, empresas que ofrecen servicios telemáticos, telefónicos o de gestión de información y empresas de servicios lingüísticos como la traducción— centran sus actividades en el ámbito del tratamiento del texto, aunque se ocupan también del tratamiento del habla y, en menor medida, de los recursos lingüísticos. En cambio, las editoriales —entre las que se cuentan las que comercializan publicaciones en soporte informático o productos multimedia— parecen dedicadas primordialmente a los recursos lingüísticos, dada su importancia en la lexicografía y en la terminología, y el tipo de editorial sobre cuyos intereses se ha podido recabar información. Los grupos empresariales que participan en proyectos como usuarios o entes promotores y observadores lo hacen primordialmente en el campo de las tecnologías del texto.

En lo que se refiere al procesamiento del texto, la tabla 5 muestra el número de empresas dedicadas a cada uno de sus ámbitos. Puede observarse, en primer lugar, que las actividades mayoritarias de las empresas implicadas en este sector son las aplicaciones de la ingeniería lingüística al tratamiento y recuperación de la información (6 empresas, 42,8% de las que trabajan en tecnologías del texto escrito) y a la traducción automática (5 empresas, 35,7%).

Respecto al tratamiento del habla, puede verse en la tabla 6 que el reconocimiento del habla constituye el campo de trabajo de ocho empresas (80% de las que trabajan en tecnologías del habla), seguido de los sistema de diálogo persona-máquina, que implican síntesis y reconocimiento y se utilizan para la creación de servicios de información y transacciones telefónicas (4 empresas, 40%).

Los recursos lingüísticos forman también parte de los intereses de algunas de las empresas consideradas, como se observa en la tabla 7. Los datos obtenidos muestran que cuatro empresas (el 40% de las dedicadas a los recursos lingüísticos) se dedican al desarrollo de corpus textuales, y otras tantas a los recursos léxicos; la terminología es el campo de trabajo de tres empresas (30%), mientras que dos (20%) se centran en los corpus orales.

Finalmente, cabe apuntar que, entre los grupos empresariales que participan como usuarios o como entes promotores y observadores en proyectos de ingeniería lingüística, tres (42,8% del total de grupos con estas características) colaboran en proyectos relacionados con el tratamiento y la recuperación de la información, dos (28,5%) en proyectos centrados en el procesamiento de información multilingüe, uno en acceso a bases de datos mediante lenguaje natural y uno en la constitución de recursos léxicos.

Proyectos de Investigación y Desarrollo (I+D)

Si en la primera parte de este apartado nos hemos centrado en las características de los grupos de investigación, pretendemos aquí realizar una aproximación, como en el caso anterior tampoco completamente exhaustiva, a los proyectos financiados en el ámbito de la ingeniería lingüística. En primer lugar se describen aquellos que se integran en los planes nacionales de I+D, y en segundo lugar los que forman parte de los programas marco de la Unión Europea. Es necesario advertir que aunque los primeros proyectos identificados se remontan a 1985, la mayoría de los considerados en este estudio se han llevado a cabo entre 1989 y el momento presente.

Una panorámica general puede obtenerse a partir de los datos que se presentan en la figura 9, que recoge el número de proyectos relacionados con la ingeniería lingüística financiados en los programas nacionales de I+D y el número de proyectos realizados con fondos europeos que cuentan con participantes españoles. El número total de proyectos detectados en ambas categorías se eleva a 138, de los cuales 80 (58%) se llevan a cabo en el marco de programas nacionales y 58 (42%) en colaboración con otros equipos europeos y con las fuentes de financiación propias del Programa Marco de la Unión.

Entre los proyectos documentados, la mitad corresponden al ámbito de las tecnologías del habla, repartiéndose el resto entre las tecnologías del texto (30%) y los recursos lingüísticos (20%); estas proporciones son ligeramente diferentes en lo que se refiere a las dos fuentes de financiación consideradas, ya que el porcentaje de proyectos del campo de las tecnologías del habla financiados en programas nacionales (57,5%) es más elevado que el número de proyectos en este ámbito con participantes españoles en los programas europeos (37,6%), dándose la tendencia contraria, aunque no de forma tan marcada en el procesamiento del texto. A continuación, se exponen con mayor detalle los datos correspondientes a cada uno de los programas considerados.

Proyectos con financiación nacional

Como se ha indicado en el apartado Marco de actuación nacional, existen diversos programas en el Plan Nacional de I+D en los que pueden encuadrarse proyectos de investigación en el campo de la ingeniería lingüística, esencialmente los programas de Tecnología de la Información y de las Comunicaciones, Aplicaciones Telemáticas, y Promoción General del Conocimiento. A continuación se presentan algunos datos básicos sobre los proyectos financiados en este contexto.

La figura 10 presenta algunos datos globales sobre los proyectos realizados con fondos nacionales, que se completan y comentan con más detalle en los apartados siguientes. Como puede observarse, se ha logrado recoger información sobre un total de 80 proyectos, el 61,2% de los cuales corresponde al Programa Nacional de Tecnologías de la Información y de las Comunicaciones, el 31,2% al Programa Sectorial de Promoción General del Conocimiento y el resto (7,5%) a otros programas nacionales. Es también patente en la figura que existe un predominio de los proyectos en el ámbito de las tecnologías del habla (57,5%) frente a los orientados a las tecnologías del texto (23,75%) o a los recursos lingüísticos (18,75%).

Programa Nacional de Tecnologías de la Información y de las Comunicaciones

En conjunto, se han documentado 49 proyectos financiados en el marco del Programa Nacional de Tecnologías de la Información y las Comunicaciones entre 1988 y 1997. Estos proyectos implican un total de 30 grupos de investigación, llevándose a cabo mayoritariamente por parte de un único grupo (36 proyectos, 73,5%). Sin embargo, se observa que un 13% de los grupos (4) ha participado en un número comparativamente elevado de proyectos (entre 5 y 10), y que un 30% —9 grupos— ha contado con dos, tres o cuatro proyectos financiados; el resto de los equipos (17 grupos, 56,6%) ha participado en las diversas convocatorias analizadas con un único proyecto. Cabe señalar que 9 de los proyectos financiados corresponden a ayudas complementarias por la participación en proyectos europeos.

Siguiendo la división establecida en apartados anteriores, nueve de los proyectos aprobados en el Plan Nacional de Tecnologías de la Información y de las Comunicaciones se centran en las tecnologías del texto (18,3% del total de los proyectos del programa dedicados a la ingeniería lingüística), 35 tienen como ámbito las tecnologías del habla (71,4%) y cinco se dedican a la constitución o explotación de recursos lingüísticos. De estos datos y del análisis realizado se desprende que los grupos con una mayor participación en este programa pertenecen a las áreas asociadas al tratamiento del habla.

Estudiando los subámbitos de los proyectos, se aprecia que en el campo de las tecnologías del habla predominan los dedicados al reconocimiento (18 proyectos, que representan un 51,4% del total de los financiados en el campo de las tecnologías del habla), siguiendo a continuación los centrados en la conversión de texto a habla (7 proyectos, 20%).

En cuanto a las tecnologías del texto, los proyectos se reparten de forma más equilibrada entre los interfaces en lenguaje natural (2 proyectos, 22,2% del total de los subvencionados en el área de las tecnologías del texto), procesamiento del léxico (2 proyectos), herramientas de corrección y verificación (2 proyectos) y tratamiento y recuperación de la información (2 proyectos). La misma situación se encuentra en los que tienen como objetivo los recursos lingüísticos, que abordan tanto los corpus orales para aplicaciones a las tecnologías del habla (2 proyectos, 40% de los financiados en el ámbito de los recursos lingüísticos), los corpus textuales, los recursos léxicos (2 proyectos) y los recursos terminológicos (2 proyectos).

Programa Sectorial de Promoción General del Conocimiento

Como se ha señalado en el apartado Marco de actuación nacional, el Programa Sectorial de Promoción General del Conocimiento tiene como objetivo la investigación básica que no esté incluida en el resto de programas nacionales. En ámbitos estrechamente relacionados con la ingeniería lingüística, se han identificado 25 proyectos financiados entre 1989 y 1996, que implican la participación de 27 grupos de investigación; como puede deducirse fácilmente, la gran mayoría de los proyectos (17, 68% del total) los realiza un único grupo, aunque existen casos de colaboración entre centros (7 proyectos, 28%).

Un 40% de los proyectos financiados en el marco de este programa (10 proyectos) tienen como objetivo la recogida o explotación de recursos lingüísticos, tanto corpus orales (4 proyectos, equivalente al 40% del total de proyectos sobre recursos lingüísticos) como corpus léxicos (4 proyectos, 40%) o textuales (2 proyectos, 20%).

El procesamiento del habla es el ámbito en el que se centran nueve de los proyectos detectados (36% del total de proyectos de ingeniería lingüística financiados en el programa); buena parte de ellos (6 proyectos, 66,6% del total de proyectos en tecnologías del habla) corresponden a investigación en fonética, mientras que uno se dedica a la identificación y verificación de locutores y otro al reconocimiento. El 24% de los proyectos considerados (6 proyectos) pertenece al ámbito de las tecnologías del texto, sin que pueda establecerse un objetivo predominante, ya que se cubren muchas de las áreas propias de esta especialidad.

Otros programas

Aunque en menor medida que en los dos programas anteriores, la investigación en áreas relacionadas con la ingeniería lingüística ha sido financiada también a través de otros programas como el Programa Nacional de Aplicaciones Telemáticas, el Programa Nacional de Tecnologías Avanzadas de la Producción o el Plan de Acción de Software (PASO). Se han hallado en este caso 6 proyectos, que implican a un total de 10 grupos; 2 de estos proyectos pueden encuadrarse en las tecnologías del habla, mientras que 4 de ellos se integran en el ámbito de las tecnologías del texto.

Proyectos con financiación europea

Entre los distintos programas de investigación y desarrollo de la Unión Europea, centramos este apartado en los proyectos con participación española llevados a cabo en el marco del Programa de Tecnologías de la Información (ESPRIT) por una parte, y del sector de Ingeniería Lingüística del Programa de Aplicaciones Telemáticas por otra. En la figura 11 se presenta una visión general de los ámbitos y los programas en los que se han identificado proyectos con participantes españoles.

Estos primeros datos muestran que, en conjunto, se han podido documentar 58 proyectos europeos en las diversas vertientes de la ingeniería lingüística que cuentan con participantes españoles. El 44% de ellos se enmarcan en el sector de Ingeniería Lingüística del Programa de Aplicaciones Telemáticas, mientras que el 38% se llevan a cabo en el programa ESPRIT. Otros programas financian el 17,2% de los proyectos identificados con la categoría que estamos analizando.

Considerando la totalidad de los proyectos, el 39.6% se sitúan en el ámbito de las tecnologías del habla, mientras que el 37,9% lo hacen en el de las tecnologías del texto y el 22,4% en el de los recursos lingüísticos. La especificidad de cada uno de los programas queda patente en la figura 9. Así como en el marco de ESPRIT el 68% de los proyectos con participantes españoles se centran en las tecnologías del habla y el 32% en las del texto, las proporciones se invierten en el sector de Ingeniería Lingüística: 42,3% de proyectos relacionados con el procesamiento del texto escrito frente al 7,6% relacionados con el tratamiento del habla. La dedicación preferente a los recursos lingüísticos de este sector se aprecia también en los datos presentados.

Programa de Tecnologías de la Información (ESPRIT)

Durante los años 1985 a 1997 ha sido posible detectar la presencia de 22 proyectos en el ámbito de la ingeniería lingüística con participantes españoles financiados en el marco del programa ESPRIT. En conjunto, esto supone la implicación de 15 grupos de investigación y de 10 empresas; aunque casi el 70% de ellos únicamente han participado en un proyecto, existen 8 equipos (2 empresas y 6 grupos universitarios) que han formado parte de más de un proyecto, con un máximo de cuatro proyectos aprobados en un mismo equipo.

Buena parte de los proyectos del programa ESPRIT que han contado con grupos españoles se ocupan de las tecnologías del habla (15 proyectos, que representan un 68,1% de los proyectos con participación española); entre ellos dominan los dedicados al reconocimiento del habla (7 proyectos, 46,6%), aunque también se recogen actividades en comprensión del habla (3 proyectos, 20%) y en fonética (3 proyectos).

Por lo que se refiere a las tecnologías del texto, los 7 proyectos que cuentan con participantes españoles en este ámbito (31,8% de los proyectos con grupos españoles) abordan cuestiones como el procesamiento del léxico (2 proyectos), las herramientas de ayuda a la traducción (2 proyectos) o los interfaces en lenguaje natural (2 proyectos).

Programa de Aplicaciones Telemáticas, Sector de Ingeniería Lingüística

Desde 1991 hasta 1997 se han financiado en el sector de Ingeniería Lingüística del Programa de Aplicaciones Telemáticas un total de 30 proyectos en los que se han integrado equipos españoles. Este sector ha implicado a 21 grupos universitarios o centros de investigación y a 17 empresas, tanto como participantes como en calidad de usuarias de los proyectos. Aunque mayoritariamente forman parte de cada proyecto uno o dos grupos españoles, en algunos casos se encuentran hasta cinco participantes de nuestro país, naturalmente en los casos en que los equipos españoles están integrados en los consorcios y no como norma general del programa. De las 37 entidades implicadas, 28 (75,6% del total) han participado en un proyecto, cuatro han participado en dos, tres en tres, dos en cuatro, y un grupo ha participado en cinco proyectos, mientras que otro lo ha hecho en siete.

Observando la distribución por ámbitos de actuación de los proyectos del sector de Ingeniería Lingüística con presencia española, se constata que 13 proyectos (43,3% del total de proyectos con socios españoles) tienen como objeto los recursos lingüísticos, 11 (36,6%) las tecnologías del texto y 2 (6,6%) las tecnologías del habla. Igualmente se da la participación española en proyectos dedicados a estándares en ingeniería lingüística, a formación, y a promoción y difusión del sector.

Dentro de cada uno de los ámbitos, la distribución de la presencia de socios españoles entre las diversas especialidades es relativamente equilibrada en el caso de los recursos lingüísticos y de las tecnologías del texto; los dos proyectos centrados en las tecnologías del habla que cuentan con participantes de nuestro país se centran, en ambos casos, en el diálogo persona-máquina.

Otros programas europeos

Además de los programas mencionados en los apartados anteriores, se ha detectado la integración de grupos españoles en proyectos de ingeniería lingüística financiados por programas como EUREKA, COST, ACTS, TIDE, LIBRARIES o HCM. En el conjunto de todos ellos, y sin pretensiones de exhaustividad, se identifican 10 proyectos en los que participan un total de 13 grupos españoles (8 equipos universitarios, 3 empresas y 2 organismos oficiales). Cuatro proyectos abordan tecnologías del tratamiento del texto escrito como la traducción automática, el procesamiento y la recuperación de información o los interfaces en lenguaje natural, mientras que seis se centran en la conversión de texto a habla, el reconocimiento o la identificación y verificación del locutor.

Tendencias generales

Los datos recogidos en los apartados anteriores constituyen una aproximación al estado actual de la ingeniería lingüística en lengua española en nuestro país. Como se ha indicado repetidamente, no son seguramente exhaustivos, aunque permiten señalar algunas tendencias, que se presentan en los párrafos siguientes.

En primer lugar, tal y como se ha definido la ingeniería lingüística en el primer apartado, y con los datos disponibles, se han identificado 120 grupos —grupos de investigación consolidados como tales, laboratorios, seminarios o departamentos— en universidades, centros públicos y empresas dedicados a actividades en nuestro ámbito de interés. Estos grupos participan o han participado desde 1985 hasta la fecha en 138 proyectos, llevados a cabo tanto con financiación nacional como europea. Sin embargo, debe tenerse en cuenta que en el caso de los proyectos con financiación española, la mayoría de los documentados se iniciaron en 1989, mientras que los proyectos europeos a los que hacemos referencia comenzaron mayoritamente en 1991.

Los datos recogidos muestran que las actividades en ingeniería lingüística que han gozado de financiación pública se llevan a cabo principalmente en centros universitarios (77,5%), aunque no debe dejarse de tener en cuenta la presencia de un 22,5% de grupos en empresas, tanto del sector de los servicios como del editorial, que han participado con éxito en las convocatorias a las que pueden acogerse.

Los grupos de los centros universitarios se reparten entre los ámbitos científico-tecnológicos (44,3%) y las humanidades o ciencias sociales (55,7%). Sin embargo, los campos de trabajo son relativamente diferentes, ya que los grupos del primer ámbito se dedican esencialmente a las tecnologías del texto (58% de los grupos científico-técnicos) o del habla (42%), mientras que los del segundo tienen un marcado interés en los recursos lingüísticos (45,2% de los grupos de humanidades) frente a las tecnologías del texto (33,3%) o el procesamiento del habla (14%).

Las actividades de la mitad de las empresas identificadas (51,8%) se concentran en el tratamiento de textos escritos, lo que las diferencia globalmente de los grupos universitarios, un 38,6% de los cuales se dedican primordialmente a este ámbito; también se observa un mayor interés por los recursos lingüísticos en las empresas (37% de las empresas trabajan en recursos) que en los equipos académicos considerados globalmente (25% de los grupos en la universidad se dedican a los recursos). Sin embargo, el interés en las tecnologías del texto acerca el mundo empresarial a los grupos universitarios del ámbito científico-técnico, mientras que la creación de recursos lingüísticos lo aproxima a los grupos de humanidades y ciencias sociales.

Es interesante contrastar el ámbito de dedicación principal de los equipos investigadores con la tipología de los proyectos financiados. La figura 12 muestra los resultados globales, que ponen de manifiesto una cierta diferencia entre las tecnologías del texto y las tecnologías del habla: mientras que en el primer ámbito el porcentaje de grupos cuya actividad prioritaria son las tecnologías del texto (39,1%) es mayor que el de proyectos financiados (20%), el tanto% de proyectos subvencionados en el campo de las tecnologías del habla (50%) es mayor que el porcentaje de grupos con actividad en este terreno (36,6%).

En lo que respecta a los recursos lingüísticos, se constata una situación más equilibrada (24,1% de grupos, 20% de los proyectos financiados), explicable por el elevado coste económico de este tipo de actividad.

Debe también tenerse en cuenta, a la hora de evaluar los datos presentados, el número de proyectos en los que participa o ha participado cada grupo o empresa. La figura 13 muestra que la mayoría de los equipos (70,9%) ha dispuesto o dispone de fondos para un proyecto, aunque vale la pena destacar que una cuarta parte de los grupos (25,7%) han participado o participa en un número de proyectos que oscila entre dos y cinco; el 7,8% ha contado, en cambio, con fondos para cinco o más proyectos, especialmente en programas como el de Tecnologías de la Información y de las Comunicaciones o en los del sector de Ingeniería Lingüística del Programa de Aplicaciones Telemáticas.

Finalmente, para situar los datos en su justa perspectiva, debe recordarse que hemos estados refiriéndonos a «grupos» como una entidad que incluye laboratorios, departamentos, centros de I+D en empresas o equipos para los cuales han podido documentarse actividades en el área de la ingeniería lingüística. Sin embargo, sólo el 30% de los 36 grupos se presenta con esta denominación, respondiendo a una organización interna muy a menudo reconocida en la estructura universitaria y a efectos de promoción exterior. Este porcentaje coincide esencialmente con el de equipos que han participado o participan en más de un proyecto (25,7%), mostrando la existencia de una base investigadora consolidada que ha de permitir el desarrollo de la ingeniería lingüística en España.

flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es