|
|
Lengua y
tecnología en la política de investigación y desarrollo de la Comunidad Europea
Josep Soler. Dirección
general XIII. Comunidad
Europea |
|
Introducción
Vivimos inmersos en la llamada sociedad de la información. Estamos asistiendo a la
transición de una sociedad basada en economías locales a una sociedad internacional con
una economía globalizada que acarrea la aparición de grandes masas de información. Todo
ello favorecido por los avances tecnológicos, sobre todo en el terreno informático y de
las telecomunicaciones, que han hecho posible, en parte, el tratamiento automático de
esos volúmenes de información y su transmisión a distintos puntos del planeta.
Pero el crecimiento exponencial de la información, que ha alcanzado a ser vital para el
avance de la sociedad, puede llegar a dificultar el propio desarrollo económico y social,
sea porque la información es insuficiente o excesiva, sea porque a medida que crece el
volumen de información, las estructuras necesarias para su gestión se hacen más
complejas y más difíciles de manejar.
Disponemos de información, sí, pero no disponemos aún de sistemas eficientes para su
aprovechamiento inteligente.
Este problema se agranda si lo situamos en un contexto multilingüe como el
europeo, en que la información circula en una variedad de lenguas.
A pesar de que las fuerzas económicas imponen cada vez más el uso del inglés como
lengua de comunicación internacional, una solución monolingüe no es deseable en Europa
donde diversidad lingüística y cultural e identidad nacional son rasgos constituyentes
de su carácter multilingüe y multicultural.
Por ello, para sobrepasar los problemas creados tanto por el crecimiento de la
información como por las barreras lingüísticas existentes en Europa, y así garantizar
tanto su desarrollo económico como su integridad política, la Comunidad Europea
contribuye al avance tecnológico en el área de la información y de la comunicación.
Dentro de esta área se inscriben las distintas iniciativas comunitarias orientadas a
impulsar la tecnología para el tratamiento automático de la lengua. |
 |
Lengua y tecnología. Factores a favor y
factores en contra
Dada su importancia estratégica, es preciso seguir desarrollando aplicaciones prácticas
para el almacenaje, traducción, recuperación, manipulación y transmisión de
información multilingüe o monolingüe.
Aunque el recurso a la tecnología no represente una solución total al problema de la
comunicación, sí puede contribuir en gran medida a su mejora. Además ignorar la
tecnología para el tratamiento automático de la lengua puede tener consecuencias
irrevocables. Las lenguas que no participen en la tecnología del futuro, por ejemplo
porque no son usadas en forma electrónica, pueden entrar en fase de decadencia. Salvando
las diferencias, esta es la suerte que han seguido en el pasado las lenguas que no han
desarrollado un sistema escrito.
Hay, sin duda, una serie de factores que dificultan el desarrollo de esta tecnología
lingüística. Un diagnóstico general nos permite identificar los siguientes:
No existe todavía una demanda vigorosa de
productos para el tratamiento automático del lenguaje. Las empresas desconocen en gran
medida lo que les cuesta producir un documento y la tecnología de que pueden disponer
para agilizar y abaratar dicho proceso de producción.
La oferta actual de productos lingüísticos es fragmentaria. Disponemos de
aplicaciones consistentes en ciertas áreas, mientras en otras las aplicaciones sólo
funcionan en dominios restringidos. Además, buen número de aplicaciones no satisfacen
plenamente las necesidades de los usuarios, en parte debido al estado actual de nuestros
conocimientos sobre la estructura y el uso de la lengua, en parte porque es muy costoso en
tiempo y en dinero desarrollar productos capaces de procesar la lengua tal y como es
utilizada en situaciones reales.
No existen recursos comunes y estandarizados que puedan ser reutilizados y que
faciliten y abaraten el desarrollo de productos y servicios lingüísticos. Las acciones,
en este sentido, son muy dispersas y adolecen de una falta de coordinación e
integración.
El usuario medio de productos lingüísticos, por su parte, tiene elevadas
expectativas sobre las funcionalidades y la calidad de estos productos, expectativas que
generalmente no se corresponden con lo que dichos productos pueden ofrecer.
|
 |
Programas de lengua comunitarios
específicos en el área de la lengua y las nuevas tecnologías
Frente a esta situación, la Comunidad Europea ha articulado su respuesta al reto
tecnológico y, lingüístico a través de varios programas comunitarios, particularmente
los programas EUROTRA, LRE, ESPRIT y el Plan de Acción Multilingüe, y los programas de
educación y formación lingüística (LINGUA, DELTA). Los programas para el desarrollo de
tecnologías específicas de la información (IMPACT) y de las telecomunicaciones (RACE)
pueden ser considerados complementarios de los anteriores1. El programa EUREKA merece mención aparte, en este contexto, por
cuanto no es un programa exclusivamente comunitario.
La forma más usual de desarrollo de los programas comunitarios es a través de proyectos
de acuerdo con los objetivos del programa. El proyecto típico que se presenta en estos
programas es de carácter multinacional y multilingüe, con participación industrial y
universitaria y en áreas estratégicas que por diversas causas no superan un determinado
umbral de desarrollo, aún siendo de gran interés para la economía y la sociedad
europeas. Aquí es donde interviene la acción comunitaria de carácter precompetitivo, es
decir, aquella acción de investigación y desarrollo que las empresas desean emprender
juntas, sin dejar por ello de competir por el mercado de los resultados alcanzados.
De modo general, todos estos programas están regidos por el principio de la
subsidiariedad. Según este principio, una intervención comunitaria se justifica cuando
los objetivos estratégicos perseguidos pueden alcanzarse más eficazmente si se actúa a
nivel comunitario que a nivel nacional y, por tanto, cuando los resultados benefician a un
mayor número de estados miembros.
Es por ese motivo que el papel comunitario en el ámbito del tratamiento automático del
lenguaje que nos interesa se centra en acciones de iniciación, coordinación y
regulación, mientras delega en las comunidades científicas e industriales y en las
distintas administraciones nacionales la ejecución de acciones específicas.
En lo que sigue se describen los programas de acción comunitaria que tienen la
ingeniería lingüística como campo de intervención directa (EUROTRA, LRE, el Plan de
Acción Multilingüe y, en parte, ESPRIT).
Todos estos programas son desarrollados en el seno de la Dirección General XIII de la
Comisión de las Comunidades Europeas, que se ocupa de Tecnologías, Industrias de la
Información y Telecomunicaciones.
Presentando los objetivos estratégicos de estos programas en el área que nos interesa se
podrán extraer conclusiones sobre posibles investigaciones y aplicaciones prioritarias a
desarrollar para el español. Los objetivos globales se pueden resumir del siguiente modo:
Impulsar la participación de los
principales actores en el terreno de la producción de programas de ingeniería
lingüística, en especial de las pequeñas y medianas empresas con un alto potencial de
innovación, y fomentar su cooperación.
Estimular las actividades de investigación y de desarrollo en el ámbito
lingüístico, con la participación de los estados miembros, principales responsables del
mantenimiento de las lenguas maternas.
Fomentar la creación y explotación de recursos y herramientas lingüísticas
basadas en estándares ampliamente consensuados.
Lanzar proyectos piloto que demuestren la viabilidad de una tecnología
lingüística integrada.
Estimular y fortalecer la oferta de productos y servicios lingüísticos, así como
el uso y la integración de esos productos y servicios en distintas áreas de aplicación.
Contribuir a la formación de especialistas y usuarios.
EUROTRA
Una de las decisiones de mayor envergadura adoptadas por la Comisión en el terreno que
nos ocupa ha sido el desarrollo del programa EUROTRA desde 1982 hasta 1992. Este programa
ha estado orientado desde su inicio al desarrollo de un prototipo de sistema de
traducción automática entre las nueve lenguas oficiales de la Comunidad2. El principal resultado obtenido hasta hoy
ha sido el desarrollo de gramáticas y diccionarios computacionales para las distintas
lenguas europeas y, como resultado lateral, el avance de la lingüística computacional en
Europa y la formación de expertos en este campo. |
 |
Acciones post-EUROTRA: LRE
Tal y como han constatado las distintas evaluaciones del programa EUROTRA, desarrollar un
sistema de traducción automática de alta calidad es un objetivo difícilmente alcanzable
dado nuestro estado actual de conocimientos. Es por ello que se ha impuesto un cambio en
la estrategia comunitaria en I+D marcado por la transición hacia la reutilización
industrial de los conocimientos acumulados durante el desarrollo del programa EUROTRA.
Este cambio de orientación ya no comporta el desarrollo de un sistema de traducción
automática, sino el desarrollo de una tecnología lingüística de base que pueda ser
usada en una variedad de aplicaciones para el tratamiento automático del lenguaje.
El programa LRE (Linguistic Research and Engineering) recoge en buena parte la experiencia
de EUROTRA y la dimensiona de acuerdo con los siguientes objetivos que configurarán su
línea futura de acción:
Desarrollo de investigación lingüística
de interés general.
Creación de recursos y herramientas lingüísticas.
Apoyo a la creación de normas para la representación e intercambio de datos
lingüísticos.
Promoción de proyectos piloto de demostración y la integración de sus resultados
en aplicaciones.
Acciones de acompañamiento, con especial énfasis en programas de formación en
lingüística computacional.
El programa LRE tiene una duración inicial de
tres años (1991-1994) y un presupuesto global de 22,5 MEcus. La modalidad de ejecución
del programa es de costes compartidos, sin que eso excluya otras formas de financiación.
Es decir, los proyectos aprobados según las condiciones especificadas por el programa son
financiados al 50 % por la C.E.
La descripción somera de los proyectos aprobados hasta ahora dará una idea de los temas
que son prioritarios dentro del programa LRE.
Hasta este momento se han aprobado proyectos de investigación orientados a la
descripción de modelos lingüísticos. Así, los proyectos «Reusability of Grammars» y
«LS-Gram» proponen métodos y recomendaciones que permitan la escritura de gramáticas
reusables en el contexto de teorías lingüísticas distintas. El proyecto «Theory of
Discurse» propone, como su nombre hace entrever, un modelo lingüístico del discurso.
Se han aprobado, igualmente, proyectos orientados hacia la creación de recursos
lingüísticos y herramientas: «Onomástica» propone un léxicon que contenga la
pronunciación de nombres propios en varias lenguas europeas para uso de compañías
telefónicas. «Delis» propone la creación de herramientas para la explotación de
corpora textuales. «Translearn» está orientado a la creación de herramientas
interactivas para la traducción.
Finalmente, se han aprobado tres aplicaciones piloto de demostración: «Cobalt»
and «Sista» pretenden demostrar la posibilidad de extraer conocimientos de un texto de
forma automática. «Linguasoft» desarrolla métodos, recomendaciones y herramientas
automáticas para la localización e internacionalización de soportes lógicos.
Plan de acción multilingüe
En paralelo con los programas y acciones precedentes, el Plan de Acción Multilingüe,
cuyo objetivo global es llevar a cabo iniciativas de orden lingüístico para uso interno
de la Comisión, se ha centrado en el desarrollo de servicios de traducción
automática principalmente el sistema SYSTRAN de traducción automática y
en la planificación de una estrategia comunitaria de largo alcance en el terreno de la
lengua y las nuevas tecnologías. |
 |
SYSTRAN y otros proyectos de acompañamiento
Una de las primeras acciones de la Comisión de las Comunidades Europeas, destinada en un
principio a satisfacer parte de sus necesidades internas de traducción, fue la compra en
1976 de los derechos de desarrollo del sistema SYSTRAN de traducción automática. Desde
entonces se han desarrollado 16 combinaciones entre pares de lenguas que alcanzan
distintos niveles de calidad según su grado de evolución. Dos de estas combinaciones
parten del español como lengua de origen y traducen hacia el inglés y el francés.
Últimamente se intenta que SYSTRAN sea usado bajo licencia por las distintas
administraciones nacionales y que sus diccionarios sean puestos a la disposición de
desarrolladores de aplicaciones para el tratamiento automático del lenguaje. Estas
decisiones pueden comportar una modernización de SYSTRAN para hacerlo más transportable
e integrable en entornos ofimáticos.
El hecho de que la Comisión haya desarrollado en paralelo dos sistemas de traducción
automática, EUROTRA y SYSTRAN, se explica en parte por la necesidad de disponer
tempranamente de un sistema operativo para satisfacer sus necesidades propias de
traducción. SYSTRAN satisface actualmente una parte de estas necesidades, traduciendo una
media mensual de 10 000 páginas. EUROTRA, por su parte, basado en una tecnología más
moderna, fue concebido como un programa de investigación y desarrollo que ahora ha
entrado en la fase de industrialización y aún no es, por tanto, un sistema operacional.
Como proyectos complementarios a los de traducción, se ha desarrollado la base
terminológica de la Comisión (Eurodicautom), herramientas para la extracción
automática de terminología a partir de un texto (Equitext), tesauros y repertorios de
tesauros (Thesaurus Guide) 3.
Estudios y acciones estratégicas de infraestructura y de planificación
El Plan de Acción Multilingüe ha servido no sólo para desarrollar SYSTRAN sino también
para diseñar una estrategia global de la Comisión frente a la realidad multilingüe
europea.
La elaboración de dicha estrategia se ha venido basando en una serie continuada de
acciones preparatorias
Estudios realizados por expertos para
definir el estado actual de la investigación lingüística en tecnología vocal,
traducción automática, interfaces hombre-máquina, lexicología computacional, etc.
Estudios sobre el impacto económico de los productos lingüísticos. Estos
estudios estadísticos y de casos se han orientado a responder a las siguientes preguntas:
Cuánto tiempo y con qué frecuencia se dedican los europeos en distintas
actividades profesionales terciarias a las tareas relacionadas con la elaboración y el
tratamiento de textos. Es decir, leer y escribir un texto en lengua materna o no, traducir
un texto, buscar información y clasificar información.
Qué barreras dificultan la introducción de aplicaciones de ingeniería
lingüística en las empresas.
Cuál es la interacción entre la oferta y la demanda de aplicaciones de
ingeniería lingüística.
Las conclusiones de estos estudios ofrecen los
primeros datos sobre el estado y la evolución del mercado de productos lingüísticos.
Estudios más recientes llevados a cabo por consultorías especializadas han ahondado en
el mismo tema 4.
Inventario de productos
lingüísticos comercializados (LED, Language Engineering Directory), que contiene
información sobre 600 compañías y 1000 aplicaciones de ingeniería lingüística. Está
disponible en formato electrónico o en versión papel.
Inventario sobre los programas europeos de investigación en ingeniería
lingüística. 312 programas públicos y privados de investigación son descritos,
prestando especial atención los temas de investigación que desarrollan, a los tipos de
investigación que llevan a cabo (básica, aplicada, industrial, etc.), a los recursos
humanos involucrados y a las distintas fuentes de financiación de la investigación.
Inventario de los programas europeos de formación en ingeniería
lingüística, que incluye la descripción de 131 centros educativos y sus
correspondientes programas.
Inventario y descripción de los recursos lingüísticos existentes en Europa,
tales como bases de datos léxicas, bases de datos textuales, diccionarios convencionales
en formato electrónico y diccionarios informatizados.
Como complemento y síntesis de los trabajos
anteriormente desarrollados, se está trabajando en la elaboración de un Atlas de la
Ingeniería Lingüística en Europa que describirá, entre otros aspectos, los
principales actores industriales, académicos y administrativos en este campo, los
programas de intervención públicos y privados en ingeniería lingüística, las
organizaciones y/o asociaciones activas en áreas tales como el mantenimiento de la
lengua, la estandarización lingüística y la terminología, los proyectos anuales de I+D
en el campo de la ingeniería lingüística, los programas de formación lingüística
existentes y las fuentes de información y, documentación pertinentes en todas estas
áreas. |
 |
Acciones específicas de infraestructura y estandarización
Una serie de acciones lanzadas dentro del Plan de Acción Multilingüe han estado
encaminadas hacia la creación de las bases para el desarrollo de una infraestructura de
recursos lingüísticos en Europa. Las dos grandes líneas de actuación en este caso han
apuntado hacia la definición de normas y estándares, por una parte, y hacia la
construcción de recursos lingüísticos basados en estos estándares, por la otra.
Definición de normas y estándares
A ese respecto, la DG XIII participa en la TEI (Text Encoding Initiative), una
iniciativa conjunta europea-norteamericana en la que el Japón empieza a participar, para
el desarrollo de directrices estandarizadas para la codificación y el marcaje de una gran
variedad de textos en formato electrónico. Esas recomendaciones, basadas en el formato
SGML, son particularmente útiles cuando se pretende analizar lingüísticamente un texto
que ha sido previamente anotado, o intercambiar textos usando distintas plataformas
informáticas5.
Cabe mencionar de modo particular, por su importancia en el proceso de construcción de
recursos, el estudio NERC (Network of European Reference Corpora).
Dicho estudio nace ante la necesidad creciente por disponer de bases de datos textuales
que representen el uso real de la lengua, a partir de las cuales extraer información
gramatical en su contexto, realizar estudios estadísticos, probar el funcionamiento de
distintos ingenios lingüísticos y realizar estudios contrastivos.
En su fase actual, el NERC es un estudio de viabilidad orientado a proponer directrices
para la construcción de corpus de referencia estandarizados para todas las lenguas
europeas y de las correspondientes herramientas para su explotación6.
El estudio en curso deberá por tanto identificar y definir:
Las necesidades que los corpus
deberán satisfacer en la investigación y en la industria.
Los estándares a ser utilizados para representar los textos y anotarlos
garantizando de este modo su intercambio y ruso.
Los métodos y las herramientas necesarias para crear, procesar y mantener los
corpus.
Los aspectos legales relativos a los derechos de propiedad de los textos y de
los productos que puedan derivarse de su explotación.
Las condiciones informáticas y organizativas necesarias para construir corpus
estandarizados para todas las lenguas europeas.
En coordinación con el estudio precedente y con
el soporte de la Comisión de las Comunidades Europeas, se ha lanzado en España un
proyecto para la elaboración de un corpus de referencia del español que cubra tanto el
español peninsular e insular de España como el español de América7. El resultado de este estudio debería ser la base del futuro corpus
de referencia del español.
Ante la diversidad actual de
proyectos lingüísticos parcialmente financiados por programas comunitarios, la Comisión
interviene de modos distintos en acciones de apoyo a iniciativas de convergencia. Por
ejemplo, animando la creación de grupos de coordinación de proyectos léxicos, de
asociaciones industriales, de grupos de usuarios de productos lingüísticos y de redes de
centros de excelencia en lingüística computacional en Europa.
Cito como ejemplo de estas iniciativas al grupo EAGLES (Expert Advisory Group on Language
Engineering Standards), que se ha constituido en el marco del programa LRE y que está
compuesto por representantes de proyectos multinacionales en el área del procesamiento de
la lengua oral y escrita8. El objetivo de
este grupo es la definición de estándares de-facto para la descripción y la
representación de recursos lingüísticos, y de métodos para la evaluación de productos
lingüísticos y servicios.
Otro ejemplo de las iniciativas de convergencia que la Comisión potencia es el grupo
ELSNET (European Language and Speech Network) auspiciado dentro del programa ESPRIT. Esta
red coordina centros europeos públicos y privados de investigación y de formación de
postgrado que desarrollan tecnología para el tratamiento de voz y de texto. En la
actualidad hay 37 laboratorios conectados.
Proyectos encaminados a la construcción de estándares, recursos y herramientas
En el contexto del programa ESPRIT se están llevando a cabo varios proyectos que inciden
de una manera u otra en la consecución de tres grandes objetivos:
Desarrollar recomendaciones
para la elaboración de recursos lingüísticos estandarizados, principalmente
diccionarios y gramáticas computacionales, que así podrán ser re-usados en diversas
aplicaciones, facilitarán el intercambio de datos lingüísticos y abaratarán los
elevados costes de su elaboración.
Proponer criterios para la evaluación de sistemas para el tratamiento automático
del lenguaje, sea oral o escrito.
Elaborar proyectos piloto y construir herramientas de desarrollo que muestren la
viabilidad y fomenten el desarrollo de productos lingüísticos.
Cito sólo cuatro proyectos ESPRIT
para ejemplificar estos objetivos: SAM, MULTILEX, ACQUILEX y TWB9.
SAM está orientado a definir una metodología y procedimientos estándar para la
evaluación de sistemas de adquisición y generación del discurso oral conexo.
MULTILEX, por su parte, se orienta a la definición de un formato estándar para la
elaboración de diccionarios electrónicos multilingües y a la construcción de un modelo
de demostración, incluyendo las herramientas para la edición, importación y
exportación de datos lingüísticos.
ACQUILEX desarrolla técnicas y metodologías para la extracción automática de
información léxica a partir de diccionarios en soporte magnético, a fin de utilizar
esta información para la construcción de una base de datos léxica multilingüe.
TWB desarrolla herramientas para el procesamiento de texto multilingue y para la
conversión de documentos compatibles con el formato ODA. Por ejemplo se desarrollan
correctores ortográficos, gramaticales y de estilo y utilidades para la traducción
semi-automática.
EUREKA
Una panorámica de las tendencias actuales en programas europeos sobre la lengua y
tecnología no sería completo sin la inclusión de las iniciativas EUREKA.
Dentro del programa EUREKA10 cabe
destacar dos proyectos en vías de desarrollo, GENELEX y EUROLANG, y un tercero, GRAAL,
todavía en fase de aprobación. Todos estos proyectos11 están orientados a la creación de tecnología lingüística para
uso industrial.
GENELEX aspira a definir una norma de representación de la información léxica y a
elaborar, a partir de ella, un diccionario electrónico de unas 30 000 entradas. Al mismo
tiempo se propone desarrollar tanto las herramientas para la utilización del diccionario,
como un puesto de trabajo lexicográfico.
EUROLANG se encamina al desarrollo de un sistema industrial portable de traducción
asistida por ordenador, para diez pares de lenguas incluyendo el francés, inglés,
alemán, italiano y español.
GRAAL propone desarrollar gramáticas computacionales que puedan ser re-usadas en
distintas aplicaciones y en particular en el desarrollo de sistemas automáticos para la
indexación de textos y para la traducción asistida. Este proyecto es complementario de
GENELEX. |
 |
Programa específico sobre lengua y
tecnología
A pesar de las varias iniciativas de la Comisión, hasta aquí descritas, encaminadas a
proponer una respuesta tecnológica a ciertos problemas lingüísticos, la Comisión
carece hasta este momento de un programa estratégico y estructurado de intervención que
represente una respuesta global al problema del multilingüismo europeo.
Es preciso destacar aquí, que el multilingüismo europeo al que nos enfrentamos no se
refiere estrictamente a las nueve lenguas oficiales dentro de la Comunidad Europea, sino a
todas aquellas lenguas, con sus variantes y dialectos, que se usan en el espacio europeo.
La Europa de Maastricht debe dar una respuesta a este desafío lingüístico si quiere
preservar la diversidad europea y alcanzar al mismo tiempo la unidad política, económica
y social. En otras palabras, no se trata sólo de vencer los obstáculos de comunicación
entre los ciudadanos europeos mediante el desarrollo de tecnologías lingüísticas, sino
también de dar a cada uno la posibilidad de poseer una lengua materna adaptada a los
retos del siglo
XXI. El problema lingüístico está en el centro de la construcción
europea, de su eficacia económica y de su estabilidad política.
Es evidente, por tanto, que una respuesta a este problema no puede ser sólamente
tecnológica. Se requiere, al mismo tiempo, una respuesta política coordinada que permita
sumar los esfuerzos nacionales, principales responsables del uso y, mantenimiento de las
lenguas maternas, a los esfuerzos privados y, comunitarios.
Consciente de esta situación, la DG XIII de la Comisión de las Comunidades
Europeas está preparando una acción a largo plazo en el campo de la Lengua y la
Tecnología, donde la Comisión debería jugar el papel de iniciadora de actividades, de
coordinadora y de reguladora, delegando la ejecución misma del programa en las
estructuras e instituciones públicas y privadas pertinentes.
La preparación de esta acción se ha iniciado con la creación de un grupo de reflexión,
compuesto por expertos externos a la Comisión, que ha aportado sus recomendaciones sobre
las posibles líneas futuras de acción estratégica a seguir por la Comisión12.
En paralelo, se han llevado a cabo una serie de consultas con representantes de los
distintos sectores involucrados en el desarrollo de la tecnología lingüística:
universidad, industria especializada en desarrollos lingüísticos, industrias en el
sector de las tecnologías de la información, servicios telefónicos y postales, centros
de normalización, editores, servicios de traducción, , usuarios de productos
lingüísticos, etc.13.
Se ha encargado, al mismo tiempo, un estudio de prospectiva (LE 2000) sobre los
desarrollos previsibles en tecnología lingüística durante los próximos diez años. El
objetivo de este estudio es identificar cuáles son las principales tecnologías
integradas para tratamiento del lenguaje que se van a desarrollar durante este período,
cuándo se espera que devengan productos comerciales, qué beneficios se esperan de su
aplicación en los principales sectores comerciales e institucionales de los distintos
países europeos y cuál es la posición de Europa en el campo de la tecnología
lingüística, en relación a Estados Unidos y Japón14.
La preparación de una acción comunitaria sería incompleta si no estimulara la
participación de los distintos estados miembros. Para ello se están organizando
seminarios de difusión en las distintas capitales europeas con el objetivo de
sensibilizar a los altos directivos en la administración y en la empresa sobre los
beneficios que puede aportar tanto una acción comunitaria coordinada en el campo de la
tecnología lingüística, como el desarrollo y la aplicación de productos y servicios
basados en esta tecnología15.
No hay en este momento una fecha precisa para la presentación del susodicho programa
comunitario sobre lengua y tecnología. Se espera, de todos modos, que esté listo para su
aprobación hacia finales de 1993. |
 |
Conclusión
Dado el rápido avance de la sociedad de la información, hay una gran necesidad potencial
por disponer de una amplia tecnología lingüística para la gestión de la información.
Sin embargo, fuera de los sectores propios de la tecnología de la información no hay una
clara conciencia en el mundo empresarial de que existe un «problema lingüístico» que
puede ser en parte resuelto mediante el uso de una cierta tecnología lingüística. Los
costes de una comunicación deficiente en compañías que actúan cada vez más en un
contexto de dispersión geográfica y la confusión terminológica que de ello se puede
derivar hacen el problema más acuciante si cabe.
La demanda de aplicaciones de ingeniería lingüística es limitada, en parte, debido al
hecho de que el potencial de la ingeniería lingüística, como factor que puede
contribuir a alcanzar una ventaja competitiva, no es bien comprendido.
La oferta de productos lingüísticos, por otro lado, es todavía indiferenciada y
embriónica. Las aplicaciones de envergadura que tienen éxito comercial tienen que ser
adaptadas a las necesidades del cliente y son operativas en campos limitados.
Para construir el puente entre la oferta y la demanda en el sector de la ingeniería
lingüística, la Comisión de las Comunidades Europeas, a través de su Dirección
General MH, ha lanzado la serie de iniciativas anteriormente descritas. Con ellas se
espera sobrepasar las barreras que impiden hoy en día el desarrollo y uso de tecnología
lingüística y contribuir, por ello, a la solución de una parte de los problemas de
comunicación debidos al carácter multilingüe de Europa. |
|
Notas:
- LINGUA: Programa orientado a la promoción del
conocimiento de lenguas extranjeras dentro de la Comunidad Europea.
DELTA: Programa para el desarrollo de tecnologías avanzadas de la información y,
las telecomunicaciones en el campo de la formación y de la educación.
IMPACT: Programa orientado a la creación de un mercado interno para los servicios
de información.
RACE: Programa de I+D en tecnologías avanzadas de la comunicación.
- Las lenguas que tienen un estatuto de lengua oficial en
todo el territorio de un Estado miembro, y que están por tanto incluidas en el programa
EUROTRA, son el francés, inglés, italiano, holandés, portugués, español, danés,
alemán y griego. No están incluidas ni el irlandés ni el luxemburgués, lengua oficial
de Luxemburgo desde 1984.
- Un thesauri es un repertorio analítico de
vocabularios estructurados para la búsqueda de documentos. El «Thesaurus Guide» ha sido
publicado por North Holland y la Oficina de Publicaciones Oficiales de las CE (1992,
segunda edición). Es de libre acceso a través del distribuidor de bases de datos ECHO.
- Véase por ejemplo el estudio de OVUM Ltd., 1991:
«Natural Language Markets: Commercial Strategies».
- Disponemos ya de una versión preliminar de las
recomendaciones de la TEI, «Guidelines for the Encoding and Interchange of
Machine-Redeable Texts», ed. C. M. Sperberg-McQueen y L. Burnard, versión 2.0, 1992.
- Los distintos países que participan en este estudio
están representados por las siguientes instituciones: Institut für Deutsche Sprache
(Alemania), Instituut voor Nederlandse Lexicologie (Holanda), CNRS-Centre National de la
Recherche Scientifique (Francia), Istituto di Linguistica Computazionale (Italia),
University of Birmingham (Inglaterra), Universidad de Málaga (España), CTS-Center for
Sprogteknologi (Dinamarca), ILSP-Institute for Language and Speech Processing (Grecia),
Université de Liège (Bélgica), INIC-Centro de Linguistica da Univei-sidade de Lisboa
(Portugal), St. Patrick College (Irlanda).
- El proyecto titulado «El corpus de referencia de la
lengua española contemporánea», coordinado por el profesor Marcos Marín, ha sido
llevado a cabo en el marco de los programas patrocinados por la Sociedad Estatal para la
Ejecución de Programas del Quinto Centenario.
- Los proyectos representados en este grupo son: MULTILEEX,
GENELEX, ACQUILEX, EUROLANG, NERC, TWB, SAM, SUNDIAL, ONOMASTICA. Las asociaciones
representadas incluyen ESCA, ELSNET, FOLLI, ACL.
- SAM: «Multilingual Speech Input/Output Assesment,
Methodology and Standardization».
MULTILEX: «A Multilingual Standardized Lexicon for the European Languages».
ACQUILEX: «Acquisition of Lexical Knowledge for Natural Processing Systems».
TWB: «Translators Workbench».
El espacio no me permite citar la lista completa de proyectos ESPRIT en el área del
procesamiento automático del lenguaje natural. Se puede obtener más información sobre
estos proyectos a través de ESPRIT INFO DESK (Bruselas). TeL (+32-2)2968596.
- EUREKA nace en 1985 de una iniciativa franco-alemana. Con
la participación de la CE, EUREKA se ha desarrollado en paralelo con los programas
comunitarios de Investigación y con los objetivos de promover la cooperación en Europa
en el campo de la investigación y el desarrollo tecnológico.
- GENELEX: «Generic Lexicon. Building machine readable
monolingual dictionaries for use in natural language processing»
EUROLANG: «European Languages»
GRAAL: «Re-Usable Grammars for Automatic Language Analysis».
- El informe de este grupo de reflexión
presidido por A. Danzin se han plasmado en el documento «Vers une infraestructure
linguistique européenne», rnarzo 1992.
- Los resultados de estas consultas están
recogidas en el documento «Language and Technology. Proposals to the Commission of the
European Cornmunities, DG XIII, by Users, Industry and Researchers», Julio 1992.
- El consorcio formado por OVUM Ltd., OFIL (Observatoire
Française du Industries de la Langue) y el Fraunhofer-Institut für Arbeitswirtschaft und
Organisation ha sido seleccionado a través de un concurso público para desarrollar el
estudio, que deberá entregarse hacia mitad de 1993.
- El primer seminario ha tenido lugar en Atenas el 17 de junio de
1992. El segundo y tercero tendrán lugar en Londres y Madrid, respectivamente.
|
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|