Francisco A. Marcos Marín
La palabra clave para el incremento de la presencia del español en internet es contenidos. El uso de una lengua depende del volumen de información que transmita y la información tiene una carga de utilidad: se usa porque se necesita. A continuación trataremos de presentar aquellos campos que exigen unas aplicaciones lingüísticas. Haremos hincapié en los aspectos más necesarios, desde el más simple, como es el acceso a la información, hasta el más complejo y de mayor incidencia económica, el de la industria, el comercio y el manejo del dinero a través de la red.
La entrada a la información se realiza, principalmente, a través de la entrada en un portal de laweb, al que se accede directamente, porque se conoce su dirección electrónica su URL, localizador de recursos universal, o bien a través de un portal que permite realizar búsquedas. Los portales del segundo tipo son los llamados buscadores, que es preciso distinguir de los «hojeadores», browsers, programas que permiten ver las páginas escritas en los lenguajes de la red, HTML (hypertext markup language) y, cada vez más, XML (extended markup language). En todos los casos, se trata de derivaciones del SGML(standard generalized markup language).
La posibilidad de realizar las búsquedas en español es muy interesante, por supuesto. Reparemos, previamente, en que las búsquedas, en realidad, no son sino interrogantes a unos índices y que las respuestas dependen de los contenidos de los índices. Lo necesario no es que podamos pedir en español la información que precisemos, sino que accedamos a una información en español. Para ello, el requisito es que se haya colocado en la red información en español y que esa información haya sido convenientemente indexada, para darla a conocer.
Los ingeniosos procedimientos que pretenden averiguar los contenidos en español de la red interrogando a estos buscadores de manera que localicen palabras vacías en español, no resuelven el problema de que puede haber muchas páginas en castellano en la red a las que no accedan esos buscadores. Quien quiera puede buscar, por ejemplo, UNITE, ADMYTE o Foulché-Delbosc. Cuando escribimos estas líneas, no se puede acceder así a los miles de caracteres de información que esas referencias contienen o sólo se accede incompletamente. Nos parecería espléndido que, cuando algún lector lo intente, tras el lapso que requerirá su publicación, este ejemplo estuviera equivocado.
El primer día en el que la Enciclopedia Británica autorizó el acceso gratuito por internet a (una versión reducida de) su contenido, se alcanzaron los doce millones de conexiones. Los índices de uso del inglés, naturalmente, se dispararon. El español necesita que exista un recurso similar que, en estos momentos, sólo puede ser la Enciclopedia Universal de Micronet (http://www.micronet.es/) que puede implementarse rápidamente a partir de programas como la versión web de Knosys u otros similares. Será preciso hacer los esfuerzos necesarios para que éste u otros recursos estén presentes y puedan consultarse directamente, porque es un factor muy apreciable de crecimiento de uso. Hay que insistir en que estas iniciativas suponen el desarrollo de buen número de puestos de trabajo y la aparición de actividades, como la de redactor de enciclopedias y diccionarios electrónicos, que son muy nuevas en nuestro ámbito cultural.
La presencia de bibliotecas virtuales y archivos digitales en la red incrementa los contenidos y permite el acceso de los hablantes a una riquísima información. Una primera división ha de tener en cuenta que, en este punto, nos encontramos, por un lado, con los portales que ofrecen una colección de textos, sin más, con el objetivo de que las personas que no tienen acceso al libro puedan disponer de los libros por la red. En consecuencia, pueden descargarse libros completos desde los servidores correspondientes. Este objetivo es indiscutible en casos como el de las bibliotecas rurales argentinas, donde, además, continúa un proyecto previo de difusión del libro por los canales tradicionales. Al segundo sector de este rubro corresponden los archivos en los cuales los textos sirven de base para consultas, con dos posibilidades: que además de consultar, pueda leerse el texto, o que sólo puedan hacerse consultas, que permiten acceder a parte del texto, pero no a todo. Los servidores del segundo tipo no permiten descargar el libro completo.
Las bibliotecas virtuales y archivos digitales absorben una cantidad relativamente elevada de mano de obra. En principio, el tratamiento lingüístico es sencillo, puesto que se trata de incluir una codificación básica, que permita recuperar una información que puede limitarse a una simple división por capítulos. A medida que se van imponiendo los estándares de codificación, especialmente SGML, es cada vez más factible completar esta codificación original con un etiquetado lingüístico automático o semiautomático que puede alcanzar notable complejidad.
El directorio de centros electrónicos de Rutgers (http://scc01.rutgers.edu/ceth/infosrv/volume.htm), aun siendo muy completo, no es igualmente fiable en lo que concierne a los textos en inglés donde pretende ser exhaustivo y los textos en otras lenguas. Una de las primeras necesidades para poner al español en un lugar destacable por su utilidad es, precisamente, desarrollar este tipo de recursos para esta lengua.
En las bibliotecas virtuales españolas distinguiremos tres tipos. El primero corresponde a las que desarrollan principalmente la función de almacén de textos, que pueden extraerse completos y que no están pensadas ni como centros de documentación ni como bases para el análisis.
El segundo tipo corresponde a la catalogación y edición electrónica, con criterios filológicos, de fondos documentales. Además de un catálogo amplio, contiene enlaces a reproducciones facsimilares, transcripciones, tablas de primeros versos, información bibliográfica y biográfica.
El tercer tipo comprende los sistemas que permiten interrogar. En este caso tenemos dos variantes. La primera es una colección de textos convertidos en bases de datos textuales mediante una serie de programas del conjunto TACT, desarrollado originariamente en la Universidad de Toronto y vinculado al Archivo Digital de manuscritos y Textos Españoles (ADMYTE) para la conversión de textos transcritos según las normas del Hispanic Seminary of Medieval Studies de Madison, Winsonsin (HSMS), a bases de datos interrogables mediante otros programas de este conjunto. La segunda es la que corresponde a la consulta de los corpus de la Real Academia Española, en un sistema experimental.
El terreno de la educación, la ciencia y la cultura, junto con el de la prensa y medios de comunicación, es el que más tratan cuantos se acercan a las posibilidades lingüísticas de internet. Se encuentra abundante información en los anuarios precedentes y en estos sectores es sencillo, a partir de los buscadores de uso general, el acceso a los centenares, si no millares, de páginas de rico contenido. Un problema añadido es que muchos de estos portales son peregrinantes, en función de los traslados personales, al tratarse de contribuciones de individuos, por ejemplo, http://www.el-castellano.com/ de Ricardo Soca. Alternan así los personales y los institucionales, como el del Instituto Cervantes. Universidades, centros de investigación y laboratorios, bibliotecas, museos, asociaciones científicas y profesionales tienen ya sus portales, a los que se unen los de muchos centros secundarios e incluso primarios. La instalación de internet en las escuelas es objetivo de los principales partidos políticos, en todo el dominio lingüístico del español.
La auténtica dimensión lingüística de estos portales está por determinar. Sería sabia una actitud política que impulsara los contenidos en español, porque es notable el número de centros de investigación que publican electrónicamente en inglés. No se cuestiona la necesidad de publicar en la lengua común de los científicos contemporáneos, pero es necesario incentivar a quienes también presenten sus investigaciones y propuestas en la lengua común de los hispanoamericanos.
Los portales identificados anteriormente, en el terreno de las bibliotecas digitales, pertenecen también a este rubro. Puesto que la información existente es muy abundante, nos parece más oportuno detenernos en lo que se refiera a la enseñanza de la lengua por internet. Una primera referencia, de carácter general, en lo que se refiere a sugerencias, documentación y materiales, es la que apunta a http://www.spainembedu.org de la Consejería de Educación y Ciencia de la Embajada española en Washington. La Consejería mantiene centros de recursos para la enseñanza del español en colaboración con la Universidad del Sur de California (Los Ángeles, CA), la Universidad de Nuevo México (Albuquerque, NM), la Universidad de Houston (Houston, TX), Florida International University (Miami, FL) y la Universidad de Indiana (Bloomington, IN), en Estados Unidos, a los que se añade la Université de Montréal (Montreal, Canadá). Está prevista la próxima apertura de un centro de recursos en la Universidad de Duke (North Carolina).
La necesidad de aprovechar al máximo los recursos disponibles, integrándolos y coordinándolos, se hace patente cuando, al repasar los enlaces de interés abiertos desde el portal de la Consejería, advertimos que falta un enlace al Instituto Cervantes (enlace que aparece en páginas específicas, como las de Diploma de Español). Si se trata de una crítica indirecta a los contenidos del portal del Instituto, debería haberse explicitado; si es un descuido, debe corregirse. En ambos casos, lo más necesario es encontrar una solución que permita servir mejor a los usuarios de la red.
El uso de internet para la enseñanza del español es de tal importancia que sustenta una realidad de la envergadura del Centro Virtual Cervantes. Es un hecho aceptado que las lenguas se pueden enseñar y aprender por internet y que las redes ofrecen materiales y posibilidades, incluso orales, incomparablemente más amplias que los sistemas tradicionales. Exigen, también, un esfuerzo muy grande, al menos parangonable al de la enseñanza directa, presencial.
El correo electrónico, las tertulias, las listas y los portales son los procedimientos iniciales para plantear la enseñanza del español por las redes. El correo electrónico garantiza la eficacia de los contactos y la relación de diálogo, que se amplía en las listas o foros de debate y que llega al acceso a todo tipo de información mediante los buscadores que nos llevan de portal en portal. Se ha señalado con insistencia cómo el correo electrónico, al ser asíncrono, es más adecuado para adaptarse mejor a distintos niveles: permite tomarse tiempo para la reflexión y la corrección, da a cada alumno un tempo propio, elimina las inhibiciones que con frecuencia aparecen en las clases, en donde los alumnos más espontáneos suelen ocupar un tiempo superior al de los más tímidos, o simplemente menos exhibicionistas. Para los alumnos que ya no son jóvenes, este factor es importante, no olvidemos que aprender una nueva lengua requiere un esfuerzo, no sólo de inteligencia, sino también de comportamiento, que se manifiesta más cuando ya han pasado las edades de ocupar un puesto en el aula. A pesar de su aparente espontaneidad, que favorece el uso de expresiones de la lengua corriente, su componente escrito hace que se puedan introducir usos lingüísticos que van más allá de lo meramente conversacional, lo cual también favorece a los alumnos con interés más profundo por la estructura lingüística y cultural a la que se acercan.
Hemos de separar, dicho lo anterior, los medios de los contenidos, que deben servir para satisfacer las necesidades del usuario. El acceso al español como parte de un programa de enseñanza es un acceso lingüístico y cultural. Lo que llena de contenido a la parte lingüística es la gramática. Los contenidos culturales son más variados, pero no cabe duda de que, en el plano de la enseñanza, el central es el contenido textual, adecuado a las exigencias de cada alumno. Una persona que necesite el español para consultar bibliografía de las ciencias de la salud se interesará por textos médicos y farmacéuticos, un usuario general, por los literarios. Todos ellos, sin excepción, necesitan una base gramatical. No nos interesa aquí la enseñanza de la lengua para la supervivencia en territorio foráneo. Hablamos de una enseñanza con una visión cultural, no de terraza de playa. Invertir en costosos recursos para enseñar español debe orientarse a algo más duradero que una ración de gambas y una cerveza, sin negar que estos elementos también se incluyen en un aspecto de la cultura española.
La mejora de los accesos a internet permite ir haciendo un uso progresivamente mayor de los componentes de sonido e imagen. Las videocámaras de bajo costo permitirán, en breve plazo, asociar la comunicación con la imagen, lo que producirá una nueva evolución didáctica. La calidad del sonido y las posibilidades de compresión de los nuevos formatos facilita el uso de recursos como la música, las canciones e incluso el cine. Es posible seleccionar portales especializados en folclore de diversos países, o en tipos de música, como el flamenco (http://www.xs4all.nl/~damian/ring.html), la zarzuela (http://www.nashwan.demon.co.uk/zarhome/zarhome000.htm, con treinta entradas en Olé) o el tango (http://www.cyber-tango.com/e/). Las capacidades de los buscadores nos permiten recuperar direcciones de internet que apunten a cada uno de esos contenidos.
La posibilidad de recibir el sonido con cierta calidad permite la conexión a los receptores de radio digitales, conexiones síncronas, que facilitan que un estudiante de español, en cualquier parte, pueda estar oyendo emisoras hispanohablantes situadas en otro continente. La información sobre emisoras, en todo el mundo, en cualquier lengua, así como acerca de los periódicos y las revistas digitales, que se encuentra recogida en http://emedia1.mediainfo.com/emedia/, registra doce emisoras en España (incluidas una en gallego y varias catalanas), siete en español en Sudamérica, una en Cuba. La cifra se incrementa notablemente si consultamos http://www.mundolatino.org/prensa/, que incluye periódicos, prensa especializada, radio y televisión, aunque también algunos títulos hispánicos en inglés. Con todo, en conjunto, nos situamos por encima de las mil entradas. El crecimiento en un año, en relación con lo publicado en este mismo Anuario para 1998, es espectacular. Argentina cuenta con 43 periódicos digitalizados, 37 publicaciones especializadas y 12 emisoras de radio; México, con 71, 48 y 9; Venezuela, con 20, 46 y 8; Chile, con 15, 28 y 10, respectivamente, mientras que en España las cifras contabilizan 41 periódicos, 102 revistas especializadas y 19 emisoras de radio.
En 1998 el comercio electrónico mundial se multiplicó por más de dos y alcanzó los 111 000 millones de dólares. En Estados Unidos, durante los años 1996, 1997 y 1998, el comercio electrónico y las tecnologías de la información supusieron un tercio del crecimiento económico real. Europa no puede quedarse atrás en este desarrollo, pero hasta el 2003 no llegará a igualar el número de usuarios que se conectarán a internet en Estados Unidos: la magnitud del comercio económico europeo, en el 2002, sólo equivaldrá a un 55 por ciento de la de este país.
La industria de las telecomunicaciones europeas, según el informe de Ovum para 1999, elaborado por Ian Stevenson, será la encargada de dirigir esta «revolución silenciosa», con un tráfico de banda ancha internacional en Europa occidental que alcanzará los 1 700 gigabits por segundo (Gbps) en las horas de mayor uso de las redes, lo que multiplicará por 40 los niveles actuales de 41 Gbps. Ovum no recomienda el desarrollo de los servicios tradicionales y apuesta por las tecnologías IP, los protocolos de internet. En el 2005, la transmisión de voz no alcanzará ni un 3 por ciento del tráfico de las nuevas redes. De producirse esta circunstancia, los servicios lingüísticos prioritarios serán los de la lengua escrita y la correlación entre texto e imagen, con los archivos digitales, los corpus paralelos y la traducción (que incluye terminología y diccionarios) como principales objetivos y la recuperación inteligente de la información, la minería de datos, como aplicación informática más generalizada.
El pesimismo sobre los servicios de voz contrasta con la ruptura de las barreras entre la telefonía y laweb. Las aplicaciones que está previsto que realicen su despegue en Europa son las de la telefonía IP, mensajería unificada, y aplicaciones de comercio electrónico mejoradas que integren la web, conferencias multimedia y centros de llamadas basados en IP. Un 80 por ciento de los hogares estadounidenses y un 60 por ciento de los europeos accederán a los nuevos servicios basados en la telefonía IP para el 2006. Este incremento radical implicará una rebaja en los precios de un 50 por ciento. En nuestra opinión, descuidar los estudios lingüísticos relacionados con la expresión oral sería un error (los informes de Ovum a lo largo de los años no han sido precisamente infalibles), pero la contrapartida técnica exige una mejora sustancial de la calidad de internet, que preocupa a un 89 por ciento de los usuarios europeos actuales, especialmente en lo relacionado con la seguridad de los datos y la rapidez de las transmisiones.
Un aspecto de indudable interés lingüístico y de creciente desarrollo en los últimos años en relación con el mundo empresarial y el comercio electrónico es el de la denominada «minería de datos», traducción del inglés data mining.
El análisis de los datos, en un momento en el que las empresas cuentan con bases de datos cada vez más complejas, es de indiscutible importancia. Los datos se almacenan de muchas maneras, no sólo en bases estructuradas. Es preciso recuperar información de medios muy distintos, ficheros de imágenes y sonido, bases de datos estructurales, archivos textuales, todo en diferentes formatos. Muchas veces es preciso relacionar también componentes de oficinas situadas en diversos locales, incluso países. Además de recuperar los contenidos de los archivos, es de creciente interés la explotación de los datos para innovaciones como el análisis del portafolio. Lo que interesa es desarrollar la gestión del conocimiento de una manera creativa, buscando valores ocultos en los datos almacenados. La cuestión clave es cómo se convierte un dato en información, es decir, cómo pasa a tener utilidad para ese proceso gestor, cuya finalidad principal es dar soporte al usuario final. El concepto de información subyacente está vinculado a la capacidad de decisión: el dato pasa a considerarse información cuando permite tomar decisiones.
Una vez que se puede tratar así la información, es posible individualizarla o personalizarla, es decir, acomodarla a cada cliente. Este tipo de relación tiene una necesaria carga lingüística, presente, de todos modos, en el conjunto del proceso. Las propuestas personalizadas, como toda relación directa, se apoyan en unas opciones lingüísticas que han de tenerse necesariamente en cuenta. El proceso de elección del idioma, como todo el tratamiento científico del mismo, es obligatorio, lo que abre las puertas a diversas integraciones de los resultados del análisis informático de las lenguas naturales, desde el análisis y la síntesis del sonido hasta la gramática, la terminología, los diccionarios y los corpus paralelos. El español cuenta con una actividad en este campo bien valorada internacionalmente, pero reducida, por lo que sigue dependiendo de sistemas originados en otros ámbitos lingüísticos, tanto del inglés como del alemán.
Tras los sectores de las comunicaciones, parece ser la banca la actividad económica que demanda más actividad lingüística, y no sorprende su crecimiento en la red. Ya hablamos antes del caso del MIGROSBANK suizo. En España el número de usuarios de la banca telefónica estuvo por encima de los cinco millones en 1998, con un crecimiento de un 32 por ciento respecto del ejercicio anterior. Los que realizaron operaciones bancarias a través de internet fueron 380.000, casi cinco veces más que en 1997, según un estudio realizado por la consultora DBK. Esta tendencia llevará a la desaparición de la desconfianza que todavía existe tanto entre los directivos como entre los usuarios. La tendencia hacia los bancos que funcionen exclusivamente por internet es una realidad, aunque todavía un 63 por ciento de las instituciones bancarias reconoce desconocer la rentabilidad de estas inversiones, según el informe anual de Ernst & Young Consultores, de 1999.
Hasta un 7 por ciento de los nuevos clientes españoles de un banco como ING Direct, filial del grupo holandés ING, proceden de la red. El banco, que opera por teléfono y por internet, recibe sobre todo clientes del primero de estos dos sistemas. A pesar de que, hasta hoy, los resultados son de pérdidas, la inversión de la banca en los canales electrónicos continúa, pues nadie quiere perder sus posiciones en lo que se considera el negocio del futuro.
La experiencia del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid confirma que en los últimos cinco años los bancos han estado más interesados en el desarrollo de servicios lingüísticos para la comunicación telefónica que para internet. A medida que ha ido transcurriendo el tiempo, hemos visto cómo las preocupaciones lingüísticas se han ido afinando. Actualmente no interesa la simple reproducción de sonidos inteligibles, hay una concentración del interés en la articulación automática de mensajes de voz de apariencia humana. Se tiende a la sustitución de las operaciones que reducen la interacción al tecleo de dígitos por otras que incluyen una apariencia de intercambio conversacional (en el servicio de Cajamadrid, por ejemplo, entre otros). Todo ello exige un desarrollo lingüístico que los centros españoles de investigación en lingüística computacional están en condiciones de ofrecer, lo que ha producido un acercamiento notable entre departamentos de telecomunicaciones y de lingüística en los últimos diez años. La realidad está ahí, exigiendo reformas de planes de estudios y mayor flexibilidad para la combinación de opciones que permitan cruzamientos no sólo entre facultades, sino también entre universidades.