Rafael C. Carrasco Jiménez
La información, como otras creaciones humanas, también puede ser objeto de descripción: por ejemplo, la ficha de un libro contiene información sobre quién es el autor o cuál es la fecha de escritura del libro, que además contiene, por sí mismo, información. Cuando este tipo de datos descriptivos se archivan en un medio digital es costumbre denominarlos metadatos o, también, metainformación.
Adicionalmente, hoy es posible explotar metainformación que no se encuentra en las fichas catalográficas. Por ejemplo, el índice de un libro es metainformación implícita en el contenido. También lo es la separación entre líneas y el tamaño de la letra que nos informa, por ejemplo, de que lo que estamos leyendo es un título o una nota del editor y no parte del texto principal. Este tipo de metadatos se denomina habitualmente metainformación estructural, pues informa sobre la estructura lógica del documento, frente a la metainformación descriptiva, que describe el objeto como lo hacen las fichas catalográficas (véase la figura 5). Finalmente, se denomina metainformación administrativa a la información referida a los procesos de gestión del objeto, tales como información técnica (por ejemplo, qué programa se usó para crear la reproducción digital) o sobre los derechos de propiedad intelectual que afectan a la obra.
Tradicionalmente, los catalogadores se han esforzado en describir minuciosamente todos los objetos almacenados en las bibliotecas con el fin de facilitar su localización y consulta. La limitación de espacio y tiempo para realizar esta tarea produjo el desarrollo de técnicas especiales para normalizar los procedimientos. Por ejemplo, la clasificación decimal universal (CDU)2 es un sistema de clasificación, con más de 68.000 clases, adecuado para ojear, según los intereses del lector, colecciones de tamaño mediano o pequeño. La descripción que proporciona la clasificación universal de un documento es ciertamente limitada pero independiente del idioma, pues cada clase se identifica mediante un código numérico. Sin embargo, todavía faltan herramientas informáticas que faciliten esta actividad en las bibliotecas digitales, haciéndola análoga a su versión, tan habitual, en las bibliotecas tradicionales.
En contraste con la CDU, los encabezamientos de materia (véase la figura 5 de nuevo) son una descripción del contenido de un libro que se hace utilizando un lenguaje controlado. Un lenguaje controlado no es más que una norma que limita la expresividad del lenguaje espontáneo mediante la fijación de formas de expresión canónicas. El trabajo laborioso de creación, actualización y uso de un lenguaje controlado permite, a cambio, identificar con mayor celeridad los volúmenes que tratan la cuestión que nos interesa. Sin embargo, su uso requiere un análisis minucioso y previo del contenido de cada libro y, con frecuencia, el lector debe ser guiado en la localización por un experto.
Como se ha mencionado, la explotación de la metainformación descriptiva requiere con frecuencia la asistencia de un experto en catalogación. Es difícil, para el usuario no experto, dominar el lenguaje controlado que se utiliza en las descripciones de materia. Ciertamente, es aún más difícil cuando están expresadas en un idioma que no conocemos, porque estas descripciones se hacen en un lenguaje, decidido por cada biblioteca, independientemente del idioma principal del texto. Por ejemplo, una biblioteca de Alemania usará probablemente el alemán (y quizá el inglés) para describir sus contenidos, aunque entre ellos haya libros en español. Esta dificultad se manifiesta con fuerza cuando se integran bibliotecas, como en el caso de la Biblioteca Digital Europea (http://www.theeuropeanlibrary.org/), de distintos orígenes. Afortunadamente, es posible desarrollar algunas herramientas que ayuden a cruzar estas barreras idiomáticas.
La experiencia demuestra que los encabezamientos de materia no son una forma popular de buscar e identificar objetos, debido probablemente a que su uso requiere conocimientos específicos: el usuario inexperto sólo hallará resultados si su consulta acierta con los términos del vocabulario controlado. Por ello, se está estudiando3 cómo crear sistemas que integren el conocimiento popular (reflejado en creaciones como las enciclopedias colaborativas) para traducir automáticamente las preguntas realizadas por los usuarios no expertos al lenguaje controlado que utilizan las bibliotecas para describir los objetos. Estos sistemas suelen recibir el nombre de tesauros u ontologías y se diseñan con capacidades deductivas básicas para obtener nuevas relaciones entre los términos del vocabulario.
También se está progresando en la estandarización de la forma en la que se guarda y publica la metainformación descriptiva4 y cada vez es más habitual que las bibliotecas describan sus contenidos según normas internacionales como, por ejemplo, MARCXML5, Dublin Core (http://dublincore.org/) y MODS6.
Dadas sus características, las transcripciones parecen objetos digitales de mayor valor que las ediciones facsímiles. Sin embargo, la mera recolección de las palabras de un texto no es suficiente para reproducir el documento original. Tampoco es suficiente para crear una nueva edición del texto que satisfaga las normas de calidad exigidas para su publicación. Piénsese, por ejemplo, en la compleja estructura de un verso de teatro que contiene parlamentos de dos personajes diferentes. Para poder representar estos textos de manera correcta es preciso añadir a la réplica digital información sobre la estructura lógica del texto. A esta información se le suele denominar metainformación estructural, por oposición a la metainformación descriptiva que describe las características generales del documento (como su título, autor o fecha de creación).
Este tipo de metainformación está implícita en los textos pero, si obtener una transcripción exacta es una tarea compleja, aún lo es más la extracción automática de la estructura lógica de un documento. A pesar de que se han realizado progresos significativos en la consecución de este objetivo, la diversidad de fuentes impresas (libros, periódicos, revistas, etc.), de estilos (novelas, teatro, poesía, etc.) y de intereses (algunas bibliotecas prefieren mantener la estructura original y otras, en cambio, realizar ediciones propias) hacen que no haya aún soluciones universales y totalmente fiables. Por ello, las bibliotecas que han optado por esta forma de producción suelen realizar el trabajo, al menos parcialmente, de forma manual.
Conviene destacar que es muy útil distinguir la estructura lógica (esto es, la organización en capítulos, secciones, notas o referencias) de la descripción del aspecto de un texto (esto es, el tipo de letra, el interlineado, etc.) por dos motivos esenciales. Primero, porque es difícil que la misma persona sea un experto en escribir textos (por ejemplo, un investigador que escribe un ensayo científico) al tiempo que un experto en tipografía; por tanto, si se separan las tareas, es posible asignar cada una a la persona con mayor competencia en ella. Segundo, porque las decisiones sobre el aspecto del texto están condicionadas por el medio en que se va a publicar (no se utilizan, por ejemplo, las mismas reglas de composición en un periódico impreso y en una edición electrónica). Si es preciso crear una nueva edición para un medio diferente y se ha distinguido la estructura lógica, bastará con diseñar una nueva plantilla (aplicable a todos los textos que se quieran publicar) sin que sea preciso modificar el texto ni su estructura. Esto reduce considerablemente los costes de producción de nuevas ediciones.
Uno de los estándares internacionales más conocidos para integrar la metainformación estructural en textos literarios es el denominado TEI (Text Encoding Initiative)7. Este vocabulario permite identificar los elementos que componen un texto, por ejemplo, divisiones en las que se estructura, líneas de verso, notas, textos alternativos, etc.
Existe una tercera clase de metainformación, la metainformación administrativa, que se refiere a los datos necesarios para utilizar, conservar o distribuir el contenido. Esta puede incluir, por ejemplo, el registro de los derechos de propiedad intelectual asociados, la versión del programa que generó el objeto (información especialmente relevante en grabaciones de sonido o películas), la historia de las versiones que se han construido o, en el caso de un objeto que es agregación de otros, los objetos de que se compone. El estándar más difundido para integrar esta metainformación es METS (Metadata Encoding and Transmission Standard)8.
Los ordenadores pueden ayudarnos en muchas tareas, pero su inteligencia solo parece poderosa en ámbitos muy limitados con reglas muy bien especificadas (como en el juego del ajedrez). Sin embargo, esta inteligencia es mucho menos efectiva cuando el razonamiento requiere conocimiento cultural (del que los ordenadores actuales carecen). Esto explica los resultados modestos, a pesar de todos los progresos recientes, que se obtienen en tareas como la traducción automática. En ella, es preciso utilizar frecuentemente, dada la gran ambigüedad del lenguaje humano, indicios sutiles para interpretar correctamente el significado de cada frase.
La falta de esta inteligencia cultural ha motivado la idea de la llamada «red semántica»: es preciso explicar el significado de los contenidos digitales para que los ordenadores sean capaces de realizar deducciones, para que puedan construir juicios sintéticos y, así, enriquecer el caudal de información que circula por la red. Por ejemplo, en el ámbito de las bibliotecas digitales, es muy difícil interpretar automáticamente una biografía de un autor literario.
La forma más simple de añadir información semántica a una biblioteca es crear ternas de elementos del tipo sujeto-predicado-objeto como Miguel de Cervantes-es el autor de-La Galatea. Si además cada elemento de esta terna es identificado mediante una característica única (que en la red se denominan «identificadores de recursos o URL»), podemos construir sistemas inteligentes que extraigan conocimiento mediante la síntesis de nuevos predicados y que nos ayuden en la identificación de los contenidos digitales.
De esta forma, las bibliotecas podrán identificar automáticamente, por ejemplo, textos relacionados con una época o lugar determinados.