Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



LA CODIFICACIÓN TEXTUAL ELECTRÓNICA

Congreso de Sevilla
 

Estándares y estándar: ADMYTE, el archivo digital de manuscritos y textos españoles y sus soluciones para codificar e intercambiar datos textuales
Francisco A. Marcos Marín. Universidad Autónoma de Madrid. Sociedad Estatal del Quinto Centenario


Presentación

La conmemoración del Quinto Centenario del Descubrimiento de América por España sólo es posible desde una perspectiva de futuro que, en el plano lingüístico, requiere una acción conjunta sobre nuestra lengua común, tanto en su realidad presente como en su historia, al mismo tiempo que un tratamiento adecuado a la realidad tecnológica del inminente siglo
XXI. La solución pasa por la creación de unos instrumentos de base que son los archivos digitales, colecciones de textos completos en formato electrónico, para poder recuperar también electrónica ente la información que contienen.

Dentro de las actividades que ha llevado a cabo el área de Industrias de la Lengua de la Sociedad Estatal Quinto Centenario, esta línea de actuación tiene nombre propio: ADMYTE, Archivo Digital de Manuscritos y Textos Españoles, un archivo digital que almacena textos e imágenes, junto con el conjunto de programas que permiten poner estos datos al servicio de los usuarios.

La finalización del disco 1 en el verano de 1992 ha sido posible como resultado de la conjunción de tres tipos de esfuerzos, que corresponden a la concepción, realización y producción de ADMYTE. Para ello ha sido necesario aunar fuerzas de la empresa, MICRONET, en este caso, la investigación, por parte de la propia empresa, de la Biblioteca Nacional y de las universidades asociadas y la gestión, conjunta de MICRONET y la Sociedad Estatal.

El término unión resulta imprescindible porque los socios del proyecto, MICRONET y el Quinto Centenario, junto con la Biblioteca Nacional, han sido a su vez partícipes en las tareas de investigación y desarrollo, ya que el trabajo realizado ha supuesto una innovación conceptual y técnica que constituye un motivo de satisfacción para cuantos hemos participado en esta obra. Hemos cubierto etapas de investigación básica, de aplicación y de desarrollo, todo ello con la mira fundamental de poner a disposición de las personas interesadas en la cultura española un instrumento de trabajo nuevo y útil, moderno y versátil, que llevará esa cultura, a través de sus textos y sus imágenes, a cualquier lugar del mundo donde se satisfagan las exigencias mínimas de reproducción: un ordenador personal con pantalla VGA y un lector de discos láser, de CD-ROM, es decir, a todo el mundo.

La preservación del patrimonio cultural es una de las principales preocupaciones de los pueblos modernos. Los libros, especialmente los más antiguos, manuscritos e incunables, por su rareza y por las vicisitudes que han sufrido en su existencia, están expuestos a graves peligros. Como todos los países, España, a lo largo de su historia, ha perdido bibliotecas incluso de tal magnitud como la de Hernando Colón, el hijo del Almirante, que hoy sería sin duda la mejor biblioteca románica medieval del mundo y que se fue destruyendo a lo largo de los siglos.

Pero no basta con conservar, también es necesario que esas obras cumplan su función al servicio de los lectores, del público culto interesado, en general. Para ello sería preciso ponerlas a disposición de éste, lo que inevitablemente acarrearía su deterioro y hasta su destrucción, lentamente.

Por fortuna, la tecnología actual nos permite cumplir el objetivo de poner a disposición de los estudiosos de distintos campos toda la producción escrita en castellano hasta 1615, e incluso añadir a ello unos instrumentos de trabajo, que ya existen o están en muy avanzado desarrollo, con los cuales los investigadores podrán realizar su labor en condiciones de total seguridad para las obras que estudian y de máximo rigor científico, junto con una comodidad de que han carecido hasta ahora.

Para ello, la Biblioteca Nacional, La Sociedad Estatal para la Ejecución de Programas del Quinto Centenario, en el Área de Industrias de la Lengua, y la empresa MICRONET, S. A., han contado con la colaboración de un equipo de investigadores y analistas centrado en las universidades Autónoma y Complutense de Madrid y en el propio departamento de desarrollo de la empresa, a los que se ha sumado la colaboración de las universidades de California en Berkeley (EE. UU.), de Madison (Wisconsin, EE. UU.) y de Toronto (Canadá) y de distintas bibliotecas y entidades públicas y privadas.

La propuesta de ADMYTE parte de esa necesidad primera de conservación del patrimonio escrito y, además, de la conciencia de que se ha producido un cambio en los métodos de trabajo de los investigadores. El ordenador es ya un instrumento generalizado entre los humanistas e insustituible para algunas funciones, como el manejo y selección de la inabarcable bibliografía o de la mayor riqueza de datos disponibles. Al aumento del caudal informativo corresponde ineludiblemente el desarrollo de nuevas técnicas para abarcarlo y asimilarlo.

Por esta razón, los investigadores que realizan ADMYTE son conscientes de que es el momento de desarrollar sus investigaciones complementarias, hasta ahora parciales, en busca de una síntesis que reúna experiencia y conocimientos para constituir un nuevo tipo de vademecum de este momento tecnológico, un vademecum informatizado para el investigador de la Edad Media y el Humanismo.

Los procedimientos de trabajo perfeccionados y reunidos no sólo sirven para ser aplicados a la lengua o la literatura del antiguo reino de Castilla y León, y su expansión peninsular, sino para las distintas lenguas, no sólo hispánicas o románicas, sino de cualquier lugar del mundo. Lo mismo debe decirse de los procedimientos técnicos desarrollados para la digitalización de manuscritos o la transcripción automática de incunables: estarán a la disposición de investigadores de cualquier lengua y cualquier país o etapa histórica.

Todo ello nos lleva a un proyecto basado en la lengua española, pero realizado por un equipo internacional e interdisciplinar, en la medida de lo necesario. Los investigadores participantes tienen entre sí, a veces, diferencias significativas; pero en lo que afecta a esta investigación, todos convergen en un mismo punto o, mejor, en tres puntos que resumen sendas series de resultados:

1.   Completar y desarrollar instrumentos concretos de investigación que constituyen un estándar de tratamiento textual y recuperación de información contenida en todo tipo de textos.

2.   Presentación de un modelo aplicable, en principio, al español medieval; pero expandible a otras épocas y otras lenguas con suma facilidad.

3.   Recuperación del patrimonio cultural español a través de la localización, catalogación, preservación y estudio de una parcela fundamental del pasado histórico como son los textos medievales y sus soportes, manuscritos e incunables.

Es preciso señalar las consecuencias de un proyecto de tal envergadura. Para empezar, podemos llevar el estudio de la cultura española a cualquier lugar del mundo, lejos de las grandes bibliotecas, por el módico precio de un disco láser. En segundo lugar, cabe recordar que la inclusión de facsímiles limitará sobremanera el uso de los originales, con el consiguiente beneficio que esto supondrá para una mejor conservación de los mismos. En tercer lugar, debe notarse que España es así precursora en el uso de una tecnología que no tardarán en aplicar los estudiosos de otras lenguas y períodos históricos. Finalmente, las técnicas de tratamiento de imágenes, desarrolladas originariamente para mejorar las fotografías obtenidas desde los satélites espaciales, permitirán que el estudioso «restaure» los manuscritos de modo electrónico y que, así, podamos recuperar un enorme conjunto de textos que hoy consideramos ilegibles.

Esta labor no ha contado con otras ayudas directas al proyecto; pero los investigadores participantes sí han tenido ayudas e investigaciones que han sido útiles para ADMYTE, o a proyectos que se incluirán en discos sucesivos. Por ello es necesario agradecer la ayuda prestada por el NEH, National Endowment for the Humanities, de los Estados Unidos, a los profesores C. B. Faulhaber y Á. Gómez Moreno para la realización de BETA (BOOST),la Bibliografía Española de Textos Antiguos que ha servido para fijar los criterios básicos de selección y ha proporcionado los datos iniciales de las descripciones que acompañan a cada título, y al profesor J. Nitti para la recopilación de textos del Hispanic Seminary of Medieval Studies, en Madison, Wisconsin, cuyos criterios de transcripción se han utilizado en ADMYTE y cuyos textos están a disposición del proyecto. También agradecemos la ayuda del Comité Hispano-Norteamericano Educativo y Cultural a los profesores citados y, al profesor F. Marcos Marín. IBM USA, IBM España e IBM Deutschland han proporcionado un valioso apoyo a proyectos colaterales de ADMYTE, especialmente a los profesores C. B. Faulhaber y F. Marcos Marín. Este último debe también gratitud a la Alexander von Humboldt Stiftung, que ha facilitado repetidos períodos de investigación en Alemania, sumamente beneficiosos para algunos aspectos del Archivo Digital.


Subir
 
Descripción general de ADMYTE

ADMYTE, que se presenta como una colección de discos láser de tipo CD-ROM, en la versión más moderna que la técnica pueda ofrecer en este tiempo, podrá ser utilizado por los investigadores que dispongan de un sencillo ordenador personal, tipo MS-DOS, un monitor VGA y una lectora de discos láser; se divide en dos series de desigual extensión: la primera estará constituida por un solo disco, el disco 0, o disco instrumental, destinado a los investigadores con requisitos más complejos, mientras que la segunda, de los discos I ... n, con la que empezamos, está destinada al público más amplio, que incluye, naturalmente, a los propios investigadores.

He aquí la estructura general de la colección:

Disco 0 o instrumental

BETA/BOOST Bibliografía Española de Textos Antiguos. Base bibliográfica con más de cuatrocientos cincuenta campos y once tablas, interactiva. (Colaboración de la Universidad de California en Berkeley y la Universidad Complutense de Madrid. Este proyecto cuenta con el apoyo del National Endowment for the Humanities y, parcialmente, de IBM, USA y de IBM España).

TACT. Programa de recuperación de información textual y análisis lingüístico con sistema de creación de la propia base de datos textual. (Colaboración con la Universidad de Toronto en Canadá. Este proyecto cuenta con el apoyo del Centre for Computing in the Humanities, CCH, de la Universidad de Toronto, y, parcialmente, de IBM Canada Ltd).

TEXTOS-MAD. Colección de Textos Medievales, cedidos por el Hispanic Seminary of Medieval Studies. (Colaboración con la Universidad de Wisconsin en Madison, proyecto que se realiza con la ayuda del National Endowment for the Humanities).

UNITE. Conjunto de programas para la construcción de ediciones críticas automatizadas. (Colaboración con la Universidad Autónoma de Madrid. Este proyecto ha contado con el apoyo de IBM España, IBM. Deutschland, EUROTRA-España y, especialmente, la Alexander von Humboldt Stiftung).

Junto a estos instrumentos básicos de trabajo estamos dispuestos a incluir otros que puedan ser útiles a los investigadores, en función de los desarrollos alcanzados y los acuerdos mutuos. Si ADMYTE es un proyecto abierto, mucho más lo es la parte de cooperación científica que incluye, en donde esperamos que nadie se sienta excluido o sienta excluidas sus posibles aportaciones al conjunto de programas. Por ello, esta enumeración de contenidos del inmediato disco 0 es necesariamente mínima e incompleta.

Discos I...n (desde los orígenes a 1615):

Textos transcritos en código ASCII, con marcas o membretes estandarizados.

Imágenes (facsímiles de textos en blanco y negro y reproducción en color de miniaturas).

Desarrollo de una interfaz específica para el medio Windows (3.0 posterior), por MICRONET, S. A. para la recuperación de textos e imagenes de alta definición, desde CD-ROM.

A continuación desarrollaremos las líneas fundamentales en las que ADMYTE contribuye a la precisión o al refuerzo de estándares, con una propuesta que integra aspectos referidos a la fotografía y almacenamiento de imágenes, al escaneado de diapositiva o directo del texto, a las normas de compresión, la descripción codicológica, los códigos de transcripción, la interfaz y los sistemas de recuperación de información.


Subir
 
Selección y descripción de los textos

La colaboración de la Biblioteca Nacional, especialmente integrada en este paso del proceso, como es natural, ha permitido disponer de un envidiable equipo de expertos para seleccionar no sólo los títulos que se incluyen en este disco, sino también el ejemplar más adecuado. Cuando, en raras ocasiones, que se explican en las descripciones que acompañan a los títulos, ha sido preciso utilizar alguna página de otro ejemplar y éste no estaba en la Biblioteca Nacional, hemos recurrido a la Biblioteca de Palacio, a cuyos custodios damos las gracias efusivamente.

Esta solución, que mira sobre todo a la disponibilidad del texto completo, no supone ninguna mixtificación, puesto que se advierte de esta circunstancia al usuario, cuando el caso se presenta.

Conscientes de que el libro es el objeto fundamental de nuestro trabajo y gracias a la riqueza de los datos almacenados en la base utilísima de la Bibliografía Española de Textos Antiguos, de Charles B. Faulhaber y Ángel Gómez Moreno, hemos podido añadir a cada título, no sólo la signatura con la indicación bibliográfica, sino también una completa descripción, con referencias bibliográficas.

Las peculiaridades del libro antiguo, por otra parte, nos han llevado, en las descripciones, a respetar los criterios de clasificación propiamente bibliográficos, en vez de dar un tamaño en centímetros que sería el que corresponde a ese ejemplar en un momento determinado. Para aclaración del lector, señalaremos los puntos fundamentales de esta clasificación de los volúmenes por su tamaño.

La clasificación tradicional de in folio, in quarto, in octavo, se basa en la relación entre los dobleces del pliego de papel y la orientación de los hilos del molde en el que terminó su proceso de fabricación.

La pasta de papel se moldea en la forma, un cedazo o molde rectangular cuya base tiene una serie de filamentos que dejan su huella en el papel. Si miramos un libro antiguo al trasluz veremos que el papel parece estar atravesado horizontal y verticalmente por una serie de hilos o líneas, que corresponden a los filamentos que sujetan la base de ese molde o cedazo rectangular. Los de mayor longitud están más próximos y se llaman corondeles, los de menor longitud están más separados y se llaman puntizones. El pliego de papel al trasluz es como una red de líneas horizontales más delgadas y próximas y líneas verticales más separadas y gruesas.

El pliego se dobla para formar las páginas del libro, el conjunto de dobleces de un pliego es un cuadernillo. Si se hacen más dobleces, el cuadernillo tendrá más páginas y éstas serán menores. Si el pliego se dobla poco tendremos pocas páginas y muy grandes, pero no un tamaño estándar como con la maquinaria moderna, porque la forma, el molde, puede variar y porque, además, los cuadernillos, después de ser cosidos por el encuadernador, son igualados por la cuchilla y según ésta corte más o menos hacia dentro, el volumen será unos centímetros más o menos alto o ancho. Por eso no es fácil establecer correspondencias entre clasificación tradicional y centímetros.

Además, los fabricantes añaden una filigrana, poniendo en la trama una marca o figura hecha con hilos metálicos, que deja su huella en la pasta del papel.

El formato mayor es el bifolio. En el folio, los puntizones (las líneas más gruesas al trasluz) son verticales y las filigranas se alternan en el centro de la hoja. La altura del papel, sin cortar, es de treinta centímetros o más. En el quarto, los puntizones son horizontales, la filigrana queda en el pliegue central, al doblar la hoja, la altura sin cortar es de 19 centímetros o más. En el octavo, los puntizones son verticales, el papel sin cortar tiene una altura de 15 centímetros o más y la filigrana se reparte entre los vértices superiores. La prueba de que la medida en centímetros es ilusoria la tenemos al ver que el doceavo o dozavo mayor tiene también una altura, sin cortar, de 15 centímetros o más. Hay, naturalmente, libros con formatos menores, pero su descripción excede la finalidad de estas páginas, limitada a aclarar nuestros criterios de trabajo y descripción. La introducción de maquinaria y el fin de los procedimientos artesanales han llevado a los estándares, pero no debemos olvidar que dos pliegos de papel fabricados en el mismo taller por dos operarios distintos podían tener dimensiones discretamente distintas.

Subir
 
Digitalización y tratamiento de imágenes: manuscritos e incunables

Las técnicas que empezaron a ser desarrolladas por los técnicos de la Agencia Espacial norteamericana, la NASA, en los años setenta, comercializadas poco después, y que permiten la conversión de una imagen en un patrón digital, se aplican ya desde hace tiempo a los estudios de ciencias naturales y biológicas, y han pasado a los humanísticos.

Con el crecimiento de los últimos años en las capacidades de memoria de los ordenadores y el aumento de las posibilidades de almacenar estos grandes ficheros que resultan de la digitalización, esta técnica se ha ido acercando al usuario, hasta que el disco óptico ha permitido un abaratamiento definitivo de los costos y la posibilidad de que los individuos se beneficien de ello en la investigación personal.

La digitalización de los manuscritos e incunables castellanos reúne dos ventajas esenciales: preserva el patrimonio bibliográfico español y pone a disposición de los estudiosos reproducciones que, debido a las posibilidades de la electrónica, ofrecen imágenes más nítidas y facilitan por ello el trabajo al investigador.

La colaboración de la Biblioteca Nacional en este proceso resulta fundamental, porque garantiza que se realiza con la máxima seguridad y sin daño alguno para los ejemplares digitalizados.

ADMYTE incorpora los textos digitalizados, que el estudioso puede reproducir cómodamente mediante una simple impresora láser estándar, con lo que se convierte en el primer elenco completo de una época para una lengua moderna.

Es conveniente señalar que la digitalización puede realizarse a través de imágenes fotográficas, lo que además permite mejorar las condiciones de lectura de los manuscritos, mediante el uso de los auxiliares más oportunos (luz ultravioleta e infrarroja, por ejemplo). La primera parte de este servicio no es desconocida de la Biblioteca Nacional y tanto la Bibliothéque Nationale de París como la British Library poseen experiencia más que suficiente sobre estos procedimientos. La novedad será la posibilidad de ofrecer una reproducción digitalizada, además de las formas habituales de fotocopia y microfilme, la primera de las cuales es notoriamente dañina para los libros o documentos cuando se aplica directamente y será sustituida por la reproducción láser, que asegura una mayor calidad.

Subir
 
Obtención de positivos fotográficos

La naturaleza y estado actual de los textos originales que es necesario digitalizar ha obligado a trabajar con una técnica mixta, uniendo procesos fotográficos y electrónicos. Dada la extrema delicadeza de algunos originales, ha sido necesario preparar un sistema para poder obtener la máxima información posible de cada página de cada documento, con el manipulado más corto posible, sin contacto físico y sin exposición a temperaturas elevadas o radiaciones perjudiciales.

Después de muchas pruebas y ensayos con distintos materiales y distintos sistemas de digitalización, se llegó a la conclusión de que era necesario realizar un paso previo a la digitalización de las páginas: la obtención de originales fotográficos. Sólo cuando las características de los textos que se iban a digitalizar, por su tamaño, generalmente, impedían hacerlo desde diapositiva, se ha procedido al escaneado directo, a través de un escáner adaptado a las características del libro antiguo, para no dañarlo.

El paso a imágenes digitalizadas a partir de soportes en celuloide no es novedad: se aplica ya con éxito en historia del arte y en documentación en general. El desarrollo de la técnica para esta aplicación concreta de biblioteconomía supondrá un avance notable en el servicio de bibliotecas, al conseguirse, entre otras, las siguientes ventajas:

1.   No existe contacto físico que pueda dañar el documento.

2.   El documento está fuera de su ubicación habitual el tiempo más corto posible, facilitándose así la custodia adecuada de todos los originales.

3.   Los documentos se exponen a la luz durante un período de tiempo extremadamente corto (aproximadamente 15 segundos por página).

4.   No hay cambios bruscos en la temperatura o humedad de conservación.

5.   No es necesario forzar la encuadernación, ya que no es preciso abrir totalmente los volúmenes. Cuando el escáner se ha aplicado directamente, se ha modificado la maquinaria de manera que el libro sufriera el menor daño.

6.   Cuando los procesos de digitalización se realizan sobre imágenes fotográficas, permiten la obtención de las imágenes electrónicas digitales posteriormente y sin presencia de los originales.

7.   Es posible realizar exploraciones múltiples digitales y diversos procesos en páginas muy degradadas sin volver a procesar las páginas originales.

8.   Se obtiene un respaldo complementario de los documentos, ya que proporciona un archivo fotográfico en color, de gran calidad, que puede ser utilizado por la Biblioteca Nacional para otros trabajos posteriores.

9.   Es posible aumentar la legibilidad de algunos documentos muy deteriorados, ya que mediante combinaciones de luz, filtros y emulsiones sensibilizadas de forma especial, se pueden obtener resultados mejores que con otras técnicas.

Después de decidir la técnica que se iba a utilizar, hemos llevado a cabo un proceso de selección del material fotográfico, que nos ha hecho utilizar una película reversible de color en formato 24 x 36 milímetros, de grano ultrafino, y una definición y rendimiento a los colores muy superiores a los requeridos en los procesos posteriores de digitalización. Las cámaras utilizadas son capaces de garantizar la exposición correcta de cada página de forma automática, mediante un sistema de medición de luz a través del objetivo capaz de evaluar diferentes zonas del encuadre seleccionado. El arrastre de la película es automático y se puede realizar un enfoque automático de cada página antes de cada toma.

También ha sido necesario preparar útiles especiales para sostener todo el material necesario mientras trabaja simultáneamente, con los elementos de iluminación necesarios y los soportes de los originales. Para ello se construyó un atril especial capaz de soportar las dos cámaras y todos los elementos básicos para asegurar la realización de las diapositivas en condiciones óptimas. De esta forma se pueden fotografiar al mismo tiempo las dos páginas de un libro abierto, en el mínimo tiempo posible y sin forzar la encuadernación del mismo. Cuando el proceso de reproducción se ha realizado desde escáner, se ha adaptado éste, modificándolo, para que los libros no tuvieran que forzarse en el momento de reproducción y grabación electrónica de cada página.

Se ha diseñado un proceso de clasificación de originales (una vez reveladas las diapositivas y comprobada su calidad) para poder realizar seguidamente los procesos de digitalización. Uno de los efectos colaterales de ADMYTE ha sido la creación de un banco de imágenes en celuloide.


Subir
 
Digitalización de imágenes

Cuando se ha partido de diapositiva, la digitalización de las imágenes fotográficas de las páginas de los libros constituye el puente entre los procesos fotográficos e informáticos utilizados en el proyecto ADMYTE.

Para realizar correctamente el paso de digitalización, en la opción fotográfica, insistimos, se ha recurrido a digitalizadores o escáneres de diapositivas de alta calidad, de muy elevada definición (4.096 puntos por pulgada, 3.850 X 5.850 puntos en cada diapositiva) y capaces de diferenciar 16.777.216 colores (24 bit por punto, 8 por cada color RGB).

Suponiendo que la imagen que se fuera a digitalizar ocupara toda la superficie de la diapositiva y trabajando a la mitad de la definición máxima del digitalizador, obtendríamos una imagen de 1.925 X 2.900 puntos, con 3 octetos o bytes (24 bit) por punto, lo que supone ocupar 16,75 Mb de información por cada página. Aunque los requerimientos finales del proyecto no incluían imágenes de tan elevada definición, ha parecido conveniente almacenar las imágenes originales con esta calidad por varias razones:

—   Permite realizar procesos de corrección de color y reducción de la imagen sin pérdidas apreciables de calidad.

—   Proporciona un almacenamiento inalterable en disco óptico que permite la realización posterior de otros proyectos y trabajos de investigación.

—   Hace posible crear una base de datos con imágenes de alta definición en la Biblioteca Nacional sin volver a «tocar» los textos originales.

Para realizar el almacenamiento de estas imágenes ha sido necesario desarrollar nuevos algoritmos de compresión de imágenes en color, basados en procesos matemáticos que utilizan la transformada rápida de Fourier. Estos sistemas especiales de compresión, sin pérdida de calidad, han permitido reducir la ocupación de cada imagen en color a sólo 800.000 octetos. Los procesos de compresión son imprescindibles para construir un archivo manejable en disco óptico WORM, ya que de esta forma podemos almacenar 1.100 imágenes en cada disco de 940 Mb, junto con la información necesaria para su localización y datos relativos a la diapositiva original.

Procesos de tratamiento de imágenes

La mayor parte de las imágenes que se incluirán en los discos compactos (CD-ROM) serán en blanco y negro, por lo que podemos realizar procesos especiales de tratamiento encaminados a aumentar su legibilidad. La digitalización en color nos permite modificar determinados tonos, realizar procesos digitales de filtrado, etc., previos a la reducción de las imágenes a blanco y negro.

Los sistemas de, proceso de imágenes empleados permiten hacer más legibles los documentos eliminando o reduciendo las manchas de humedad, el tono amarillento, las agresiones naturales, etc.

El estado de los distintos documentos hace que aproximadamente el 95 por ciento de los mismos se pueda tratar completamente con procesos globales, que afectan a todo el documento, mediante programas preparados especialmente para este fin. El 5 por ciento restante debe tratarse con procesos electrónicos manuales y, a veces, seleccionando únicamente la zona afectada del documento, con un tiempo de ocupación de personal muy calificado elevadísimo.

Impresionante tarea tenemos todos los docentes por delante: enseñar a expresarse y a entender bien. ¿Cabe mejor lema para una política educativa?

Los procesos de tratamiento de imágenes incluyen sistemas estadísticos de reducción de colores a su valor medio, de control de tonos, de sustitución de colores y puntos, de realce de contornos y contrastes, etc., con lo que se obtienen resultados espectaculares al aclarar los fondos y oscurecer las tintas.


Subir
 
Reducción y cambio de colores a blanco y negro

Los procesos de las imágenes concluyen con su paso a blanco y negro y su reducción al equivalente a 150 puntos por pulgada (lo que permite obtener una copia impresa de calidad). Durante este proceso es necesario realizar una conversión de los colores según unas ciertas normas, imprescindibles para mantener la legibilidad en los textos no escritos con tintas negras (rojo, azul, etc.) y en las ilustraciones.

Durante las comprobaciones que se llevan a cabo con los ficheros resultantes se realizan copias en papel mediante impresora de tecnología LÁSER. Una vez corroborada su calidad, se procede a su compresión según normas CCITT Grupo IV y su almacenado, con una ocupación media de 39 Kb.

Tratamiento de las iluminaciones e ilustraciones

Aunque en el disco 1 todas las imágenes son en blanco y negro, porque no hay, imágenes en color en los libros reproducidos, otras obras contienen algunas páginas con ilustraciones en color o iluminaciones con distinto grado de detalle. La reproducción adecuada de estas páginas requiere tratamientos especiales, puesto que se han de incluir en los discos CDROM conservando el color original. En la mayor parte de los casos únicamente se trabaja con la zona que contiene la ilustración (de forma ampliada), con lo que se aumenta la posibilidad de apreciar fácilmente cada detalle. Se han creado para el tratamiento de estas imágenes en color programas especiales que permiten realizar los procesos de corrección de forma interactiva, es decir, viendo directamente en la pantalla los resultados obtenidos con las modificaciones.

Transcripción de los textos

La transcripción de los textos se realiza solamente en caso de imposibilidad de utilizar una transcripción existente, ya sea por no corresponder a la misma edición de la obra o bien por no poder obtener los permisos necesarios para su uso.

Realiza la transcripción un equipo de especialistas que utiliza herramientas informáticas adecuadas, las cuales permiten generar las grafías especiales necesarias para poder realizar una transcripción paleográfica correcta. Se ha realizado una nueva versión al español de las normas del Hispanic Seminary of Medieval Studies y se han adaptado ciertos criterios de transcripción a nuestras necesidades concretas, de este modo contribuimos a reforzar el estándar de transcripción e intercambio de información textual para el español antiguo y clásico.

En esta fase del proyecto se utiliza la impresora láser para obtener copias de los documentos que se han procesado siguiendo los pasos anteriores y que sirven además para realizar en el texto las indicaciones que se utilizarán más adelante, en el producto resultante del proyecto, para marcar el comienzo y fin de cada página.

Todos los textos, tanto los procedentes de transcripciones realizadas para ADMYTE, como los de autores o equipos que los han cedido amablemente, han sido vueltos a leer por un revisor y han sido corregidos. La errata es el enemigo inevitable de todo copista, corrector o transcriptor, la aplicación de la electrónica sólo garantiza que se van eliminando progresivamente, no que se hayan eliminado del todo. La ventaja es que la transcripción se puede comparar inmediatamente con el original y se puede ir corrigiendo en el disco de trabajo del investigador, quien dispondrá al final de una versión totalmente adecuada a sus necesidades e intereses, con un esfuerzo mínimo.

La transcripción de los textos se beneficia, además de la cooperación de todos los investigadores que deseen ceder sus transcripciones en forma electrónica, de la posibilidad de leer ópticamente textos editados y textos mecanografiados, con ello reducimos notablemente la necesidad de teclear los textos para la introducción de los datos en forma electrónica y mejora sensiblemente la calidad de los textos ASCII incluidos en los discos, por la corrección de las ediciones o transcripciones mecánicas leídas electrónicamente. Es innegable que la calidad del texto transcrito es un requisito esencial en ADMYTE.

Subir
 
Interfaz estándar: ADMYTE y Windows

ADMYTE ofrece al usuario la posibilidad de combinar un ordenador personal (con una pantalla VGA, por motivos de definición), un lector de discos láser y una impresora láser para reproducciones inmediatas y seguras. A fin de combinar estos elementos y aprovechar toda la información contenida en ellos se ha desarrollado ADMYTE bajo Windows 3.0, con el fin de aprovechar las ventajas de un entorno estándar. La técnica de ventanas permite ver en columnas paralelas el documento en facsímil.y su transcripción. La técnica de menús desplegables desde una barra permite recuperar la información, bien de un título, de varios agrupados, o de una simple página. Los avances aportados por la versión 3.l, finalmente, han permitido vincular ADMYTE a una interfaz realmente cómoda para el usuario no necesariamente experto en informática, que es el público mayoritario de ADMYTE dando mayor flexibilidad a las técnicas que a continuación resumimos.

La búsqueda por palabras permite seleccionar las páginas de los libros seleccionados en las que se encuentran las palabras que interesan en ese proceso de la investigación, mientras que la selección por glosario o la búsqueda mediante lenguaje de interrogación son procesos más complejos. Para la selección por glosario debemos imaginar el conjunto como una base de datos, alfabéticos y gráficos, a la que se ha asociado un glosario, construido por el equipo lingüístico e informático de ADMYTE. El glosario de la base de datos contiene todas las palabras de búsqueda, ordenadas alfabéticamente. Las referencias se han extraído de los campos índice de los diferentes documentos. La búsqueda se realiza tecleando la referencia en la línea de texto situada justamente encima del Glosario, tras lo cual se pulsa «Intro». Para usar el lenguaje de interrogación es preciso llamar el proceso buscar y teclear la palabra o palabras que se desee hallar, teniendo en cuenta que el lenguaje tiene una rica sintaxis que admite diversas operaciones. Podemos buscar una referencia simple: alfanumérica, numérica, de fechas y genéricas, es decir, con símbolos comodines, que permiten buscar dentro de un patrón más amplio.

También podemos buscar referencias adyacentes, referencias consecutivas separadas por blancos, o bien en una distancia fija, o en un radio más amplio. Estas posibilidades se amplían con los llamados operadores booleanos, los de unión, intersección y diferencia: O, Y, NO. Para alterar la jerarquía de los operadores se pueden utilizar paréntesis, tal como se hace en las operaciones aritméticas y lógicas.

El Glosario de lemas y formas, desarrollado por Carlos Mayor y concebido con un criterio exclusivamente formal, es una ayuda útil para las personas que no puedan o no deseen usar las múltiples variantes de las formas antiguas del léxico. Para usarla, dentro del Glosario de lemas del menú Opción, basta con escribir la forma básica (el lema) que se busca y pulsar «Intro». Tras ello se verán en pantalla todas las formas asociadas con ese lema y se dará opción, en una segunda ventana a la búsqueda por lema o por forma. Si el lema pedido no estuviera en la base de datos, aparecería el más próximo alfabéticamente. En el futuro esta opción será sustituida por un diccionario informatizado completo de la lengua medieval y clásica.

Una Biblioteca del Descubrimiento en el Archivo Digital de Manuscritos y Textos Españoles

El disco I, realizado entre 1990 y 1992, contiene sesenta y un títulos, la mayoría de ellos de incunables, aunque hay algunos impresos antiguos, todos ellos de la Biblioteca Nacional de España, en Madrid, que corresponden a los apartados: Enciclopedias, Diccionarios y Gramáticas, Textos legales, Textos científicos, Libros de viajes, Crónicas y Biografías, Tratados de Caballería y Nobleza, Textos poéticos. La intención ha sido la de presentar en este disco inicial lo que podría haber sido una biblioteca de un contemporáneo de los navegantes que partieron de Palos rumbo a las Indias, en el error geográfico sin duda más productivo de la Historia.

Ese mundo del humanismo en el que el latín va dejando su paso al castellano se muestra en las gramáticas de Nebrija, o sus diccionarios, de ambas lenguas, en las Partidas alfonsíes, base del ordenamiento jurídico español e hispanoamericano, en las ordenanzas promulgadas por los Reyes Católicos, en textos científicos que van desde la medicina a la veterinaria o la cosmografía, desde los autores árabes a los castellanos.

Cuando el viaje constituye la contraseña del fin de siglo, no podían faltar los textos de este tipo, incluido el Marco Polo de Rodrigo de Santaella. Si se trata de hombres, los modelos de la época están en la Crónica Popular del Cid, en el Valerio de las historias eclesiásticas y de España, de Diego Rodríguez de Almela, o en los Claros Varones de Castilla, de Hernando del Pulgar, entre otros. Algunos de estos caballeros leían y aprendían en el Doctrinal de los caballeros de Alonso de Cartagena o en el Nobiliario vero de Fernando Mejía y todos se solazaban con los textos de Juan del Encina, de Mena o de Íñigo López de Mendoza.

Así se rinde homenaje a los que llevaron la Ley, la imprenta, la universidad y, en suma, la Latinidad, a las tierras por ellos descubiertas, cumpliendo el viejo ideal de Roma, reencarnado en la Hispania Provincia.

Subir
 
Bibliografía

BLECUA, Alberto, 1983: Manual de crítica textual, Madrid: Castalia.

DE ROSE, Steven, J., 1988: «Grammatical Category Disambiguation by Statistichal Optimization», Computational Linguislic, 14/1, 31-39.

FAULHABER, Charles B. et al., 1984: Bibliography of Old Spanish Texis (Literary Téxts, Edition-3), Madison: Hispanic Seminary of Medieval Studies.

FAULHABER, C. B. y FRANCISCO MARCOS MARÍN, 1989-90: «ADMYTE: Archivo digital de Manuscritos y Textos Españoles», La Corónica, 182, 131-145.

FROGER, dom Jacques, 1968: La critique des textes et son automatisation, París: Dunod.

GARSIDE, Roger, Geoffrey LEECH & Geoffrey SAMPSON (eds.), 1987:The Computational Analysis of English: A Corpus-based Approach, Londres: Longman.

GREENIA, George D., 1989: «The Libro de Alexandre and the computerized editing of texts», La Corónica, 17, 55-67.

LANCASHIRE, Ian & Willard MARTY, 1988: The Humanities Computing Yearbook, Oxford: Clarendon Press.

MACKENZIE, David, 1984: A Manual of Manuscript Transcription for the Dictionary of the Old Spanish Language (With Spanish translation by José Luis Moure), 3.ª ed., Madison; Hispanic Seminary of Medieval Studies.

MARCOS-MARTÍN, 1985: «Computer- Assisted Philology: Towards a Unified Edition of OSp. Libro de Alexandre», Proceedings of the E[uropean]L[language] S[ervíces] Conference on Natural-Languaje Applícations, section 16, Copenhague: IBM Denmark.

_________, 1986a «Metodología Informática para la Edición de Textos», Incipil, Buenos Aires, vi, 185-197.

_________, 1986b «UNITE: conjunto de programas para el tratamiento filológico de textos en verso», Procesamiento del Lenguaje Natural [Sociedad Española para el Procesamiento del Lenguaje Natural], 4, 43-55.

_________, 1987a Libro de Alexandre. Estudio y edición, Madrid: Alianza Universidad.

_________, 1987b «El Libro de Alexandre: Edición unificada por ordenador», LEA, IX, 1987, 347-370.

_________, 1988a «Recuperación de información lingüística y tratamiento crítico de textos», Actas, Simposio Internacional de Educación e Informática, Madrid, 15 al 18 de junio de 1987, Madrid: Instituto de Ciencias de la Educación, Universidad Autónoma de Madrid, 187-196.

_________, 1988b «El Libro de Alexandre: Notas a partir de la primera edición unificada por ordenador», Actas del I Congreso Internacional de Historia de la Lengua Española, Madrid: Arco Libros, 1988, 1025-1064.

_________, 1989 (1991) «UNITE, a Package for Computer Assisted Philological Editing», Folia Linguistica Historica, X, 117-143.

_________, 1991a «ADMYTE (Archivo Digital de Manuscritos y Textos Españoles); The Digital Archive of Spanish Manuscripts and Texts», Literary & Linguistic Computing, 6/3, 1991 (News and Notes), 221-224.

_________, 1991b «Computers and Text Editing: A Review of Tools, an Introduction to UNITE and Sonic Observations Concerning its Application to Old Spanish Texts», Romance Philology, XLV/1, 1991, 102-122 (Bibliography: 205-237).

FMM en colaboración con Aurora MARTÍN DE SANTA OLALLA, Charles B. FAULHABER, Angel GÓMEZ MORENO, 1992: «ADMYTE: The Digital Archive of Spanish Manuscripts and Texts», Sesame Bulletin. Language automation worldwide, 5/2 (Surnmer 1992), 50-61.

FMM y Pilar SALAMANCA FERNÁNDEZ, 1987: «Programas informáticos para la crítica textual», Telos, 11, 105-111.

FMM y Jesús SÁNCHEZ LOBATO, 1988: Lingüística Aplicada, Madrid: Síntesis.

FMM en col. con Verónica ZUMÁRRAGA, 1991: «El corpus de referencia de la lengua española», Razón y Fe, 223/1.109, marzo 1991, 285-293.

[MARTÍN DE] SANTA OLALLA, Aurora, 1992: Manual de Transcripción para el Diccionario del Español Antiguo. Cuarta edición, traducción española, Madison: Hispanic Seminary of Medieval Studies.

MEIJS, Willem (ed.), 1987: Corpus Linguistics and beyond: Proceedings of the Seventh International Conference on English Language Research on Computerized Corpora, Amsterdam: Rodopi.

OAKMAN, Robert L., 1984: Computer Methods for Literary Research, 2nd. ed. Athens, GA: University of Georgia.

SHILLINGSBURG, Peter L., 1986: Scholarly Editing in the Computer Age, Athens: University of Georgia Press.

 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.