|
|
Estándares y
estándar: ADMYTE, el archivo digital de manuscritos y textos españoles y sus soluciones
para codificar e intercambiar datos textuales
Francisco A. Marcos Marín. Universidad Autónoma de Madrid.
Sociedad Estatal del Quinto Centenario |
|
Presentación
La conmemoración del Quinto Centenario del Descubrimiento de América por España sólo
es posible desde una perspectiva de futuro que, en el plano lingüístico, requiere una
acción conjunta sobre nuestra lengua común, tanto en su realidad presente como en su
historia, al mismo tiempo que un tratamiento adecuado a la realidad tecnológica del
inminente siglo XXI. La solución pasa por la creación de unos instrumentos de base que
son los archivos digitales, colecciones de textos completos en formato electrónico, para
poder recuperar también electrónica ente la información que contienen.
Dentro de las actividades que ha llevado a cabo el área de Industrias de la Lengua de la
Sociedad Estatal Quinto Centenario, esta línea de actuación tiene nombre propio: ADMYTE,
Archivo Digital de Manuscritos y Textos Españoles, un archivo digital que almacena
textos e imágenes, junto con el conjunto de programas que permiten poner estos datos al
servicio de los usuarios.
La finalización del disco 1 en el verano de 1992 ha sido posible como resultado de la
conjunción de tres tipos de esfuerzos, que corresponden a la concepción, realización y
producción de ADMYTE. Para ello ha sido necesario aunar fuerzas de la empresa, MICRONET,
en este caso, la investigación, por parte de la propia empresa, de la Biblioteca Nacional
y de las universidades asociadas y la gestión, conjunta de MICRONET y la Sociedad
Estatal.
El término unión resulta imprescindible porque los socios del proyecto, MICRONET y el
Quinto Centenario, junto con la Biblioteca Nacional, han sido a su vez partícipes en las
tareas de investigación y desarrollo, ya que el trabajo realizado ha supuesto una
innovación conceptual y técnica que constituye un motivo de satisfacción para cuantos
hemos participado en esta obra. Hemos cubierto etapas de investigación básica, de
aplicación y de desarrollo, todo ello con la mira fundamental de poner a disposición de
las personas interesadas en la cultura española un instrumento de trabajo nuevo y útil,
moderno y versátil, que llevará esa cultura, a través de sus textos y sus imágenes, a
cualquier lugar del mundo donde se satisfagan las exigencias mínimas de reproducción: un
ordenador personal con pantalla VGA y un lector de discos láser, de CD-ROM, es decir, a
todo el mundo.
La preservación del patrimonio cultural es una de las principales preocupaciones de los
pueblos modernos. Los libros, especialmente los más antiguos, manuscritos e incunables,
por su rareza y por las vicisitudes que han sufrido en su existencia, están expuestos a
graves peligros. Como todos los países, España, a lo largo de su historia, ha perdido
bibliotecas incluso de tal magnitud como la de Hernando Colón, el hijo del Almirante, que
hoy sería sin duda la mejor biblioteca románica medieval del mundo y que se fue
destruyendo a lo largo de los siglos.
Pero no basta con conservar, también es necesario que esas obras cumplan su función al
servicio de los lectores, del público culto interesado, en general. Para ello sería
preciso ponerlas a disposición de éste, lo que inevitablemente acarrearía su deterioro
y hasta su destrucción, lentamente.
Por fortuna, la tecnología actual nos permite cumplir el objetivo de poner a disposición
de los estudiosos de distintos campos toda la producción escrita en castellano hasta
1615, e incluso añadir a ello unos instrumentos de trabajo, que ya existen o están en
muy avanzado desarrollo, con los cuales los investigadores podrán realizar su labor en
condiciones de total seguridad para las obras que estudian y de máximo rigor científico,
junto con una comodidad de que han carecido hasta ahora.
Para ello, la Biblioteca Nacional, La Sociedad Estatal para la Ejecución de Programas del
Quinto Centenario, en el Área de Industrias de la Lengua, y la empresa MICRONET, S. A.,
han contado con la colaboración de un equipo de investigadores y analistas centrado en
las universidades Autónoma y Complutense de Madrid y en el propio departamento de
desarrollo de la empresa, a los que se ha sumado la colaboración de las universidades de
California en Berkeley (EE. UU.), de Madison (Wisconsin, EE. UU.) y de Toronto (Canadá) y
de distintas bibliotecas y entidades públicas y privadas.
La propuesta de ADMYTE parte de esa necesidad primera de conservación del patrimonio
escrito y, además, de la conciencia de que se ha producido un cambio en los métodos de
trabajo de los investigadores. El ordenador es ya un instrumento generalizado entre los
humanistas e insustituible para algunas funciones, como el manejo y selección de la
inabarcable bibliografía o de la mayor riqueza de datos disponibles. Al aumento del
caudal informativo corresponde ineludiblemente el desarrollo de nuevas técnicas para
abarcarlo y asimilarlo.
Por esta razón, los investigadores que realizan ADMYTE son conscientes de que es el
momento de desarrollar sus investigaciones complementarias, hasta ahora parciales, en
busca de una síntesis que reúna experiencia y conocimientos para constituir un nuevo
tipo de vademecum de este momento tecnológico, un vademecum informatizado
para el investigador de la Edad Media y el Humanismo.
Los procedimientos de trabajo perfeccionados y reunidos no sólo sirven para ser aplicados
a la lengua o la literatura del antiguo reino de Castilla y León, y su expansión
peninsular, sino para las distintas lenguas, no sólo hispánicas o románicas, sino de
cualquier lugar del mundo. Lo mismo debe decirse de los procedimientos técnicos
desarrollados para la digitalización de manuscritos o la transcripción automática de
incunables: estarán a la disposición de investigadores de cualquier lengua y cualquier
país o etapa histórica.
Todo ello nos lleva a un proyecto basado en la lengua española, pero realizado por un
equipo internacional e interdisciplinar, en la medida de lo necesario. Los investigadores
participantes tienen entre sí, a veces, diferencias significativas; pero en lo que afecta
a esta investigación, todos convergen en un mismo punto o, mejor, en tres puntos que
resumen sendas series de resultados:
1. Completar y desarrollar
instrumentos concretos de investigación que constituyen un estándar de tratamiento
textual y recuperación de información contenida en todo tipo de textos.
2. Presentación de un modelo aplicable, en principio, al español medieval;
pero expandible a otras épocas y otras lenguas con suma facilidad.
3. Recuperación del patrimonio cultural español a través de la
localización, catalogación, preservación y estudio de una parcela fundamental del
pasado histórico como son los textos medievales y sus soportes, manuscritos e incunables.
Es preciso señalar las consecuencias de un
proyecto de tal envergadura. Para empezar, podemos llevar el estudio de la cultura
española a cualquier lugar del mundo, lejos de las grandes bibliotecas, por el módico
precio de un disco láser. En segundo lugar, cabe recordar que la inclusión de
facsímiles limitará sobremanera el uso de los originales, con el consiguiente beneficio
que esto supondrá para una mejor conservación de los mismos. En tercer lugar, debe
notarse que España es así precursora en el uso de una tecnología que no tardarán en
aplicar los estudiosos de otras lenguas y períodos históricos. Finalmente, las técnicas
de tratamiento de imágenes, desarrolladas originariamente para mejorar las fotografías
obtenidas desde los satélites espaciales, permitirán que el estudioso «restaure» los
manuscritos de modo electrónico y que, así, podamos recuperar un enorme conjunto de
textos que hoy consideramos ilegibles.
Esta labor no ha contado con otras ayudas directas al proyecto; pero los investigadores
participantes sí han tenido ayudas e investigaciones que han sido útiles para ADMYTE, o
a proyectos que se incluirán en discos sucesivos. Por ello es necesario agradecer la
ayuda prestada por el NEH, National Endowment for the Humanities, de los Estados Unidos, a
los profesores C. B. Faulhaber y Á. Gómez Moreno para la realización de BETA (BOOST),la
Bibliografía Española de Textos Antiguos que ha servido para fijar los criterios
básicos de selección y ha proporcionado los datos iniciales de las descripciones que
acompañan a cada título, y al profesor J. Nitti para la recopilación de textos del
Hispanic Seminary of Medieval Studies, en Madison, Wisconsin, cuyos criterios de
transcripción se han utilizado en ADMYTE y cuyos textos están a disposición del
proyecto. También agradecemos la ayuda del Comité Hispano-Norteamericano Educativo y
Cultural a los profesores citados y, al profesor F. Marcos Marín. IBM USA, IBM España e
IBM Deutschland han proporcionado un valioso apoyo a proyectos colaterales de ADMYTE,
especialmente a los profesores C. B. Faulhaber y F. Marcos Marín. Este último debe
también gratitud a la Alexander von Humboldt Stiftung, que ha facilitado repetidos
períodos de investigación en Alemania, sumamente beneficiosos para algunos aspectos del
Archivo Digital. |
 |
Descripción general de ADMYTE
ADMYTE, que se presenta como una colección de discos láser de tipo CD-ROM, en la
versión más moderna que la técnica pueda ofrecer en este tiempo, podrá ser utilizado
por los investigadores que dispongan de un sencillo ordenador personal, tipo MS-DOS, un
monitor VGA y una lectora de discos láser; se divide en dos series de desigual
extensión: la primera estará constituida por un solo disco, el disco 0, o disco
instrumental, destinado a los investigadores con requisitos más complejos, mientras que
la segunda, de los discos I ... n, con la que empezamos, está destinada al
público más amplio, que incluye, naturalmente, a los propios investigadores. He aquí la estructura general de la colección:
Disco 0 o instrumental
BETA/BOOST Bibliografía Española de Textos Antiguos. Base bibliográfica con más
de cuatrocientos cincuenta campos y once tablas, interactiva. (Colaboración de la
Universidad de California en Berkeley y la Universidad Complutense de Madrid. Este
proyecto cuenta con el apoyo del National Endowment for the Humanities y, parcialmente, de
IBM, USA y de IBM España).
TACT. Programa de recuperación de información textual y análisis lingüístico
con sistema de creación de la propia base de datos textual. (Colaboración con la
Universidad de Toronto en Canadá. Este proyecto cuenta con el apoyo del Centre for
Computing in the Humanities, CCH, de la Universidad de Toronto, y, parcialmente, de IBM
Canada Ltd).
TEXTOS-MAD. Colección de Textos Medievales, cedidos por el Hispanic Seminary of
Medieval Studies. (Colaboración con la Universidad de Wisconsin en Madison, proyecto que
se realiza con la ayuda del National Endowment for the Humanities).
UNITE. Conjunto de programas para la construcción de ediciones críticas
automatizadas. (Colaboración con la Universidad Autónoma de Madrid. Este proyecto ha
contado con el apoyo de IBM España, IBM. Deutschland, EUROTRA-España y, especialmente,
la Alexander von Humboldt Stiftung).
Junto a estos instrumentos básicos de trabajo estamos dispuestos a incluir otros que
puedan ser útiles a los investigadores, en función de los desarrollos alcanzados y los
acuerdos mutuos. Si ADMYTE es un proyecto abierto, mucho más lo es la parte de
cooperación científica que incluye, en donde esperamos que nadie se sienta excluido o
sienta excluidas sus posibles aportaciones al conjunto de programas. Por ello, esta
enumeración de contenidos del inmediato disco 0 es necesariamente mínima e incompleta.
Discos I...n (desde los orígenes a 1615):
Textos transcritos en código ASCII, con marcas o membretes estandarizados.
Imágenes (facsímiles de textos en blanco y negro y reproducción en color de
miniaturas).
Desarrollo de una interfaz específica para el medio Windows (3.0 posterior), por
MICRONET, S. A. para la recuperación de textos e imagenes de alta definición, desde
CD-ROM.
A continuación desarrollaremos las líneas fundamentales en las que ADMYTE contribuye a
la precisión o al refuerzo de estándares, con una propuesta que integra aspectos
referidos a la fotografía y almacenamiento de imágenes, al escaneado de diapositiva o
directo del texto, a las normas de compresión, la descripción codicológica, los
códigos de transcripción, la interfaz y los sistemas de recuperación de información. |
 |
Selección y descripción de los textos
La colaboración de la Biblioteca Nacional, especialmente integrada en este paso del
proceso, como es natural, ha permitido disponer de un envidiable equipo de expertos para
seleccionar no sólo los títulos que se incluyen en este disco, sino también el ejemplar
más adecuado. Cuando, en raras ocasiones, que se explican en las descripciones que
acompañan a los títulos, ha sido preciso utilizar alguna página de otro ejemplar y
éste no estaba en la Biblioteca Nacional, hemos recurrido a la Biblioteca de Palacio, a
cuyos custodios damos las gracias efusivamente.
Esta solución, que mira sobre todo a la disponibilidad del texto completo, no supone
ninguna mixtificación, puesto que se advierte de esta circunstancia al usuario, cuando el
caso se presenta.
Conscientes de que el libro es el objeto fundamental de nuestro trabajo y gracias a la
riqueza de los datos almacenados en la base utilísima de la Bibliografía Española de
Textos Antiguos, de Charles B. Faulhaber y Ángel Gómez Moreno, hemos podido añadir a
cada título, no sólo la signatura con la indicación bibliográfica, sino también una
completa descripción, con referencias bibliográficas.
Las peculiaridades del libro antiguo, por otra parte, nos han llevado, en las
descripciones, a respetar los criterios de clasificación propiamente bibliográficos, en
vez de dar un tamaño en centímetros que sería el que corresponde a ese ejemplar en un
momento determinado. Para aclaración del lector, señalaremos los puntos fundamentales de
esta clasificación de los volúmenes por su tamaño.
La clasificación tradicional de in folio, in quarto, in octavo, se basa en la
relación entre los dobleces del pliego de papel y la orientación de los hilos del molde
en el que terminó su proceso de fabricación.
La pasta de papel se moldea en la forma, un cedazo o molde rectangular cuya base
tiene una serie de filamentos que dejan su huella en el papel. Si miramos un libro antiguo
al trasluz veremos que el papel parece estar atravesado horizontal y verticalmente por una
serie de hilos o líneas, que corresponden a los filamentos que sujetan la base de ese
molde o cedazo rectangular. Los de mayor longitud están más próximos y se llaman corondeles,
los de menor longitud están más separados y se llaman puntizones. El pliego
de papel al trasluz es como una red de líneas horizontales más delgadas y próximas y
líneas verticales más separadas y gruesas.
El pliego se dobla para formar las páginas del libro, el conjunto de dobleces de un
pliego es un cuadernillo. Si se hacen más dobleces, el cuadernillo tendrá más
páginas y éstas serán menores. Si el pliego se dobla poco tendremos pocas páginas y
muy grandes, pero no un tamaño estándar como con la maquinaria moderna, porque la forma,
el molde, puede variar y porque, además, los cuadernillos, después de ser cosidos
por el encuadernador, son igualados por la cuchilla y según ésta corte más o menos
hacia dentro, el volumen será unos centímetros más o menos alto o ancho. Por eso no es
fácil establecer correspondencias entre clasificación tradicional y centímetros.
Además, los fabricantes añaden una filigrana, poniendo en la trama una marca o
figura hecha con hilos metálicos, que deja su huella en la pasta del papel.
El formato mayor es el bifolio. En el folio, los puntizones (las líneas
más gruesas al trasluz) son verticales y las filigranas se alternan en el centro de la
hoja. La altura del papel, sin cortar, es de treinta centímetros o más. En el quarto,
los puntizones son horizontales, la filigrana queda en el pliegue central, al doblar la
hoja, la altura sin cortar es de 19 centímetros o más. En el octavo, los
puntizones son verticales, el papel sin cortar tiene una altura de 15 centímetros o más
y la filigrana se reparte entre los vértices superiores. La prueba de que la medida en
centímetros es ilusoria la tenemos al ver que el doceavo o dozavo mayor tiene
también una altura, sin cortar, de 15 centímetros o más. Hay, naturalmente, libros con
formatos menores, pero su descripción excede la finalidad de estas páginas, limitada a
aclarar nuestros criterios de trabajo y descripción. La introducción de maquinaria y el
fin de los procedimientos artesanales han llevado a los estándares, pero no debemos
olvidar que dos pliegos de papel fabricados en el mismo taller por dos operarios distintos
podían tener dimensiones discretamente distintas. |
 |
Digitalización y tratamiento de imágenes:
manuscritos e incunables
Las técnicas que empezaron a ser desarrolladas por los técnicos de la Agencia Espacial
norteamericana, la NASA, en los años setenta, comercializadas poco después, y que
permiten la conversión de una imagen en un patrón digital, se aplican ya desde hace
tiempo a los estudios de ciencias naturales y biológicas, y han pasado a los
humanísticos.
Con el crecimiento de los últimos años en las capacidades de memoria de los ordenadores
y el aumento de las posibilidades de almacenar estos grandes ficheros que resultan de la
digitalización, esta técnica se ha ido acercando al usuario, hasta que el disco óptico
ha permitido un abaratamiento definitivo de los costos y la posibilidad de que los
individuos se beneficien de ello en la investigación personal.
La digitalización de los manuscritos e incunables castellanos reúne dos ventajas
esenciales: preserva el patrimonio bibliográfico español y pone a disposición de los
estudiosos reproducciones que, debido a las posibilidades de la electrónica, ofrecen
imágenes más nítidas y facilitan por ello el trabajo al investigador.
La colaboración de la Biblioteca Nacional en este proceso resulta fundamental, porque
garantiza que se realiza con la máxima seguridad y sin daño alguno para los ejemplares
digitalizados.
ADMYTE incorpora los textos digitalizados, que el estudioso puede reproducir cómodamente
mediante una simple impresora láser estándar, con lo que se convierte en el primer
elenco completo de una época para una lengua moderna.
Es conveniente señalar que la digitalización puede realizarse a través de imágenes
fotográficas, lo que además permite mejorar las condiciones de lectura de los
manuscritos, mediante el uso de los auxiliares más oportunos (luz ultravioleta e
infrarroja, por ejemplo). La primera parte de este servicio no es desconocida de la
Biblioteca Nacional y tanto la Bibliothéque Nationale de París como la British Library
poseen experiencia más que suficiente sobre estos procedimientos. La novedad será la
posibilidad de ofrecer una reproducción digitalizada, además de las formas habituales de
fotocopia y microfilme, la primera de las cuales es notoriamente dañina para los libros o
documentos cuando se aplica directamente y será sustituida por la reproducción láser,
que asegura una mayor calidad. |
 |
Obtención de positivos fotográficos
La naturaleza y estado actual de los textos originales que es necesario digitalizar ha
obligado a trabajar con una técnica mixta, uniendo procesos fotográficos y
electrónicos. Dada la extrema delicadeza de algunos originales, ha sido necesario
preparar un sistema para poder obtener la máxima información posible de cada página de
cada documento, con el manipulado más corto posible, sin contacto físico y sin
exposición a temperaturas elevadas o radiaciones perjudiciales.
Después de muchas pruebas y ensayos con distintos materiales y distintos sistemas de
digitalización, se llegó a la conclusión de que era necesario realizar un paso previo a
la digitalización de las páginas: la obtención de originales fotográficos. Sólo
cuando las características de los textos que se iban a digitalizar, por su tamaño,
generalmente, impedían hacerlo desde diapositiva, se ha procedido al escaneado directo, a
través de un escáner adaptado a las características del libro antiguo, para no
dañarlo.
El paso a imágenes digitalizadas a partir de soportes en celuloide no es novedad: se
aplica ya con éxito en historia del arte y en documentación en general. El desarrollo de
la técnica para esta aplicación concreta de biblioteconomía supondrá un avance notable
en el servicio de bibliotecas, al conseguirse, entre otras, las siguientes ventajas:
1. No existe contacto físico que
pueda dañar el documento.
2. El documento está fuera de su ubicación habitual el tiempo más corto
posible, facilitándose así la custodia adecuada de todos los originales.
3. Los documentos se exponen a la luz durante un período de tiempo
extremadamente corto (aproximadamente 15 segundos por página).
4. No hay cambios bruscos en la temperatura o humedad de conservación.
5. No es necesario forzar la encuadernación, ya que no es preciso abrir
totalmente los volúmenes. Cuando el escáner se ha aplicado directamente, se ha
modificado la maquinaria de manera que el libro sufriera el menor daño.
6. Cuando los procesos de digitalización se realizan sobre imágenes
fotográficas, permiten la obtención de las imágenes electrónicas digitales
posteriormente y sin presencia de los originales.
7. Es posible realizar exploraciones múltiples digitales y diversos procesos
en páginas muy degradadas sin volver a procesar las páginas originales.
8. Se obtiene un respaldo complementario de los documentos, ya que proporciona
un archivo fotográfico en color, de gran calidad, que puede ser utilizado por la
Biblioteca Nacional para otros trabajos posteriores.
9. Es posible aumentar la legibilidad de algunos documentos muy deteriorados,
ya que mediante combinaciones de luz, filtros y emulsiones sensibilizadas de forma
especial, se pueden obtener resultados mejores que con otras técnicas.
Después de decidir la técnica que se iba a
utilizar, hemos llevado a cabo un proceso de selección del material fotográfico, que nos
ha hecho utilizar una película reversible de color en formato 24 x 36 milímetros, de
grano ultrafino, y una definición y rendimiento a los colores muy superiores a los
requeridos en los procesos posteriores de digitalización. Las cámaras utilizadas son
capaces de garantizar la exposición correcta de cada página de forma automática,
mediante un sistema de medición de luz a través del objetivo capaz de evaluar diferentes
zonas del encuadre seleccionado. El arrastre de la película es automático y se puede
realizar un enfoque automático de cada página antes de cada toma.
También ha sido necesario preparar útiles especiales para sostener todo el material
necesario mientras trabaja simultáneamente, con los elementos de iluminación necesarios
y los soportes de los originales. Para ello se construyó un atril especial capaz de
soportar las dos cámaras y todos los elementos básicos para asegurar la realización de
las diapositivas en condiciones óptimas. De esta forma se pueden fotografiar al mismo
tiempo las dos páginas de un libro abierto, en el mínimo tiempo posible y sin forzar la
encuadernación del mismo. Cuando el proceso de reproducción se ha realizado desde
escáner, se ha adaptado éste, modificándolo, para que los libros no tuvieran que
forzarse en el momento de reproducción y grabación electrónica de cada página.
Se ha diseñado un proceso de clasificación de originales (una vez reveladas las
diapositivas y comprobada su calidad) para poder realizar seguidamente los procesos de
digitalización. Uno de los efectos colaterales de ADMYTE ha sido la creación de un banco
de imágenes en celuloide. |
 |
Digitalización de imágenes
Cuando se ha partido de diapositiva, la digitalización de las imágenes fotográficas de
las páginas de los libros constituye el puente entre los procesos fotográficos e
informáticos utilizados en el proyecto ADMYTE.
Para realizar correctamente el paso de digitalización, en la opción fotográfica,
insistimos, se ha recurrido a digitalizadores o escáneres de diapositivas de alta
calidad, de muy elevada definición (4.096 puntos por pulgada, 3.850 X 5.850 puntos en
cada diapositiva) y capaces de diferenciar 16.777.216 colores (24 bit por punto, 8 por
cada color RGB).
Suponiendo que la imagen que se fuera a digitalizar ocupara toda la superficie de la
diapositiva y trabajando a la mitad de la definición máxima del digitalizador,
obtendríamos una imagen de 1.925 X 2.900 puntos, con 3 octetos o bytes (24 bit) por
punto, lo que supone ocupar 16,75 Mb de información por cada página. Aunque los
requerimientos finales del proyecto no incluían imágenes de tan elevada definición, ha
parecido conveniente almacenar las imágenes originales con esta calidad por varias
razones:
Permite realizar procesos de
corrección de color y reducción de la imagen sin pérdidas apreciables de calidad.
Proporciona un almacenamiento inalterable en disco óptico que permite
la realización posterior de otros proyectos y trabajos de investigación.
Hace posible crear una base de datos con imágenes de alta definición
en la Biblioteca Nacional sin volver a «tocar» los textos originales.
Para realizar el almacenamiento de estas
imágenes ha sido necesario desarrollar nuevos algoritmos de compresión de imágenes en
color, basados en procesos matemáticos que utilizan la transformada rápida de Fourier.
Estos sistemas especiales de compresión, sin pérdida de calidad, han permitido reducir
la ocupación de cada imagen en color a sólo 800.000 octetos. Los procesos de compresión
son imprescindibles para construir un archivo manejable en disco óptico WORM, ya que de
esta forma podemos almacenar 1.100 imágenes en cada disco de 940 Mb, junto con la
información necesaria para su localización y datos relativos a la diapositiva original.
Procesos de tratamiento de imágenes
La mayor parte de las imágenes que se incluirán en los discos compactos (CD-ROM) serán
en blanco y negro, por lo que podemos realizar procesos especiales de tratamiento
encaminados a aumentar su legibilidad. La digitalización en color nos permite modificar
determinados tonos, realizar procesos digitales de filtrado, etc., previos a la reducción
de las imágenes a blanco y negro.
Los sistemas de, proceso de imágenes empleados permiten hacer más legibles los
documentos eliminando o reduciendo las manchas de humedad, el tono amarillento, las
agresiones naturales, etc.
El estado de los distintos documentos hace que aproximadamente el 95 por ciento de los
mismos se pueda tratar completamente con procesos globales, que afectan a todo el
documento, mediante programas preparados especialmente para este fin. El 5 por ciento
restante debe tratarse con procesos electrónicos manuales y, a veces, seleccionando
únicamente la zona afectada del documento, con un tiempo de ocupación de personal muy
calificado elevadísimo.
Impresionante tarea tenemos todos los docentes por delante: enseñar a expresarse y a
entender bien. ¿Cabe mejor lema para una política educativa?
Los procesos de tratamiento de imágenes incluyen sistemas estadísticos de reducción de
colores a su valor medio, de control de tonos, de sustitución de colores y puntos, de
realce de contornos y contrastes, etc., con lo que se obtienen resultados espectaculares
al aclarar los fondos y oscurecer las tintas. |
 |
Reducción y cambio de colores a blanco y negro
Los procesos de las imágenes concluyen con su paso a blanco y negro y su reducción al
equivalente a 150 puntos por pulgada (lo que permite obtener una copia impresa de
calidad). Durante este proceso es necesario realizar una conversión de los colores según
unas ciertas normas, imprescindibles para mantener la legibilidad en los textos no
escritos con tintas negras (rojo, azul, etc.) y en las ilustraciones.
Durante las comprobaciones que se llevan a cabo con los ficheros resultantes se realizan
copias en papel mediante impresora de tecnología LÁSER. Una vez corroborada su calidad,
se procede a su compresión según normas CCITT Grupo IV y su almacenado, con una
ocupación media de 39 Kb.
Tratamiento de las iluminaciones e ilustraciones
Aunque en el disco 1 todas las imágenes son en blanco y negro, porque no hay, imágenes
en color en los libros reproducidos, otras obras contienen algunas páginas con
ilustraciones en color o iluminaciones con distinto grado de detalle. La reproducción
adecuada de estas páginas requiere tratamientos especiales, puesto que se han de incluir
en los discos CDROM conservando el color original. En la mayor parte de los casos
únicamente se trabaja con la zona que contiene la ilustración (de forma ampliada), con
lo que se aumenta la posibilidad de apreciar fácilmente cada detalle. Se han creado para
el tratamiento de estas imágenes en color programas especiales que permiten realizar los
procesos de corrección de forma interactiva, es decir, viendo directamente en la pantalla
los resultados obtenidos con las modificaciones.
Transcripción de los textos
La transcripción de los textos se realiza solamente en caso de imposibilidad de utilizar
una transcripción existente, ya sea por no corresponder a la misma edición de la obra o
bien por no poder obtener los permisos necesarios para su uso.
Realiza la transcripción un equipo de especialistas que utiliza herramientas informáticas
adecuadas, las cuales permiten generar las grafías especiales necesarias para poder
realizar una transcripción paleográfica correcta. Se ha realizado una nueva versión al
español de las normas del Hispanic Seminary of Medieval Studies y se han adaptado ciertos
criterios de transcripción a nuestras necesidades concretas, de este modo contribuimos a
reforzar el estándar de transcripción e intercambio de información textual para el
español antiguo y clásico.
En esta fase del proyecto se utiliza la impresora láser para obtener copias de los
documentos que se han procesado siguiendo los pasos anteriores y que sirven además para
realizar en el texto las indicaciones que se utilizarán más adelante, en el producto
resultante del proyecto, para marcar el comienzo y fin de cada página.
Todos los textos, tanto los procedentes de transcripciones realizadas para ADMYTE, como
los de autores o equipos que los han cedido amablemente, han sido vueltos a leer por un
revisor y han sido corregidos. La errata es el enemigo inevitable de todo copista,
corrector o transcriptor, la aplicación de la electrónica sólo garantiza que se van
eliminando progresivamente, no que se hayan eliminado del todo. La ventaja es que la
transcripción se puede comparar inmediatamente con el original y se puede ir corrigiendo
en el disco de trabajo del investigador, quien dispondrá al final de una versión
totalmente adecuada a sus necesidades e intereses, con un esfuerzo mínimo.
La transcripción de los textos se beneficia, además de la cooperación de todos los
investigadores que deseen ceder sus transcripciones en forma electrónica, de la
posibilidad de leer ópticamente textos editados y textos mecanografiados, con ello
reducimos notablemente la necesidad de teclear los textos para la introducción de los
datos en forma electrónica y mejora sensiblemente la calidad de los textos ASCII
incluidos en los discos, por la corrección de las ediciones o transcripciones mecánicas
leídas electrónicamente. Es innegable que la calidad del texto transcrito es un requisito
esencial en ADMYTE. |
 |
Interfaz estándar: ADMYTE y Windows
ADMYTE ofrece al usuario la posibilidad de combinar un ordenador personal (con una
pantalla VGA, por motivos de definición), un lector de discos láser y una impresora
láser para reproducciones inmediatas y seguras. A fin de combinar estos elementos y
aprovechar toda la información contenida en ellos se ha desarrollado ADMYTE bajo Windows
3.0, con el fin de aprovechar las ventajas de un entorno estándar. La técnica de
ventanas permite ver en columnas paralelas el documento en facsímil.y su transcripción.
La técnica de menús desplegables desde una barra permite recuperar la información, bien
de un título, de varios agrupados, o de una simple página. Los avances aportados por la
versión 3.l, finalmente, han permitido vincular ADMYTE a una interfaz realmente cómoda
para el usuario no necesariamente experto en informática, que es el público mayoritario
de ADMYTE dando mayor flexibilidad a las técnicas que a continuación resumimos.
La búsqueda por palabras permite seleccionar las páginas de los libros
seleccionados en las que se encuentran las palabras que interesan en ese proceso de la
investigación, mientras que la selección por glosario o la búsqueda mediante
lenguaje de interrogación son procesos más complejos. Para la selección por
glosario debemos imaginar el conjunto como una base de datos, alfabéticos y gráficos, a
la que se ha asociado un glosario, construido por el equipo lingüístico e informático
de ADMYTE. El glosario de la base de datos contiene todas las palabras de
búsqueda, ordenadas alfabéticamente. Las referencias se han extraído de los campos
índice de los diferentes documentos. La búsqueda se realiza tecleando la referencia en
la línea de texto situada justamente encima del Glosario, tras lo cual se pulsa
«Intro».
Para usar el lenguaje de interrogación es preciso llamar el proceso buscar y
teclear la palabra o palabras que se desee hallar, teniendo en cuenta que el lenguaje
tiene una rica sintaxis que admite diversas operaciones. Podemos buscar una referencia
simple: alfanumérica, numérica, de fechas y genéricas, es decir, con símbolos
comodines, que permiten buscar dentro de un patrón más amplio.
También podemos buscar referencias adyacentes, referencias consecutivas separadas por
blancos, o bien en una distancia fija, o en un radio más amplio. Estas posibilidades se
amplían con los llamados operadores booleanos, los de unión,
intersección y diferencia: O, Y, NO. Para alterar la jerarquía de los operadores se pueden utilizar
paréntesis, tal como se hace en las operaciones aritméticas y lógicas.
El Glosario de lemas y formas, desarrollado por Carlos Mayor y concebido con un
criterio exclusivamente formal, es una ayuda útil para las personas que no puedan o no
deseen usar las múltiples variantes de las formas antiguas del léxico. Para usarla,
dentro del Glosario de lemas del menú Opción, basta con escribir la forma
básica (el lema) que se busca y pulsar «Intro». Tras ello se verán en
pantalla todas las formas asociadas con ese lema y se dará opción, en una segunda
ventana a la búsqueda por lema o por forma. Si el lema pedido no estuviera en la base de
datos, aparecería el más próximo alfabéticamente. En el futuro esta opción será
sustituida por un diccionario informatizado completo de la lengua medieval y clásica.
Una Biblioteca del Descubrimiento en el Archivo Digital de Manuscritos y Textos
Españoles
El disco I, realizado entre 1990 y 1992, contiene sesenta y un títulos, la mayoría de
ellos de incunables, aunque hay algunos impresos antiguos, todos ellos de la Biblioteca
Nacional de España, en Madrid, que corresponden a los apartados: Enciclopedias,
Diccionarios y Gramáticas, Textos legales, Textos científicos, Libros de viajes,
Crónicas y Biografías, Tratados de Caballería y Nobleza, Textos poéticos. La
intención ha sido la de presentar en este disco inicial lo que podría haber sido una
biblioteca de un contemporáneo de los navegantes que partieron de Palos rumbo a las
Indias, en el error geográfico sin duda más productivo de la Historia.
Ese mundo del humanismo en el que el latín va dejando su paso al castellano se muestra en
las gramáticas de Nebrija, o sus diccionarios, de ambas lenguas, en las Partidas alfonsíes,
base del ordenamiento jurídico español e hispanoamericano, en las ordenanzas promulgadas
por los Reyes Católicos, en textos científicos que van desde la medicina a la
veterinaria o la cosmografía, desde los autores árabes a los castellanos.
Cuando el viaje constituye la contraseña del fin de siglo, no podían faltar los textos
de este tipo, incluido el Marco Polo de Rodrigo de Santaella. Si se trata de hombres, los
modelos de la época están en la Crónica Popular del Cid, en el Valerio de las
historias eclesiásticas y de España, de Diego Rodríguez de Almela, o en los Claros
Varones de Castilla, de Hernando del Pulgar, entre otros. Algunos de estos caballeros
leían y aprendían en el Doctrinal de los caballeros de Alonso de Cartagena o en
el Nobiliario vero de Fernando Mejía y todos se solazaban con los textos de Juan
del Encina, de Mena o de Íñigo López de Mendoza.
Así se rinde homenaje a los que llevaron la Ley, la imprenta, la universidad y, en suma,
la Latinidad, a las tierras por ellos descubiertas, cumpliendo el viejo ideal de Roma,
reencarnado en la Hispania Provincia. |
 |
BibliografíaBLECUA, Alberto, 1983: Manual de crítica
textual, Madrid: Castalia.
DE ROSE, Steven, J., 1988: «Grammatical Category Disambiguation by Statistichal
Optimization», Computational Linguislic, 14/1, 31-39.
FAULHABER, Charles B. et al., 1984: Bibliography of Old Spanish Texis (Literary Téxts,
Edition-3), Madison: Hispanic Seminary of Medieval Studies.
FAULHABER, C. B. y FRANCISCO MARCOS MARÍN, 1989-90: «ADMYTE: Archivo digital de
Manuscritos y Textos Españoles», La Corónica, 182, 131-145.
FROGER, dom Jacques, 1968: La critique des textes et son automatisation, París:
Dunod.
GARSIDE, Roger, Geoffrey LEECH & Geoffrey SAMPSON (eds.), 1987:The Computational
Analysis of English: A Corpus-based Approach, Londres: Longman.
GREENIA, George D., 1989: «The Libro de Alexandre and the computerized editing of
texts», La Corónica, 17, 55-67.
LANCASHIRE, Ian & Willard MARTY, 1988: The Humanities Computing Yearbook, Oxford:
Clarendon Press.
MACKENZIE, David, 1984: A Manual of Manuscript Transcription for the Dictionary of the
Old Spanish Language (With Spanish translation by José Luis Moure), 3.ª ed.,
Madison; Hispanic Seminary of Medieval Studies.
MARCOS-MARTÍN, 1985: «Computer- Assisted Philology: Towards a Unified Edition of OSp.
Libro de Alexandre», Proceedings of the E[uropean]L[language] S[ervíces] Conference
on Natural-Languaje Applícations, section 16, Copenhague: IBM Denmark.
_________, 1986a «Metodología Informática para la Edición de Textos», Incipil, Buenos
Aires, vi, 185-197.
_________, 1986b «UNITE: conjunto de programas para el tratamiento filológico de textos
en verso», Procesamiento del Lenguaje Natural [Sociedad Española para el
Procesamiento del Lenguaje Natural], 4, 43-55.
_________, 1987a Libro de Alexandre. Estudio y edición, Madrid: Alianza
Universidad.
_________, 1987b «El Libro de Alexandre: Edición unificada por ordenador», LEA,
IX, 1987, 347-370.
_________, 1988a «Recuperación de información lingüística y tratamiento crítico de
textos», Actas, Simposio Internacional de Educación e Informática, Madrid, 15 al
18 de junio de 1987, Madrid: Instituto de Ciencias de la Educación, Universidad Autónoma
de Madrid, 187-196.
_________, 1988b «El Libro de Alexandre: Notas a partir de la primera edición unificada
por ordenador», Actas del I Congreso Internacional de Historia de la Lengua Española,
Madrid: Arco Libros, 1988, 1025-1064.
_________, 1989 (1991) «UNITE, a Package for Computer Assisted Philological Editing», Folia
Linguistica Historica, X, 117-143.
_________, 1991a «ADMYTE (Archivo Digital de Manuscritos y Textos Españoles); The
Digital Archive of Spanish Manuscripts and Texts», Literary & Linguistic
Computing, 6/3, 1991 (News and Notes), 221-224.
_________, 1991b «Computers and Text Editing: A Review of Tools, an Introduction to UNITE
and Sonic Observations Concerning its Application to Old Spanish Texts», Romance
Philology, XLV/1, 1991, 102-122 (Bibliography: 205-237).
FMM en colaboración con Aurora MARTÍN DE SANTA OLALLA, Charles B. FAULHABER, Angel
GÓMEZ MORENO, 1992: «ADMYTE: The Digital Archive of Spanish Manuscripts and Texts», Sesame
Bulletin. Language automation worldwide, 5/2 (Surnmer 1992), 50-61.
FMM y Pilar SALAMANCA FERNÁNDEZ, 1987: «Programas informáticos para la crítica
textual», Telos, 11, 105-111.
FMM y Jesús SÁNCHEZ LOBATO, 1988: Lingüística Aplicada, Madrid: Síntesis.
FMM en col. con Verónica ZUMÁRRAGA, 1991: «El corpus de referencia de la lengua
española», Razón y Fe, 223/1.109, marzo 1991, 285-293.
[MARTÍN DE] SANTA OLALLA, Aurora, 1992: Manual de Transcripción para el Diccionario
del Español Antiguo. Cuarta edición, traducción española, Madison: Hispanic
Seminary of Medieval Studies.
MEIJS, Willem (ed.), 1987: Corpus Linguistics and beyond: Proceedings of the Seventh
International Conference on English Language Research on Computerized Corpora, Amsterdam:
Rodopi.
OAKMAN, Robert L., 1984: Computer Methods for Literary Research, 2nd. ed. Athens,
GA: University of Georgia.
SHILLINGSBURG, Peter L., 1986: Scholarly Editing in the Computer Age, Athens:
University of Georgia Press. |
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|