Rafael C. Carrasco Jiménez
Digitalizar un documento significa transformarlo en un objeto digital. Sin embargo, no hay una forma única de representar un documento como objeto numérico. Las más habituales generan versiones facsímiles, esto es, réplicas digitales que contienen información suficiente para reproducir la imagen del documento original. En otras palabras, se guarda básicamente el análogo de una fotografía o reproducción del texto.
La reproducción de la imagen de un texto (como en la figura 2) nos permite apreciar las características del material sobre el que ha sido impreso, los tipos de letra utilizados en la escritura o los detalles de los dibujos que contiene. Sin embargo, no es fácil encontrar en estas reproducciones dónde se encuentra una palabra determinada. Tampoco se puede hojear el índice y el contenido al mismo tiempo ni producir una nueva edición que pueda ser leída cómodamente en un portalibros electrónico (los a veces denominados e-books). Ciertamente, es posible reducir la escala de la imagen para adecuarla al tamaño de estos lectores modernos pero, probablemente, el tamaño del texto será demasiado pequeño para que la lectura sea placentera.
Existe otra forma de crear una reproducción digital de un texto que denominamos transcripción digital. En una transcripción se conservan, al menos, todos los caracteres y palabras que componen cada página y, posiblemente, información sobre el tipo de letra y sobre la ubicación de las palabras en la página. La transcripciones digitales permiten realizar búsquedas complejas en el contenido, consultar diccionarios u obras de referencia asociados a una parte del texto, generar locuciones automáticamente para personas con discapacidades visuales, crear ediciones específicas para el medio de lectura que se va a utilizar (como los modernos portalibros electrónicos) o realizar presentaciones sinópticas de ediciones distintas de una misma obra.
En general, los textos transcritos son muy valiosos porque pueden ser transformados con mayor facilidad que las ediciones facsímiles. Una ventaja adicional de las transcripciones es que son menos sensibles a los cambios técnicos pues, al tratarse de textos digitales, se pueden procesar con herramientas muy simples; en cambio, el tratamiento de imágenes se realiza con programas especializados que pueden quedar anticuados (incluso desaparecer) más rápidamente.
Sin embargo, el coste de su producción (alrededor de varios euros por página) es enorme si se compara con el de las ediciones facsímiles (que se reduce a unos céntimos de euro por página). Por esta razón, son pocas las bibliotecas digitales que transcriben sistemáticamente los textos y, las que lo hacen, seleccionan las obras para las que el trabajo se considera más significativo. Figura 3.
Como ejemplo de las nuevas formas de lectura que permite la transcripción, la figura 3 presenta la imagen de un texto transcrito y la de una definición, según el diccionario, obtenida por el lector tras seleccionar una palabra del texto. Nótese que, en general, no es suficiente con marcar una palabra del texto para encontrar su definición debido, por un lado, a la riqueza flexiva del español y, por otro, a la ambigüedad categorial que produce el análisis léxico de palabras aisladas. En el ejemplo, se ha utilizado un analizador morfológico para determinar otros lemas o entradas del diccionario que pueden responder adecuadamente a la consulta.
Las posibilidades de aplicación de técnicas nuevas a este tipo de textos son prácticamente ilimitadas: caben, entre otras, construir analizadores de las formas léxicas antiguas para vincular las palabras arcaicas con sus equivalentes modernas; o resolver consultas en pasajes ajenos al idioma principal de la obra (por ejemplo, traducir expresiones latinas incluidas en una obra clásica). Como se muestra en la figura 4, es posible también la presentación sinóptica de un texto en su versión facsímil y en su versión transcrita (paleográfica, modernizada o ambas). Figura 4.
Ciertamente, la transcripción automática de textos impresos ha progresado considerablemente en los últimos años1, consiguiendo resultados satisfactorios con la mayoría de los textos impresos modernos. Como veremos, esto no es lo que ocurre con los textos antiguos ni, tampoco, con los textos manuscritos, donde aún estamos lejos de tener herramientas de calidad suficiente.