Rafael C. Carrasco Jiménez
La transcripción manual de todos los textos de una biblioteca mediana requeriría el trabajo de cientos de personas para que se completase en un plazo razonable, medible en años. Por este motivo, la mayor parte de las bibliotecas están esperando la llegada de los avances científicos y técnicos que permitan automatizar este trabajo antes de realizar transcripciones masivas.
A continuación, se refleja el resultado de la transcripción automática obtenida con una versión reciente de un programa a partir del texto de la figura 6:
EX A MO S En Ja prime-
raparte defta hiftoria ,al va-
lerofo Vizcayno», yalfamo-
fo don Quixote,con las éfpa-
das altas,y definidas» en guifa
de defeargar dos furibundos
fedicnres...
Como puede observarse, el resultado es aún distante del original, lo que hace que la transcripción manual sea más barata, pues se estima que una razón de palabras erróneas respecto al total superior al 10% hace preferible la transcripción completamente manual a la revisión del resultado obtenido automáticamente. Una observación atenta nos descubre algunos de los motivos más habituales de estas deficiencias: la calidad de la impresión (con espaciamientos entre palabras y letras irregulares), el uso de tipos de letra en desuso (que incluyen grafías no actuales), el estado de conservación y la transparencia del papel (obsérvese las comillas tras Vizcayno). Además, la carencia de léxicos específicos dificulta la obtención de transcripciones adecuadas, porque los sistemas actuales intentan casar cada palabra leída con alguna de las contenidas en el vocabulario de cada idioma que almacenan (con un valor o peso asociado a cada palabra para asignar verosimilitud distinta a las posibles interpretaciones).
La mejora de estos sistemas de transcripción es uno de los desafíos más importantes al que se enfrentan los expertos en bibliotecas digitales. Aunque la transcripción automática, probablemente, nunca será eficaz con textos muy antiguos o manuscritos, se extenderá el rango de documentos para los que su eficacia sea similar a la conseguida para textos modernos (que es cercana al 100%). La creación de vocabularios específicos, la mejora de los procedimientos de restauración digital de las imágenes y la detección automática del idioma de cada fragmento del texto resolverán muchas de las dificultades. Una muestra de la importancia que se reconoce a esta cuestión es el proyecto IMPACT (http://www.impact-project.eu/), que financia la Comisión Europea, cuyo objetivo principal es abaratar los costes y mejorar la eficiencia de la transcripción automática masiva de textos. Al consorcio de este proyecto pertenecen dos bibliotecas del ámbito español: la Biblioteca Nacional y la Biblioteca Virtual Miguel de Cervantes.