Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio

        


LA CODIFICACIÓN TEXTUAL ELECTRÓNICA

Congreso de Sevilla
 

Problemas de transcripción textual electrónica: lenguas, dialectos, máquinas
David Mackenzie. Universidad de Birmingham

 

El sistema de transcripción que utiliza el Diccionario del español antiguo de Madison ha tenido alguna difusión1. Son normas muy sencillas cuya finalidad fue la de unificar criterios en un proyecto que contaba con colaboradores de muy variada experiencia paleográfica y de muchas nacionalidades. Algunos editores de textos medievales no vinculados al proyecto madisoniense han adoptado las normas —y el equipo ADMYTE las emplea— pero no han logrado una universal aceptación.

¿En qué consisten las normas de Madison? Pretenden permitir una fiel representación del texto medieval, con un sistema de paréntesis de varios tipos para indicar la resolución de abreviaturas y modificaciones escribales o editoriales, ya sean rectificaciones, tachaduras, etc. Siempre que sea posible, se incluye el texto modificado o suprimido, es decir la versión original, y se indica si la modificación se debe al editor, al escriba o a una mano posterior. Esta postura permite al investigador reconstruir la lección del manuscrito, principio fundamental de la filología.

Las normas también pretenden describir ciertos aspectos del texto y de la forma física del manuscrito mediante ciertos códigos, como por ejemplo rúbricas, glosas, texto en lengua extranjera, miniaturas, etc.

Respondiendo a los fines filológicos del equipo madisoniense, este procedimiento permite al investigador saber qué palabras han sufrido modificaciones contemporáneas, posteriores o quizás dialectales. El texto de las rúbricas o glosas también se aparta del listado principal de la concordancia, ya que normalmente se debe a otra persona.

Resumiendo, pues, el equipo madisoniense pretende crear un enorme banco de datos formado por cuantos textos del medioevo español se le ofrezca. Este banco de datos sería asequible a la comunidad académica internacional para todo tipo de investigación, además de servir de materia prima para la compilación del Diccionario del español antiguo de Madison. Ejemplo de la utilidad del corpus de Madison es su incorporación en el proyecto ADMYTE.

Las características físicas de la transcripción madisoniense han dificultado su aceptación como sistema de transcripción universal: si se publica un texto transcrito así, lleno de códigos, tres tipos de paréntesis, etc., no tiene grandes cualidades estéticas. Claro que se puede someter a una depuración para producir un texto más legible, y así se ha hecho con muchos textos editados en Madison.

Creo que es imposible llegar a un sistema perfecto para la transcripción de textos. La propia experiencia demuestra que cada editor tiene requisitos muy particulares: fueron muchos quienes nos felicitaron por las normas madisonienses, pero a continuación nos indicaron que tales normas no lograron resolver sus exigencias individuales. Sirva de ejemplo el caso ocurrido hace un mes en el encuentro de Historiadores de la Iberia Medieval celebrado en Birmingham, donde una investigadora experta en la transcripción de la poesía cancioneril española nos comentó que las normas no le habían permitido reflejar su preferencia por la versión superpuesta por una mano posterior.

A veces, sobre todo en el Reino Unido pos-thatcheriano, donde toda persona medianamente culta está normalmente sumida en la más profunda depresión, el investigador se olvida de otear otros campos de investigación hermanos, y tal fue el caso en Birmingham. Tenemos en el Departamento de Inglés un equipo de investigación de lengua inglesa encabezado por el profesor John Sinclair, que ha almacenado un corpus de más de 20 millones de palabras del inglés contemporáneo.

Recientemente se ha ampliado este corpus, añadiendo creo que 7 millones de palabras del inglés hablado, cortesía del servicio internacional de la BBC (otra institución cultural gravemente amenazada por los neogodos thatcherianos).


Subir


Sabía, pues, de la existencia del equipo de Sinclair —lo trato, lo saludo a diario en la cafetería y en el bar de la Universidad—, sabía que se valían de ordenadores para la creación de su corpus. Pero como se trata del inglés contemporáneo y uno anda siempre ocupado, no me había molestado en averiguar qué procedimiento empleaban.

Sin embargo, gracias a una feliz casualidad —mi buen amigo Joan Torruella, de Barcelona, me había pedido un libro de Sinclair2— justo antes de venir aquí me informé de los criterios de Sinclair, y muy grata fue mi sorpresa al darme cuenta de que él se guiaba por principios muy parecidos a los que habían seguido los fundadores del equipo de Madison, Lloyd Kasten y John Nitti.

Insiste Sinclair en la necesidad de textos relativamente limpios, es decir que no contengan excesiva codificación. Tal postura permite al investigador introducir los códigos que él considera útiles para su propia investigación, sin tener que luchar con los códigos ideados por otro, y que por otra parte pueden influir de una manera perjudicial en la trayectoria de su trabajo.

Apunta también Sinclair que el lingüista salta sin esfuerzo a conceptos abstractos como «palabra» en el sentido de «lema», pero que no todos saltan en el mismo sentido, y no hay reglas acordadas para tales abstracciones. Además, cualquier operación codificadora lleva tiempo —pensemos en los diez años de trabajo entre la preparación de los textos y su posterior utilización en el caso del corpus de Brown— y, aún más importante, mano de obra especializada.

La postura de Sinclair, claro que responde a sus ideas relativas al tipo de corpus a elaborar. Cree que, pese a la gran utilidad de los corpora seleccionados (sample corpora) tipo Brown o Lancaster-Oslo-Bergen, la investigación está demostrando sus puntos flacos. El corpus de Brown, por ejemplo, tiene un límite de extensión para cada texto de 2.000 palabras, lo que imposibilita el estudio de patrones de lengua en textos más largos. El léxico está controlado sólo indirectamente mediante la selección de género, así que no se puede abarcar un estudio de palabras poco frecuentes. Un corpus seleccionado será siempre discontinuo: sus divisiones son demasiado pequeñas para que se pudiese considerar como representativas de la lengua. Cree Sinclair que la meta actual de la investigación en la lingüística computacional en cuanto a corpora tiene que ser la creación de lo que él llama «corpora monitores». Tales corpora no tendrían límites de extensión ya que, con la misma lengua, estarían en un estado de constante crecimiento. El «corpus monitor» mantendría una selección enorme y constantemente actualizada de la lengua moderna, pero con una vertiente histórica y un listado completo de palabras. La mayoría de los textos a tratar provendrían de fuentes ya informatizadas así que pasarían directamente al banco de datos. Piensa Sinclair en un crecimiento orgánico que también permitiría el lento desgaste de textos ya tratados. Sería algo parecido al sistema digestivo del cuerpo humano: el texto, después de sometido a una serie de tratamientos, pasando por varios filtros léxicosemánticos, después de digerido, se expelería para dar lugar a más alimentación. El modelo de corpus de Sinclair sería, pues, dinámico y capaz de reflejar el desarrollo vital de una lengua.

Tanto Nitti como Sinclair tienen grandes dificultades para contestar a preguntas referentes a los criterios empleados para la selección de los textos destinados a incorporarse en sus respectivos corpora, porque ambos se han percatado de la necesidad de un corpus muy grande de textos completos para poder contemplar estudios lingüísticos válidos de una determinada lengua. Su principal interés fue la transcripción de muchos textos en el menor tiempo posible. Si detectan posteriormente registros que no se encuentren lo suficientemente representados, siempre pueden subsanar la falta rápidamente. Efectivamente, así lo han hecho, Sinclair con los guiones del inglés hablado que importó de la BBC, y Nitti con los textos médicos, para los cuales pudo valerse de las transcripciones de la profesora María Teresa Herrera de Salamanca. La técnica de ambos equipos es la flexibilidad: ambos abogan por la creación de grandes corpora, con una mínima codificación, permitiendo así la posterior investigación bajo muchos y muy diversos criterios, los cuales no serían limitados ni dificultados por la insuficiencia de datos por una parte, ni por una selección rigurosa o sesgada por otra.


Subir


Notas:
  1. MACKENZIE: A manual of manuscript transcription for the Dictionary of the Old Spanish Language, Madison, Wisconsin: Hispanic Seminary of Medieval Studies (1ª ed., con K. Buelow, 1977; 2nd ed., 1980; 3ª. ed., con una traducción al español por J. M. Moure, 1984; 4ª. ed., con V. A. Burrus, 1986).Volver al texto
  2. J. M. SINCLAIR Corpus, concordance, collocation, Oxford: University Press, 1991.Volver al texto
 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.