|
|
Problemas de
transcripción textual electrónica: lenguas, dialectos, máquinas
David Mackenzie. Universidad de Birmingham |
|
El sistema de transcripción que utiliza el Diccionario del español antiguo de Madison ha
tenido alguna difusión1. Son normas muy
sencillas cuya finalidad fue la de unificar criterios en un proyecto que contaba con
colaboradores de muy variada experiencia paleográfica y de muchas nacionalidades. Algunos
editores de textos medievales no vinculados al proyecto madisoniense han adoptado las
normas y el equipo ADMYTE las emplea pero no han logrado una universal
aceptación.
¿En qué consisten las normas de Madison? Pretenden permitir una fiel representación del
texto medieval, con un sistema de paréntesis de varios tipos para indicar la resolución
de abreviaturas y modificaciones escribales o editoriales, ya sean rectificaciones,
tachaduras, etc. Siempre que sea posible, se incluye el texto modificado o suprimido, es
decir la versión original, y se indica si la modificación se debe al editor, al escriba
o a una mano posterior. Esta postura permite al investigador reconstruir la lección del
manuscrito, principio fundamental de la filología.
Las normas también pretenden describir ciertos aspectos del texto y de la forma física
del manuscrito mediante ciertos códigos, como por ejemplo rúbricas, glosas, texto en
lengua extranjera, miniaturas, etc.
Respondiendo a los fines filológicos del equipo madisoniense, este procedimiento permite
al investigador saber qué palabras han sufrido modificaciones contemporáneas,
posteriores o quizás dialectales. El texto de las rúbricas o glosas también se aparta
del listado principal de la concordancia, ya que normalmente se debe a otra persona.
Resumiendo, pues, el equipo madisoniense pretende crear un enorme banco de datos formado
por cuantos textos del medioevo español se le ofrezca. Este banco de datos sería
asequible a la comunidad académica internacional para todo tipo de investigación,
además de servir de materia prima para la compilación del Diccionario del español
antiguo de Madison. Ejemplo de la utilidad del corpus de Madison es su incorporación en
el proyecto ADMYTE.
Las características físicas de la transcripción madisoniense han dificultado su
aceptación como sistema de transcripción universal: si se publica un texto transcrito
así, lleno de códigos, tres tipos de paréntesis, etc., no tiene grandes cualidades
estéticas. Claro que se puede someter a una depuración para producir un texto más
legible, y así se ha hecho con muchos textos editados en Madison.
Creo que es imposible llegar a un sistema perfecto para la transcripción de textos. La
propia experiencia demuestra que cada editor tiene requisitos muy particulares: fueron
muchos quienes nos felicitaron por las normas madisonienses, pero a continuación nos
indicaron que tales normas no lograron resolver sus exigencias individuales. Sirva de
ejemplo el caso ocurrido hace un mes en el encuentro de Historiadores de la Iberia
Medieval celebrado en Birmingham, donde una investigadora experta en la transcripción de
la poesía cancioneril española nos comentó que las normas no le habían permitido
reflejar su preferencia por la versión superpuesta por una mano posterior.
A veces, sobre todo en el Reino Unido pos-thatcheriano, donde toda persona medianamente
culta está normalmente sumida en la más profunda depresión, el investigador se olvida
de otear otros campos de investigación hermanos, y tal fue el caso en Birmingham. Tenemos
en el Departamento de Inglés un equipo de investigación de lengua inglesa encabezado por
el profesor John Sinclair, que ha almacenado un corpus de más de 20 millones de palabras
del inglés contemporáneo.
Recientemente se ha ampliado este corpus, añadiendo creo que 7 millones de palabras del
inglés hablado, cortesía del servicio internacional de la BBC (otra institución
cultural gravemente amenazada por los neogodos thatcherianos). |

|
Sabía, pues, de la existencia del equipo de Sinclair lo trato, lo saludo a
diario en la cafetería y en el bar de la Universidad, sabía que se valían de
ordenadores para la creación de su corpus. Pero como se trata del inglés contemporáneo
y uno anda siempre ocupado, no me había molestado en averiguar qué procedimiento
empleaban.
Sin embargo, gracias a una feliz casualidad mi buen amigo Joan Torruella, de
Barcelona, me había pedido un libro de Sinclair2
justo antes de venir aquí me informé de los criterios de Sinclair, y muy grata fue mi
sorpresa al darme cuenta de que él se guiaba por principios muy parecidos a los que
habían seguido los fundadores del equipo de Madison, Lloyd Kasten y John Nitti.
Insiste Sinclair en la necesidad de textos relativamente limpios, es decir que no
contengan excesiva codificación. Tal postura permite al investigador introducir los
códigos que él considera útiles para su propia investigación, sin tener que luchar con
los códigos ideados por otro, y que por otra parte pueden influir de una manera
perjudicial en la trayectoria de su trabajo.
Apunta también Sinclair que el lingüista salta sin esfuerzo a conceptos abstractos como
«palabra» en el sentido de «lema», pero que no todos saltan en el mismo sentido, y no
hay reglas acordadas para tales abstracciones. Además, cualquier operación codificadora
lleva tiempo pensemos en los diez años de trabajo entre la preparación de los
textos y su posterior utilización en el caso del corpus de Brown y, aún más
importante, mano de obra especializada.
La postura de Sinclair, claro que responde a sus ideas relativas al tipo de corpus a
elaborar. Cree que, pese a la gran utilidad de los corpora seleccionados (sample
corpora) tipo Brown o Lancaster-Oslo-Bergen, la investigación está demostrando sus
puntos flacos. El corpus de Brown, por ejemplo, tiene un límite de extensión para cada
texto de 2.000 palabras, lo que imposibilita el estudio de patrones de lengua en textos
más largos. El léxico está controlado sólo indirectamente mediante la selección de
género, así que no se puede abarcar un estudio de palabras poco frecuentes. Un corpus
seleccionado será siempre discontinuo: sus divisiones son demasiado pequeñas para que se
pudiese considerar como representativas de la lengua. Cree Sinclair que la meta actual de
la investigación en la lingüística computacional en cuanto a corpora tiene que ser la
creación de lo que él llama «corpora monitores». Tales corpora no tendrían límites
de extensión ya que, con la misma lengua, estarían en un estado de constante
crecimiento. El «corpus monitor» mantendría una selección enorme y constantemente
actualizada de la lengua moderna, pero con una vertiente histórica y un listado completo
de palabras. La mayoría de los textos a tratar provendrían de fuentes ya informatizadas
así que pasarían directamente al banco de datos. Piensa Sinclair en un crecimiento
orgánico que también permitiría el lento desgaste de textos ya tratados. Sería algo
parecido al sistema digestivo del cuerpo humano: el texto, después de sometido a una
serie de tratamientos, pasando por varios filtros léxicosemánticos, después de
digerido, se expelería para dar lugar a más alimentación. El modelo de corpus de
Sinclair sería, pues, dinámico y capaz de reflejar el desarrollo vital de una lengua.
Tanto Nitti como Sinclair tienen grandes dificultades para contestar a preguntas
referentes a los criterios empleados para la selección de los textos destinados a
incorporarse en sus respectivos corpora, porque ambos se han percatado de la necesidad de
un corpus muy grande de textos completos para poder contemplar estudios lingüísticos
válidos de una determinada lengua. Su principal interés fue la transcripción de muchos
textos en el menor tiempo posible. Si detectan posteriormente registros que no se
encuentren lo suficientemente representados, siempre pueden subsanar la falta
rápidamente. Efectivamente, así lo han hecho, Sinclair con los guiones del inglés
hablado que importó de la BBC, y Nitti con los textos médicos, para los cuales pudo
valerse de las transcripciones de la profesora María Teresa Herrera de Salamanca. La
técnica de ambos equipos es la flexibilidad: ambos abogan por la creación de grandes
corpora, con una mínima codificación, permitiendo así la posterior investigación bajo
muchos y muy diversos criterios, los cuales no serían limitados ni dificultados por la
insuficiencia de datos por una parte, ni por una selección rigurosa o sesgada por otra.
|
|
Notas:
- MACKENZIE: A manual of manuscript transcription for the
Dictionary of the Old Spanish Language, Madison, Wisconsin: Hispanic Seminary of
Medieval Studies (1ª ed., con K. Buelow, 1977; 2nd ed., 1980; 3ª. ed., con una
traducción al español por J. M. Moure, 1984; 4ª. ed., con V. A. Burrus, 1986).
- J. M. SINCLAIR Corpus, concordance, collocation,
Oxford: University Press, 1991.
|
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|