Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2009 > A. B. Gómez y M. A. Marco. Introducción
El español en el mundo

Estado actual de los corpus de lengua española hablada y escrita: I+D

Antonio Briz Gómez y Marta Albelda Marco

1. Introducción. Criterios de selección de los corpus recogidos

El objetivo de este artículo es dar cuenta de los corpus de lengua hablada y escrita del español hasta la actualidad: corpus ya elaborados o en fase avanzada de elaboración.

La recolección de corpus en lingüística ha ido en aumento en los últimos años. Sin embargo, todavía resulta hoy bastante asequible realizar una compilación de los existentes como la que sigue, puesto que su número es aún escaso. Son, en cierto modo, las arduas tareas de recolección y transcripción las que limitan el desarrollo de estos materiales y, al mismo tiempo, las que hacen que sean tan valorados cuando se ponen a disposición pública.

Bajo la etiqueta de «corpus» se engloba una variada tipología de materiales de dimensiones variables. No es este el lugar apropiado para discutir sobre la definición de corpus, ni sobre los requisitos que debería cumplir un tipo de materiales recogidos para ser considerado como tal. Sin embargo, nos parece necesario presentar las condiciones de la selección de aquellos corpus de los que daremos noticia en el presente artículo, así como de los materiales que dejaremos de lado.

¿Se puede considerar como corpus un conjunto de novelas, ensayos y obras poéticas escaneadas y compiladas en un CD o volcadas en un servidor de Internet? Se trata de textos escritos de variada tipología, cuya digitalización permite hacer búsquedas, aunque simplemente sea con un procesador de textos. Ahora bien, si se considera que el anterior CD es un corpus, entonces cualquier agrupación de textos digitalizada tendría ese carácter. En nuestro caso, ante este tipo de muestras, se recoge información de los conjuntos de obras digitalizadas con tratamiento informático, como un etiquetado y un motor de búsqueda que permita al usuario obtener concordancias.

Los materiales anteriores suelen denominarse «corpus», pero también «bases de datos textuales». Desde nuestro punto de vista, y a efectos prácticos para este trabajo, distinguiremos ambas categorías. Hablaremos de corpus, simplemente, en el caso de aquellas compilaciones de muestras de habla o de escritura recogidas en su contexto natural de enunciación, y para los materiales extraídos de publicaciones (ensayos, novelas, periódicos, artículos científicos, etc.) y agrupados de acuerdo con criterios homogéneos reservaremos la categoría de «base de datos textual». Aun siendo muestras naturales de lengua, llegan al usuario de corpus como productos creados originalmente con otros fines (literarios, difusión de la ciencia, divulgación de información, etc.), y su acceso a ellos podría realizarse también por vías distintas a las del corpus. No obstante, serán incluidos en este trabajo aquellos que, además, hayan sido sometidos a un proceso de informatización para facilitar búsquedas o realizar cualquier tipo de análisis lingüístico (sintáctico, semántico, léxico, fonético), siempre y cuando hayan contado con un proceso de selección de la muestra y esta sea representativa de acuerdo con los objetivos definidos.

Las restricciones anteriores se dirigen especialmente a bases de datos de textos escritos, así como a la grabación de programas de televisión o radio, sesiones de juicios orales, etc., que hayan sido digitalizadas e, incluso, transcritas sin más, como las transcripciones de sesiones parlamentarias, discursos políticos, etc.

Como podrá notarse a lo largo del artículo, en la descripción predominan los corpus de lengua hablada tomados en contextos naturales y de producción espontánea, en algunos casos más dirigida que en otros, donde la «autoría» del habla se debe más bien a informantes anónimos, y donde el protagonismo del valor del corpus recae en el lingüista que selecciona unas muestras de habla o de escritura con un plan previo de representatividad, de objetivos y de selección de dichas muestras.

En resumen, los criterios en la selección de los corpus recogidos en este trabajo son los siguientes:

  • se trata de «corpus textuales o discursivos», que permiten acceso directo a los textos con contexto, aunque este sea mínimo: el usuario es capaz de reconocer la temática o de reconstruir la historia gracias a la presentación, más o menos explícita, de los rasgos situacionales (algunas características de las personas participantes, tipo de relación que las une, lugar de la interacción, etc.);
  • o son «bases de datos textuales» sin acceso al texto completo1, pero con algún tipo de tratamiento informático (etiquetado, motor de búsqueda, etc., como, por ejemplo, el Corpus de Referencia del Español Actual), y que constituyen, por tanto, una herramienta valiosa para el lingüista;
  • son corpus de cualquier «variedad geográfica» del español y de cualquier nivel «sociocultural»;
  • son corpus «sincrónicos», del español actual2, con muestras desde aproximadamente 1970;
  • son de «acceso público»: se encuentran impresos o en formato digital (publicados o en proceso de publicarse), se accede a ellos a través de una página electrónica o no hay dificultad para obtener permiso de los autores. No se incluye la información de otros materiales que han sido recopilados por investigadores para estudios individuales, como tesis doctorales, dadas las dificultades de obtención de los datos, y más aún, la imposibilidad de ser exhaustivos en la información3;
  • en el caso de los corpus orales, se han destacado los recogidos por «grupos de trabajo»; es un factor relevante por la necesidad de revisión que las transliteraciones o transcripciones requieren.

Así pues, aunque este trabajo diferencia entre corpus escritos y hablados, con fines generales o concretos, con grandes y pequeñas dimensiones —macrocorpus y microcorpus—, etc., la presentación de los corpus se ha ordenado atendiendo a los dos grupos mencionados: aquellos que se presentan directamente en formato textual (apartado 2) y los que se presentan en formato de motor electrónico de búsqueda (apartado 3). Se prioriza así una distinción basada en el modo en el que lo recibe el usuario, puesto que, siendo los dos grupos corpus textuales, cada uno se ofrece como herramienta al interesado de diversa forma. A menudo, el investigador que acude a los corpus de acceso directo al texto persigue una finalidad distinta del que se aproxima a corpus de concordancias. En el primer caso, generalmente, se trata de estudios pragmáticos, sociolingüísticos o socioculturales. En los corpus de acceso electrónico por concordancias se persiguen bien informaciones puntuales (léxicas, gramaticales, por ejemplo) o bien cómputos cuantitativos respecto a un fenómeno.

Como se advertirá a lo largo del artículo, la mayor parte de corpus discursivos orales son de entrevistas semidirigidas. La ventaja de este género lingüístico es que ofrece mayor sistematicidad al lingüista, pues permite controlar el equilibrio en los parámetros sociolingüísticos y asegurar la representatividad de los informantes en el total de la muestra. Los corpus de conversaciones, por su parte, proporcionan una mayor espontaneidad y naturalidad en los interlocutores y más variedad situacional en cada una de las grabaciones: diverso número de hablantes, heterogeneidad e imprevisibilidad en los rasgos de edad, sexo y nivel sociocultural, distintos tipos de relación entre los interlocutores, diversidad de temáticas, de espacios físicos, etc.

En el caso de los corpus de entrevistas semidirigidas, cabe señalar, no obstante, que algunos de ellos se acercan al estilo conversacional o muestran rasgos de este. Algunos investigadores prefieren denominar a este tipo de interacción «conversación semidirigida», «relato semilibre», etc., pero, en todo caso, se realiza entre dos personas, de las cuales una dirige el diálogo y, aunque llegan a ser espontáneas, prevalece en ellas una finalidad transaccional: el acuerdo previo de que el informante habla para que su testimonio lingüístico sea almacenado.

Dentro del apartado 2 (corpus discursivos orales de acceso completo al texto) los corpus se clasifican en cuatro bloques: macrocorpus de entrevistas, es decir, corpus de diversas áreas geográficas agrupados bajo un mismo proyecto (2.1); corpus de áreas geográficas concretas con predominio de entrevistas (2.2); corpus de conversaciones (2.3) y corpus que combinan diversos géneros discursivos orales (2.4). Asimismo, los corpus del apartado 3 (corpus de acceso a través de concordancias) se subclasifican en dos grupos: los que se crearon con fines generales (3.1) y los elaborados con fines específicos (3.2).

Se incluye un último apartado (4) en el que se informa sucintamente de otros tipos de corpus que, aunque quedan fuera de nuestro objetivo principal, nos parece necesario mencionar: los corpus de lenguajes técnicos (4.1), los dedicados a adquisición y desarrollo del lenguaje (4.2), y los corpus orales orientados a tecnologías del habla (4.3).

El lector puede obtener también la información sobre la financiación de estos corpus y, así pues, hacerse una idea de los fondos públicos y privados que se han invertido en estas importantes herramientas lingüísticas. Téngase en cuenta, al identificar las fuentes de financiación señaladas, que algunos de los organismos citados han cambiado de nombre en la actualidad o se han reubicado en otras instituciones.

Para facilitar la consulta de estos corpus, se han numerado de manera continua desde el primero hasta el último, sin reiniciar su cómputo en cada apartado del artículo. Se identifican con números entre paréntesis y en letra negrita.

Las publicaciones de los corpus y de las páginas electrónicas donde se alojan algunos de estos no se recogen en la bibliografía final, sino que se han ido incorporando en el lugar del artículo donde se menciona el corpus en cuestión. La información presentada en este artículo se ha obtenido por tres vías: directamente a través del acceso y consulta a los corpus citados; a través de bibliografía científica sobre los estudios de corpus; en especial, partimos del anejo 8 de la revista Oralia, coordinado por A. Briz (2005b) y de los volúmenes de Lingüística del corpus, editado por R. Caravedo (1999), y Lingüística con corpus, de J. De Kock (2001), y a partir de la colaboración de autores de corpus, que gentilmente han completado una ficha informativa que se diseñó para recopilar los datos actualizados sobre el estado de los corpus4.

  • (1) En muy pocos casos se permite acceder al texto completo. volver
  • (2) Además del Corpus Diacrónico del Español (CORDE) de la RAE, existen numerosas bases de datos de documentos diacrónicos; una de las más amplias es la dirigida por Elena Rojas Mayer y editada por la RAE, Documentos coloniales para la historia lingüística de América, canarias y Andalucía, II, III y IV. Véase otra muestra en Fuentes documentales para el estudio del español colonial de Costa Rica, editado y publicado por Miguel Ángel Quesada. volver
  • (3) Sirvan como botón de muestra algunos corpus con fines variados sobre los que se sustentaron algunas tesis, como la de Nieves Hernández Flores (2001: corpus de conversaciones peninsulares salmantinas), Inmaculada Baixauli (2004: corpus de lenguaje infantil), Josefa Contreras (2005: corpus de negociaciones en agencias de viajes), Nuria Guerra (en proceso de finalización: corpus de conversaciones del programa televisivo Gran hermano), etc. volver
  • (4) Al final del artículo se recoge el nombre de todos aquellos investigadores que han colaborado ofreciéndonos información sobre sus corpus. Agradecemos su amabilidad y esfuerzo. volver
flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es