Antonio Briz Gómez y Marta Albelda Marco
En este apartado se describen corpus cuyo objetivo es servir como herramienta de búsqueda, por lo que incorporan habitualmente un potente tratamiento informático para proporcionar diversas posibilidades de filtrado en dicha búsqueda. Son, en realidad, bancos de datos digitalizados o compilaciones, que disponen de numerosos documentos escritos u orales transcritos (o ambos) a los que se accede electrónicamente; la mayoría son de acceso público en línea.
En el apartado 3.1 se incluyen corpus de carácter general, realizados sin una finalidad lingüística concreta, sino con el propósito de ponerse a disposición de la comunidad científica como conjunto de materiales. En el apartado 3.2 se describen algunos corpus con acceso a través de concordancias creados con una finalidad lingüística en particular; ello no obsta para que puedan emplearse también con otros fines. Se ordenan, a continuación, en función del número de palabras que contienen.
Los presentados en este apartado se consideran corpus de referencia, en primer lugar, porque contienen un gran número de palabras y, en segundo lugar, porque presentan algún tipo de variedad entre las muestras que recogen, en cuanto a la tipología textual o en cuanto a la diversidad geográfica.
El corpus CREA de la Real Academia Española pretende ser un corpus de referencia del español actual, lo que significa, de acuerdo con esta institución, que «ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestión», pues su objetivo es «proporcionar información exhaustiva acerca de una lengua en un momento determinado de su historia» (http://www.rae.es/). En la actualidad, el CREA cuenta con 160 millones de formas procedentes de textos tanto escritos como orales de los diversos países de habla hispana (50% de España y 50% de América) 20. El período de actualidad de los documentos recopilados se ha establecido en los últimos veinticinco años, aunque en estos momentos se puede acceder a textos fechados de 1975 hasta 2004. Este macrocorpus es un proyecto constantemente abierto a la actualización y al crecimiento de la base de datos; de hecho, en 2008 se inició un nuevo proyecto que pretende ampliar la nómina de formas del CREA: el Corpus del Español del Siglo xxi 21.
A través de la página electrónica del CREA http://corpus.rae.es/creanet.html se puede acceder al motor de búsqueda y a la recuperación de concordancias, con diversas posibilidades de filtrado (cronológico, geográfico, oral/escrito, etc.). No forma parte de los objetivos de este tipo de bases de datos el acceder a los propios textos de modo completo, sino que su pretensión es la de ser una herramienta de consulta y obtención de frecuencias, pequeños párrafos contextualizados de los ejemplos y listados de concordancias.
La parte oral del CREA supone el 10% del total de registros; está compuesta por dos tipos de material: transcripciones propias de documentos sonoros extraídas de medios de comunicación y diversas transcripciones incorporadas de corpus orales cedidos a la RAE y recodificados de acuerdo con el sistema de etiquetado del CREA 23. Los documentos orales que abarcan el período 2000-2004, a diferencia de los anteriores, permitirán, en muy poco tiempo, el acceso sonoro al texto de forma sincronizada.
La elaboración del CREA escrito ha sido financiada por el entonces Ministerio de Educación y Ciencia.
El Grial constituye una base de datos de grandes dimensiones, formada por diversos corpus. Está construida y mantenida por el grupo de investigación ALADE, de la Universidad Católica de Valparaíso (Chile), bajo la dirección de Giovanni Parodi. Se trata de una interfaz computacional que, gracias al etiquetado morfosintáctico y a una potente herramienta de almacenaje y consulta, permite el acceso a frecuencias y la identificación de concordancias. Esta base de almacenamiento de datos digital recoge más de 100 millones de palabras, su acceso es público y gratuito a través de la página electrónica http://www.elgrial.cl/.
Entre los diversos corpus que lo integran, se encuentran tanto textos escritos como transliteraciones ortográficas de corpus orales (artículos de investigación científica y divulgativa, corpus oral de políticas públicas, noticias de televisión, textos literarios, leyes, guías didácticas, entrevistas orales, etc.) 23. Al igual que otras bases de datos, y por las características que definen El Grial, no forma parte de sus objetivos el acceso a los textos en sí o a los audios. La recogida de este corpus y la elaboración de la herramienta informática han contado con diversas financiaciones del FONDECYT (Fondo Nacional de Desarrollo Científico y Tecnológico de Chile).
Es un corpus de 100 millones de palabras creado y mantenido por Mark Davies 24 (Brigham Young University), construido para la realización de búsquedas a través de una interfaz electrónica accesible en la página http://www.corpusdelespanol.org/. Las búsquedas se pueden realizar de diversos modos, a través de palabras, frases, categorías gramaticales, etc. Asimismo, permite otras aplicaciones, como la obtención de frecuencias, la posibilidad de comparación y otro tipo de aplicaciones de tipo semántico.
Esta base de datos reúne textos de los siglos xiii al xx.
El conjunto de textos contemporáneos contiene 20 millones de palabras, de las que 5 millones suponen el corpus oral. Los documentos orales proceden bien directamente de la codificación de diversos archivos sonoros, bien de la cesión de otros corpus orales a este macrocorpus (al igual que ocurre en el CREA). La financiación del Corpus del español procede de la agencia estadounidense National Endowment for the Humanities 25.
El corpus SOL es un banco de datos de casi 3 millones de palabras, creado por David Miguetto (Universidad de Gotemburgo) 26. Incorpora dos tipos de textos escritos: un conjunto de 11 novelas españolas del período 1951-1971 (ONE71) y una selección de textos periodísticos de dos diarios españoles del año 1977 (PE77). Se elaboró como herramienta informática para poder acceder a frecuencias y concordancias, y, de hecho, sirvió como base para la elaboración de un diccionario reverso 27. Se accede gratuitamente al corpus a través de la página http://spraakbanken.gu.se/konk/rom2/. A este motor de búsqueda se han incorporado también los documentos recogidos en el corpus CORLEC (véase corpus n.º 34). La elaboración del corpus SOL ha contado con diversas financiaciones tanto de organismos e instituciones estatales suecas (Consejo Superior de Investigaciones Científicas y Universidad de Gotemburgo) como de diversas fundaciones privadas.
Estos dos corpus se han realizado de acuerdo con las pautas seguidas en el CORLEC (ver corpus n.º 34), aunque son escritos, a diferencia del anterior; han sido dirigidos por Francisco A. Marcos Marín.
El Corpus de Referencia de la Lengua Española Contemporánea: corpus escrito del español en la República Argentina fue coordinado por Verónica Zumárraga, con la asesoría lingüística de Ofelia Kovacci. El Corpus de Referencia de la Lengua Española Contemporánea: corpus escrito del español en la República de Chile fue coordinado por Ernesto Evans Espiñeira. En los dos casos, se trata de bases de datos textuales que recopilan textos escritos de diverso tipo: científicos, escolares, humanísticos, técnicos, periodísticos, etc. Cada uno de ellos recoge 2 millones de palabras, estandarizadas de acuerdo con normas TEI.
Ambos recibieron financiación de la Sociedad Estatal del Quinto Centenario (1990-1992). Se puede acceder a ellos a través de la misma página electrónica en la que está el CORLEC: http://www.educared.net/mespana_intercampus/home_49_930_esp_1_.html/.
Es un corpus de más de 2 millones de palabras que contiene textos periodísticos, académicos y jurídicos del período 2005-2006. Este proyecto ha sido llevado a cabo por el Instituto de Investigaciones Lingüísticas de la Universidad de Costa Rica, bajo la dirección de Adrián Vergara Heidke. De momento, sólo está accesible a través de una solicitud a la entidad responsable (http://www.inil.ucr.ac.cr/). Ha sido financiado por la Universidad de Costa Rica.
Se presentan, a continuación, algunos corpus textuales que se ofrecen al usuario a través de programas de búsquedas y que se realizaron con fines lingüísticos particulares. Los datos que se obtienen a partir de sus concordancias son específicos: análisis morfológicos, sintácticos, información semántica en función de la estructura sintáctica, listas de léxico, cálculos estadísticos según determinadas variables lingüísticas, etc.
En la Universidad de Santiago de Compostela, bajo la dirección de Guillermo Rojo, se reunió a finales de los años ochenta y principios de los noventa un conjunto de documentos literarios, periodísticos, orales, etc., de España e Hispanoamérica (un millón y medio de formas). Las aproximadamente 160.000 cláusulas que integran este corpus fueron analizadas manualmente para anotar las características que se consideran habitualmente relevantes: tipo, función, voz y polaridad de la cláusula; predicado y algunos de sus rasgos (tiempo, modo, persona, número); funciones sintácticas argumentales presentes y forma que poseen (frase nominal, cláusula completiva, etc.). Todo ello se ha incorporado a la Base de Datos Sintácticos del español actual (BDS, http://www.bds.usc.es/), la cual permite obtener informaciones diversas acerca de las construcciones en que se documentan los verbos registrados en el corpus –con la estadística correspondiente–, los que presentan un determinado esquema sintáctico, los que aparecen en dos esquemas sintácticos determinados, los que rigen preposición, etc. La realización de este banco de datos fue financiada por la Xunta de Galicia y el Ministerio de Educación y Ciencia.
AnCora-ES también es un corpus anotado en diversos niveles (morfológico, sintáctico, semántico y pragmático), bajo la dirección de M.ª Antònia Martí (Centre de Llenguatge i Computació, Universitat de Barcelona). Posee un motor de búsqueda para la sintaxis y la semántica de la oración. Además de su posibilidad de consulta electrónica gratuita en Internet, también es posible descargar el propio corpus en la dirección http://clic.ub.edu/ancora/. Los textos de base, que suman más de medio millón de palabras, son mayoritariamente periodísticos y también se puede acceder directamente a ellos.
Este proyecto ha sido financiado por el Ministerio de Ciencia e Innovación y la Generalitat de Catalunya 28.
El corpus PAAU 1992, coordinado por M.ª Paz Battaner y Sergio Torner (Universitat Pompeu Fabra), recoge los textos digitalizados de 700 exámenes de Selectividad del año 1992 de diversas materias, así como listados de frecuencias de vocabulario de 700 exámenes de Selectividad. Se puede acceder a los textos completos mediante el CD-ROM publicado 29 en dos versiones: la primera, que mantiene la ortografía de los originales, y una segunda versión, en la que se ha normalizado la ortografía. Está incorporado a la base de recursos y corpus del IULA (Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra) y se pueden realizar búsquedas en línea (http://www.iula.upf.edu/).
Este proyecto obtuvo financiación de la Universitat Pompeu Fabra y del Ministerio de Ciencia y Tecnología.
Otras grandes bases de datos creadas para estudios específicos son las recogidas con la finalidad, sobre todo, de elaborar diccionarios o gramáticas. Se señalan, a continuación, algunos ejemplos de estas.
Una de las bases de datos más voluminosas es el corpus CUMBRE, diseñado y dirigido por Aquilino Sánchez y Ramón Sarmiento. Contiene 20 millones de palabras extraídas de textos orales y escritos procedentes de España y Latinoamérica. Los orales abarcan muestras de la década de los noventa, mientras que los escritos se fechan entre 1950 y 1995. Este corpus no es de acceso público y recibió financiación privada de la editorial SGEL, que es su propietaria.
Otra base de datos recogida prioritariamente con fines lexicográficos es la que suponen los dos corpus preparados por Fernando Lara (El Colegio de México): Corpus del español mexicano contemporáneo (material del período 1921-1974) y Corpus del español mexicano contemporáneo II (material del período 1974-2008). Han servido de base para la creación del Diccionario de México y también se han puesto a disposición de investigadores para estudios léxicos, morfológicos o sintácticos. Cada uno de ellos ronda en torno a los 2 millones de palabras y están tratados informáticamente para poder realizar búsquedas, identificar concordancias, etc. Se accede a ellos mediante solicitud expresa a la institución o al investigador principal. Ambos corpus han sido financiados por El Colegio de México.
En relación con los corpus textuales creados para realizar diccionarios surge la publicación de léxicos de diversas zonas. Este tipo de trabajos merecería una atención particular, que no es objetivo de este artículo, puesto que constituyen una de las aplicaciones concretas que se le da a un corpus textual. Baste citar, por ejemplo, los léxicos preparados por M. E. Rojas Mayer en Tucumán (Argentina), o los elaborados por R. Caravedo para la zona del Perú andino, entre otros muchos 30 .
Asimismo, cabe mencionar el Proyecto Panhispánico de Disponibilidad Léxica, dirigido por Humberto López Morales, cuyo objetivo principal es elaborar diccionarios de accesibilidad. Entre otros resultados, también se ha creado un banco de datos (Léxico disponible en España), en el que investigadores de diversas áreas geográficas, a partir de unos parámetros comunes, pueden almacenar las muestras de léxico recogidas y realizar distintos cálculos de disponibilidad léxica. El acceso al proyecto y al banco de datos es a través de la página http://www.dispolex.com/ (López Morales, 2005) 31 .