Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2009 > A. B. Gómez y M. A. Marco. Breve información sobre...
El español en el mundo

Estado actual de los corpus de lengua española hablada y escrita: I+D

Antonio Briz Gómez y Marta Albelda Marco

4. Breve información sobre otros tipos de corpus

Los corpus descritos hasta ahora tenían en común el contener muestras de la lengua general y el ser producidos naturalmente. Sin embargo, no se agota con ellos la tipología de corpus. Existen otros que no se rigen por uno de estos dos rasgos: algunos se caracterizan por orientarse a determinadas lenguas de especialidad (apartado 4.1) o a ciertas fases de adquisición de la lengua (apartado 4.2), y otros se recogen de manera artificial, como ocurre con los corpus de reconocimiento del habla (apartado 4.3). Estos últimos suelen ser repeticiones automáticas de textos preparados anteriormente, donde lo genuino del corpus es el tratamiento informático que se le da, por ejemplo, para mejorar el reconocimiento de voz a través de máquinas.

Puesto que son corpus aplicados y no cumplen todas las condiciones de esta ya larga muestra, solo se dará cuenta de algunos de ellos a modo de ejemplo. Al no ser este el objetivo fundamental del presente artículo, solo se informará brevemente sobre ellos.

4.1 Corpus de lenguajes técnicos

Se han elaborado numerosos corpus que recogen textos o voces aisladas de términos técnicos, dirigidos especialmente al estudio de la terminología. Se enfocan en la lengua de un determinado campo de especialidad, como el lenguaje jurídico, académico, político, mediático, médico, etc. En general, suelen estar tratados informáticamente a través de interfaces de consulta que facilitan los propósitos lexicográficos que mayoritariamente persiguen. Asimismo, en numerosas ocasiones se ofrecen alineaciones en paralelo de diversas lenguas, si lo que interesa es la aplicación a la traducción de terminología técnica. La descripción de cada uno de estos corpus exigiría de un estudio propio. Sirvan de referencia algunos de ellos.

(50) Corpus técnico del Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra (IULA)

Uno de los principales corpus de estas características en España es el que mantiene el Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra (IULA). Su Corpus técnico reúne terminología de textos escritos de cinco áreas de especialidad (derecho, medio ambiente, economía, etc.). Se puede acceder a su motor de búsqueda en la página del IULA (http://www.iula.upf.edu/).

Otras muestras de corpus de lenguas para fines específicos son:

(51) Corpus LEJES

Léxico jurídico español, dirigido al estudio del léxico jurídico (Universidad de Granada y Universidad de Bonn).

(52) Corpus ADPA

Análisis del discurso público actual, orientado al lenguaje político y de los medios de comunicación (dirigido por José David Pujante Sánchez).

(53) Corpus DIES-RTP

Difusión internacional del español por radio, televisión y prensa, para el español de los medios de comunicación (dirigido por Francisco Moreno Fernández).

(54) Corpus CRATER

Es relevante citar, asimismo, el corpus CRATER (Corpus Resources and Terminology Extraction), que supone una base de datos trilingüe de terminología extraída de textos técnicos (dirigido por Tony McEnery, y en el caso del español, por Fernando Sánchez León).

4.2 Corpus de adquisición y desarrollo del lenguaje

Se especializan en la adquisición y desarrollo del lenguaje, bien en niños, bien en adultos con dificultades o alteraciones lingüísticas. Se citarán algunos de ellos como ejemplo.

En cuanto a los corpus de niños, es conocida la base de datos denominada CHILDES (Child Language Exchange System), creada por Brian McWhinney. A partir de esta, se creó un sitio electrónico para alojar bases de datos de los investigadores que ofrecieran sus materiales a la comunidad científica. Se encuadra en una base de datos mayor, la del Talk Bank, un proyecto de Carnegie Mellon University y University of Pennsylvania, que provee un sistema de almacenamiento y transcripción del habla de distintos campos de la comunicación 32. En el enlace «database» de la página http://childes.psy.cmu.edu/, se accede a las descargas de transcripciones, audios y vídeos de las interacciones conversacionales con niños. Hay material disponible de diversos idiomas, y el volumen de cada idioma y de cada subcorpus depende del número de investigadores que deciden compartir sus materiales en este banco de datos. En el caso del español, las muestras atienden a grabaciones de niños de diversas áreas geográficas. Se puede citar como ejemplo de corpus incorporado al CHILDES, el Corpus de habla infantil CSIC-UNED, descrito a continuación.

(55) Corpus de habla infantil CSIC-UNED

Recogido por M.ª José Albalá (Consejo Superior de Investigaciones Científicas) y Victoria Marrero (Universidad Nacional de Educación a Distancia), es un corpus de 6 horas de grabación, transcrito en sistema CHAT y que permite acceder a los textos completos de las grabaciones 33.

Además de los corpus del CHILDES, se cuenta con otros muchos corpus de lenguaje infantil, la mayoría publicados en papel. Uno de los más recientemente publicados es el corpus CHILDE.

(56) Corpus CHILDE

Un corpus de habla infantil espontáneo, que constituye la tesis doctoral de Marta Garrote (Universidad Autónoma de Madrid, 2008). Recoge casi 8 horas de conversaciones y entrevistas con 59 niños, con diversas posibilidades de acceso: versión ortográfica, fonética, etiquetada 34. Se encuentra publicado en CD-ROM 35.

Se menciona, por último, dentro de este apartado, el corpus PerLa, como muestra de aquellos corpus de grabaciones de hablantes con patologías del lenguaje.

(57) Corpus PerLa

El corpus PerLa, dirigido por Beatriz Gallardo Paúls (Universitat de València), recoge las transcripciones de 10 conversaciones de hablantes con afasia fluente y no fluente 36. Están transcritos ortográficamente con algunas convenciones del sistema de transcripción Val.Es.Co.

4.3. Corpus orales para el reconocimiento del habla

Existe otro tipo de corpus informatizados, dedicados a las tecnologías del habla, al reconocimiento automático de voz y a la construcción de gramáticas computacionales. Constituyen un grupo específico dentro de los estudios de corpus, pues persiguen objetivos formales, como el reconocimiento de letras, dígitos, estructuras de respuesta telefónica cerrada, traducción automática, diálogos persona-máquina, etc. En general, suelen obtenerse mediante muestras artificiales o dictados automáticos. Para su elaboración son necesarios conocimientos de ingeniería e informática, por lo que habitualmente suelen realizarse en universidades politécnicas, en laboratorios de fonética, en empresas de telecomunicaciones, o al menos, en colaboración con estos 37.

Se citan algunos de ellos como muestra para el lector que esté interesado:

(58) Proyecto DIME

Diálogos Inteligentes Multimodales en Español, Universidad Autónoma de México.

(59) Albayzín

Base de datos para el reconocimiento del habla en español, Universitat Politècnica de Catalunya.

(60) TANGORA

Sistema de dictado automático, preparado por IBM España.

(61) Oral Language Archive-The Spanish Archive

Dirigido por Christopher M. Jones y Matt McNally, de Carnegie Mellon University: contienen muestras de diálogos de diversas variantes hispanoamericanas, etc.

Remitimos al lector a los trabajos de Llisterri y Almiñana (1998) y Llisterri et al. (2005) y a la página electrónica que mantiene el primero de estos, Joaquim Llisterri (http://liceu.uab.es/~joaquim/). En esta, además de otro tipo de corpus, se informa de numerosos corpus orales dedicados a la fonética y a las tecnologías del habla en español. Asimismo, se incluyen enlaces a dichos corpus.

  • (32) Se han almacenado corpus de diversas lenguas. La presencia del español es relevante, sobre todo, en el CHILDES, pero también hay muestras del español de diversas áreas geográficas en las bases de datos en formato CA (Análisis de la Conversación). La dirección electrónica del Talk Bank es http://talkbank.org/CABank/. volver
  • (33) Como se ha señalado, se dispone de corpus de diversas áreas geográficas del español, como por ejemplo, material venezolano (recogido por Martha Shiro), material mexicano (aportado por El Colegio de México), material de niños bilingües catalán/español (de Miquel Serra y Rosa Solé), etc. volver
  • (34) Véanse otros dos ejemplos más: O. Rodríguez y G. Murillo (1985). Te voy a platicar de mi mundo. Muestra del habla de niños mexicanos de 6 a 7 años. México: El Colegio de México. C. Hernández Sacristán y L. Fernández (1992). Conversación infantil (Materiales para su estudio en niños desde los cinco a los nueve años. Valencia: Promolibro. volver
  • (35) Se puede acceder al CD-ROM a través del catálogo de ELRA. volver
  • (36) B. Gallardo y J. Sanmartín (2005). Afasia fluente I. Materiales para su estudio. Valencia: Universitat de València; B. Gallardo y V. Moreno (2005). Afasia no fluente II. Materiales y análisis pragmático. Valencia: Universitat de València. Este corpus recibió financiación del entonces Ministerio de Educación y Ciencia, de los Fondos FEDER y de la Generalitat Valenciana. volver
  • (37) Véanse dos ejemplos de corpus elaborados para aplicaciones en tecnologías del habla, recogidos en laboratorios fonéticos de áreas humanísticas: Corpus fonético del español hablado en Costa Rica, realizado en el Instituto de Investigaciones Lingüísticas de la Universidad de Costa Rica (coordinado por Jorge Murillo y Adrián Vergara); FAE-Esp Can, Fonética acústica y experimental del español de Canarias, realizado por Josefa Dorta, de la Universidad de La Laguna. volver
flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es