Antonio Briz Gómez y Marta Albelda Marco
Los corpus descritos hasta ahora tenían en común el contener muestras de la lengua general y el ser producidos naturalmente. Sin embargo, no se agota con ellos la tipología de corpus. Existen otros que no se rigen por uno de estos dos rasgos: algunos se caracterizan por orientarse a determinadas lenguas de especialidad (apartado 4.1) o a ciertas fases de adquisición de la lengua (apartado 4.2), y otros se recogen de manera artificial, como ocurre con los corpus de reconocimiento del habla (apartado 4.3). Estos últimos suelen ser repeticiones automáticas de textos preparados anteriormente, donde lo genuino del corpus es el tratamiento informático que se le da, por ejemplo, para mejorar el reconocimiento de voz a través de máquinas.
Puesto que son corpus aplicados y no cumplen todas las condiciones de esta ya larga muestra, solo se dará cuenta de algunos de ellos a modo de ejemplo. Al no ser este el objetivo fundamental del presente artículo, solo se informará brevemente sobre ellos.
Se han elaborado numerosos corpus que recogen textos o voces aisladas de términos técnicos, dirigidos especialmente al estudio de la terminología. Se enfocan en la lengua de un determinado campo de especialidad, como el lenguaje jurídico, académico, político, mediático, médico, etc. En general, suelen estar tratados informáticamente a través de interfaces de consulta que facilitan los propósitos lexicográficos que mayoritariamente persiguen. Asimismo, en numerosas ocasiones se ofrecen alineaciones en paralelo de diversas lenguas, si lo que interesa es la aplicación a la traducción de terminología técnica. La descripción de cada uno de estos corpus exigiría de un estudio propio. Sirvan de referencia algunos de ellos.
Uno de los principales corpus de estas características en España es el que mantiene el Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra (IULA). Su Corpus técnico reúne terminología de textos escritos de cinco áreas de especialidad (derecho, medio ambiente, economía, etc.). Se puede acceder a su motor de búsqueda en la página del IULA (http://www.iula.upf.edu/).
Otras muestras de corpus de lenguas para fines específicos son:
Léxico jurídico español, dirigido al estudio del léxico jurídico (Universidad de Granada y Universidad de Bonn).
Análisis del discurso público actual, orientado al lenguaje político y de los medios de comunicación (dirigido por José David Pujante Sánchez).
Difusión internacional del español por radio, televisión y prensa, para el español de los medios de comunicación (dirigido por Francisco Moreno Fernández).
Es relevante citar, asimismo, el corpus CRATER (Corpus Resources and Terminology Extraction), que supone una base de datos trilingüe de terminología extraída de textos técnicos (dirigido por Tony McEnery, y en el caso del español, por Fernando Sánchez León).
Se especializan en la adquisición y desarrollo del lenguaje, bien en niños, bien en adultos con dificultades o alteraciones lingüísticas. Se citarán algunos de ellos como ejemplo.
En cuanto a los corpus de niños, es conocida la base de datos denominada CHILDES (Child Language Exchange System), creada por Brian McWhinney. A partir de esta, se creó un sitio electrónico para alojar bases de datos de los investigadores que ofrecieran sus materiales a la comunidad científica. Se encuadra en una base de datos mayor, la del Talk Bank, un proyecto de Carnegie Mellon University y University of Pennsylvania, que provee un sistema de almacenamiento y transcripción del habla de distintos campos de la comunicación 32. En el enlace «database» de la página http://childes.psy.cmu.edu/, se accede a las descargas de transcripciones, audios y vídeos de las interacciones conversacionales con niños. Hay material disponible de diversos idiomas, y el volumen de cada idioma y de cada subcorpus depende del número de investigadores que deciden compartir sus materiales en este banco de datos. En el caso del español, las muestras atienden a grabaciones de niños de diversas áreas geográficas. Se puede citar como ejemplo de corpus incorporado al CHILDES, el Corpus de habla infantil CSIC-UNED, descrito a continuación.
Recogido por M.ª José Albalá (Consejo Superior de Investigaciones Científicas) y Victoria Marrero (Universidad Nacional de Educación a Distancia), es un corpus de 6 horas de grabación, transcrito en sistema CHAT y que permite acceder a los textos completos de las grabaciones 33.
Además de los corpus del CHILDES, se cuenta con otros muchos corpus de lenguaje infantil, la mayoría publicados en papel. Uno de los más recientemente publicados es el corpus CHILDE.
Un corpus de habla infantil espontáneo, que constituye la tesis doctoral de Marta Garrote (Universidad Autónoma de Madrid, 2008). Recoge casi 8 horas de conversaciones y entrevistas con 59 niños, con diversas posibilidades de acceso: versión ortográfica, fonética, etiquetada 34. Se encuentra publicado en CD-ROM 35.
Se menciona, por último, dentro de este apartado, el corpus PerLa, como muestra de aquellos corpus de grabaciones de hablantes con patologías del lenguaje.
El corpus PerLa, dirigido por Beatriz Gallardo Paúls (Universitat de València), recoge las transcripciones de 10 conversaciones de hablantes con afasia fluente y no fluente 36. Están transcritos ortográficamente con algunas convenciones del sistema de transcripción Val.Es.Co.
Existe otro tipo de corpus informatizados, dedicados a las tecnologías del habla, al reconocimiento automático de voz y a la construcción de gramáticas computacionales. Constituyen un grupo específico dentro de los estudios de corpus, pues persiguen objetivos formales, como el reconocimiento de letras, dígitos, estructuras de respuesta telefónica cerrada, traducción automática, diálogos persona-máquina, etc. En general, suelen obtenerse mediante muestras artificiales o dictados automáticos. Para su elaboración son necesarios conocimientos de ingeniería e informática, por lo que habitualmente suelen realizarse en universidades politécnicas, en laboratorios de fonética, en empresas de telecomunicaciones, o al menos, en colaboración con estos 37.
Se citan algunos de ellos como muestra para el lector que esté interesado:
Diálogos Inteligentes Multimodales en Español, Universidad Autónoma de México.
Base de datos para el reconocimiento del habla en español, Universitat Politècnica de Catalunya.
Sistema de dictado automático, preparado por IBM España.
Dirigido por Christopher M. Jones y Matt McNally, de Carnegie Mellon University: contienen muestras de diálogos de diversas variantes hispanoamericanas, etc.
Remitimos al lector a los trabajos de Llisterri y Almiñana (1998) y Llisterri et al. (2005) y a la página electrónica que mantiene el primero de estos, Joaquim Llisterri (http://liceu.uab.es/~joaquim/). En esta, además de otro tipo de corpus, se informa de numerosos corpus orales dedicados a la fonética y a las tecnologías del habla en español. Asimismo, se incluyen enlaces a dichos corpus.