
Diccionario de términos clave de ELE
La lingüística de corpus es una rama de la lingüística que basa sus investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de uso de la lengua. En rigor, el término no define una disciplina lingüística, como lo pueden ser la morfología, la sintaxis o la pragmática, sino un enfoque metodológico que es posible adoptar desde disciplinas diversas, que se contrapone a una metodología basada fundamentalmente en la introspección.
En la bibliografía especializada, el término corpus (plural córpora, aunque también se usa la forma corpus) se utiliza en dos sentidos distintos. En una primera acepción, designa la recopilación de material lingüístico hecha con un propósito de investigación concreto, ya sean muestras de oraciones, de enunciados o de textos. Este uso del término es frecuente en el ámbito de la lingüística aplicada, especialmente en las investigaciones de adquisición y aprendizaje de lenguas. En este sentido, por ejemplo, un investigador interesado en estudiar algún aspecto de la interlengua de los aprendientes de una L2 puede reunir una serie de producciones (largas o breves, hechas exprofeso con este fin o pensadas originariamente con otro objetivo de aprendizaje), que constituirán su corpus de estudio; se trata de los datos que sirven para ese estudio específico. En una segunda acepción, un corpus es una recopilación extensa de textos (escritos, orales o de ambos tipos) recogidos con el fin de servir como muestra representativa de una lengua, como conjunto de datos lingüísticos reales que reflejen el uso de la lengua (o del tipo de lengua específico) del cual quieren ser representativos. Es a esta segunda acepción a la que se refiere el término lingüística de corpus.
En su concepción, la lingüística de corpus es muy antigua, puesto que son múltiples los trabajos clásicos que han basado sus descripciones en muestras reales de lengua. Este es, por ejemplo, el único método de trabajo que han conocido los estudios de lingüística histórica o de fonética acústica; así mismo, es el método que han seguido muchas de las gramáticas clásicas (corpus básicamente oracionales) y que, en el siglo pasado, adoptan algunos trabajos sobre vocabulario, por ejemplo Gougenheim et al. (1956), o el modo como A. Juilland y E. Chang-Rodríguez elaboraron su diccionario de frecuencias del español en 1964. Sin embargo, como rama de la lingüística, la lingüística de corpus tuvo su auge a partir de los años 60 y 70 del siglo pasado, alentada por las posibilidades que la informática ofrecía para procesar y gestionar conjuntos de textos con un número de palabras cada vez mayor. En la actualidad, es factible confeccionar córpora de varios millones de palabras para fines diversos; así, los grandes córpora de los que se dispone para algunas lenguas modernas —por ejemplo, el British National Corpus del inglés [http://www.natcorp.ox.ac.uk/] o el Corpus de Referencia del Español Actual elaborado por la RAE [http://corpus.rae.es/creanet.html]— alcanzan los 100 ó 200 millones de palabras.
Los córpora de gran tamaño en soporte informático constituyen una fuente muy rica de información sobre el uso de la lengua, ya sea información gramatical, semántica, léxica, discursiva o de otro tipo. Se utilizan, por ejemplo, como fuente de información para la redacción de diccionarios. También han permitido un gran avance de la lingüística computacional, preocupada por el procesamiento automático del lenguaje natural; la aplicación a los córpora de las herramientas de análisis automático que proporciona esta disciplina lingüística, combinada con programas de análisis estadístico, permite obtener listados de frecuencia de vocabulario y detectar estructuras lingüísticas habituales. Otras aplicaciones que permite un corpus (Biber, 1993) son la traducción, mediante el empleo de córpora bilingües, y el procesamiento de la voz.
En el ámbito de la enseñanza de segundas lenguas, los córporase han utilizado fundamentalmente como herramienta de investigación que permite detectar y reconocer los usos y estructuras más frecuentes, con vistas a incluirlos en el currículo. En especial, se han utilizado los listados de frecuencia de palabras, que han servido como punto de partida para la confección de los listados del vocabulario que se debe enseñar en los diversos niveles de aprendizaje. También deben destacarse las aplicaciones en la confección de diccionarios para aprendientes; en este sentido, merece una especial mención el diccionario Cobuild para estudiantes avanzados del inglés (Sinclair, 1987), que fue pionero en este campo.
Por otro lado, algunos autores (T. McEnery y A. Wilson, 1996; G. D. Kenedy, 1998) han trabajado sobre las posibilidades de utilizar córpora en el aula como herramienta de apoyo para el aprendizaje de una lengua segunda. Se persigue que los aprendientes infieran conocimiento lingüístico mediante inducción a partir de la consulta directa de los datos lingüísticos que ofrece un corpus, con el fin de potenciar la conciencia lingüística de los estudiantes.
Comunidad de habla; Conocimiento lingüístico; Densidad léxica; Repertorio lingüístico; Repertorio verbal; Uso lingüístico.