Centro Virtual Cervantes
Lengua
El español en el mundo > Anuario 2009 > A. B. Gómez y M. A. Marco. Corpus discursivos orales de acceso completo al texto
El español en el mundo

Estado actual de los corpus de lengua española hablada y escrita: I+D

Antonio Briz Gómez y Marta Albelda Marco

2. Corpus discursivos orales de acceso completo al texto

En este apartado se describen aquellos corpus de acceso al propio texto en sí. Como se observará, tienen en común el ser orales, auténticas muestras de habla directamente tomadas de la realidad. Algunos, además, incorporan o están en proceso de incorporar herramientas informáticas para realizar búsquedas a través de concordancias, como instrumento accesorio que se ofrece al usuario.

Como se ha señalado, tales corpus discursivos se han subclasificado, a su vez, en dos grupos: los que, aun teniendo identidad propia, se ordenan en un macroproyecto, por proponerse un mismo fin y unas mismas características en cuanto a la representatividad de la muestra, a su recogida y transcripción (apartado 2.1), y los que constituyen un solo corpus, realizado por un único equipo de investigación (apartados 2.2, 2.3 y 2.4).

2.1 Corpus de diversas áreas geográficas agrupados bajo un mismo proyecto

En este epígrafe se recogen los siguientes macrocorpus, que contienen, a su vez, subcorpus, recogidos por distintos grupos de trabajo en el mundo: (1) Proyecto PILEI y Macrocorpus de la norma lingüística culta de las principales ciudades de España y América (MC-NC), (2) Corpus del Proyecto para el estudio sociolingüístico del Español de España y de América (PRESEEA) y (3) Corpus del Proyecto Estudio gramatical del español hablado en América (EGREHA).

(1) Corpus PILEI y Macrocorpus de la norma lingüística culta de las principales ciudades de España y América (MC-NC)

En el marco del Programa Interamericano de Lingüística y Enseñanza de Idiomas (PILEI) y bajo el impulso de Juan M. Lope Blanch, se creó en 1964 el proyecto Estudio coordinado de la norma lingüística culta de las principales ciudades de Iberoamérica y de la Península Ibérica. Una de sus tareas fundamentales fue la recolección de muestras habladas del español de diversas zonas. A continuación se detallan los corpus publicados como resultado de este proyecto, en orden cronológico:

  1. Lope Blanch, J. M. (ed.) (1971). El habla de la ciudad de México. Materiales para su estudio. México: Universidad Nacional Autónoma de México/Centro de Lingüística Hispánica.
  2. Rosenblat, A., Bentivoglio, P., Luliano, R. (1979). El habla culta de Caracas. Materiales para su estudio. Caracas: Universidad Central de Venezuela/Instituto de Filología Andrés Bello.
  3. Rabanales, A. y Contreras, L. (eds.) (1979/1990). El habla culta de Santiago de Chile. Materiales para su estudio. Tomo I, Santiago de Chile: Universidad de Chile. Tomo II, Bogotá: Instituto Caro y Cuervo.
  4. Esgueva, M. A. y Cantarero, M. (eds.) (1981). El habla de la ciudad de Madrid. Materiales para su estudio. Madrid: Consejo Superior de Investigaciones Científicas.
  5. Pineda, M. Á. (ed.) (1983). Material de encuestas para el estudio del habla urbana culta de Sevilla. Sevilla: Universidad de Sevilla.
  6. Otálora de Fernández, H. y González, A. (eds.) (1986/1990). El habla de la ciudad de Bogotá. Materiales para su estudio. Bogotá: Instituto Caro y Cuervo.
  7. Barrenechea, A. M. (ed.) (1987). El habla culta de la ciudad de Buenos Aires. Materiales para su estudio. 2 tomos. Buenos Aires: Universidad Nacional de Buenos Aires/Instituto de Filología y Literaturas Hispánicas Dr. Amado Alonso.
  8. Caravedo, R. (1989). El español de Lima. Materiales para el estudio del habla culta. Lima: Fondo Editorial de la Pontificia Universidad Católica del Perú.
  9. Morales, A. y Vaquero, M. (eds.) (1990). El habla culta de San Juan. Materiales para su estudio. San Juan: Universidad de Puerto Rico.
  10. Marrone, N. G. (ed.) (1992). El habla de la ciudad de La Paz. Materiales para su estudio. La Paz: Signo.

En 1998, bajo la dirección y coordinación de José Antonio Samper Padilla, se edita el Macrocorpus de la norma lingüística culta de las principales ciudades de España y América, que recoge una selección de las entrevistas individuales del corpus PILEI agrupadas y revisadas a partir de una serie de criterios homogéneos y uniformes, que se enriquece, además, con los nuevos corpus de otras dos ciudades: San José de Costa Rica y Las Palmas de Gran Canarias. Asimismo, se ha ampliado el número de algunas entrevistas de Madrid, México y San Juan de Puerto Rico. De cada una de las 12 ciudades incluidas se recogen 14 entrevistas individuales, semidirigidas, en las que interviene un encuestador y un solo informante; cada una ocupa alrededor de media hora. Este material se encuentra incorporado al CREA. Cuadro 1

(2) Corpus del PRESEEA: Proyecto para el estudio sociolingüístico del Español de España y de América

Este proyecto, coordinado por Francisco Moreno Fernández (Universidad de Alcalá), presenta entre sus objetivos la recogida de material oral del español de diversas zonas geográficas. A este grupo se van incorporando equipos, que trabajan con una metodología común en cuanto a la grabación y la técnica de las entrevistas. Son muchos ya los equipos PRESEEA que han publicado sus corpus o que se encuentran en fases muy avanzadas de su recogida, transliteración o digitalización5 .

El tipo de género discursivo que recogen es habitualmente el de la entrevista semidirigida, en la que participan únicamente el entrevistador y un informante. Los corpus de PRESEEA se estratifican en diversos niveles socioculturales (alto, medio y bajo), en grupos generacionales y se distribuyen igualitariamente en los dos sexos. En algunos casos se tienen en cuenta otras variables, como por ejemplo, el lugar de procedencia de los informantes. En general, estas grabaciones se encuentran transliteradas y, algunas, etiquetadas con normas TEI6 Cuadro 2.

Aunque en este apartado se mencionan muchos de los corpus del proyecto, somos conscientes de que no se recogen todos. No obstante, en la página electrónica http://www.linguas.net/portalpreseea/ se ofrece información para contactar con los diversos equipos investigadores del proyecto.

(2.1) El corpus PRESEEA de Málaga se ha recogido dentro del proyecto ESESUMA (Estudio Sociolingüístico del Español Urbano de Málaga), coordinado por Juan A. Villena (Universidad de Málaga). Está constituido por más de 166 horas de grabación en 100 entrevistas, cuyas transliteraciones se encuentran publicadas en tres volúmenes7. Fue financiado por la Junta de Andalucía, el Ministerio de Ciencia y Tecnología, y Fon-dos FEDER.

(2.2) El corpus PRESEEA de Granada, bajo la dirección de Juan A. Moya Corral (Universidad de Granada), se encuentra parcialmente finalizado. Supone 39 horas de grabación; están publicadas en papel y en CD-ROM las entrevistas transliteradas de los niveles alto y medio; el nivel bajo está en preparación8 . Ha recibido financiación del Ministerio de Educación y Ciencia y de los Fondos FEDER.

El grupo PRESEEA de la Universidad de Alcalá (Francisco Moreno, Ana M.ª Cestero, Isabel Molina y Florentino Paredes) ha llevado a cabo la recogida y transcripción del habla de tres zonas peninsulares: Alcalá de Henares, Madrid (barrio de Salamanca) y Madrid (barrio de Vallecas). Cada uno de ellos supone 3.200 minutos de grabación aproximadamente.

(2.3) Las entrevistas del corpus de Alcalá de Henares fueron grabadas entre 1991-1998. Se encuentran publicadas en formato CD-ROM en su versión transcrita ortográficamente y con las convenciones del Análisis de la Conversación empleadas por PRESEEA, distribuidas en tres niveles socioculturales9 . Este corpus ha recibido financiación del Ministerio de Ciencia y Tecnología, de los Fondos FEDER y de la Comunidad de Madrid.

Dentro del corpus anterior se han incorporado algunas de las 18 conversaciones semidirigidas que componen el corpus ACUAH (Análisis de la conversación-Alcalá de Henares), recogido por Ana M.ª Cestero en 1991. Se trata de conversaciones de nivel sociocultural medio, distribuidas entre hombres y mujeres, y en tres franjas generacionales. ACUAH fue etiquetado de acuerdo con las normas TEI y cedido al Corpus de Referencia del Español Actual CREA, por lo que permite realizar búsquedas y obtener concordancias a través de la página del CREA.

(2.4) El corpus de Madrid (barrio de Salamanca) contiene grabaciones del período 1998-2007, también ha sido transcrito de acuerdo con las convenciones de PRESEEA y pronto se podrá acceder a las transcripciones completas; está en proceso de publicación en CD-ROM.

(2.5) Por su parte, el corpus de Madrid (barrio de Vallecas) comenzó a recogerse en 2007 y todavía no está finalizado. La pretensión de los autores es publicarlo también en CD-ROM. Estos dos corpus han recibido financiación de diversos proyectos concedidos por el Ministerio de Educación y Ciencia y de los Fondos FEDER. Para acceder a los audios de estos y del corpus de Alcalá de Henares, se debe contactar con los autores y solicitar autorización.

(2.6) El corpus PRESEEA de Valencia, coordinado por José Ramón Gómez Molina (Universitat de València), está publicado en papel, en tres volúmenes, de acuerdo con los niveles socioculturales correspondientes10 . En la página electrónica http://www.uv.es/preseval/ se encuentra una selección de transcripciones (que adaptan de forma ancha el sistema de transcripción Val.Es.Co.) y sus correspondientes documentos con etiquetado y con los archivos sonoros. Su elaboración ha contado con la financiación de la Generalitat Valenciana, el Ministerio de Ciencia y Tecnología, y Fondos FEDER. Este conjunto de entrevistas forma parte del corpus Val.Es.Co., que contiene, asimismo, otro corpus de conversaciones coloquiales (véase corpus n.º 29).

(2.7) El corpus PRESEEA de Lérida, coordinado por M.ª Ángeles Calero (Universitat de Lleida), consta de 36 entrevistas distribuidas en tres variables sociales: edad, sexo y grado de instrucción. El sociolecto alto se encuentra en prensa, por lo que pronto se podrá acceder a su publicación en papel. Ha recibido financiación del Ministerio de Ciencia y Tecnología y de los Fondos FEDER.

(2.8) El corpus PRESEEA de Palma de Mallorca (PRESEPAL), dirigido por Laura Camargo (Universitat de les Illes Balears), se encuentra en la actualidad en fase de realización. Contiene 500.000 palabras (equivalente a más de 40 horas de grabación), transcritas y marcadas de acuerdo con la metodología habitual de PRESEEA. Se pretende publicar en formato CD-ROM y ofrecer acceso público en la Red, tanto de las transcripciones como de los audios. Ha contado con la financiación de la Universitat de les Illes Balears.

(2.9) Para el corpus PRESEEA de Asturias (Gijón), véase abajo el corpus CODA, n.º 11, en el que se incluye el corpus PRESEEA de Asturias.

A continuación, se informa de algunos de los corpus PRESEEA de diversas zonas de Hispanoamérica de los que se ha recibido noticia directa.

(2.10) Dentro del PRESEEA de México, se dispone de materiales de diversas zonas del país. Por un lado, Lidia Rodríguez Alfano (Universidad Autónoma de Nuevo León) y María Eugenia Flores han coordinado el segundo corpus del Habla de Monterrey (II), que está inscrito en PRESEEA (no lo está el primero, del que se da cuenta en el siguiente apartado, véase corpus n.º 14). Consta de 108 entrevistas grabadas entre 2006 y 2007. Ha sido financiado por el CONACYT (Consejo Nacional para la Ciencia y la Tecnología). Se puede solicitar su acceso al equipo responsable de este corpus.

(2.11) Por otro lado, El Colegio de México ha vinculado una parte del Corpus sociolingüístico de la ciudad de México al proyecto PRESEEA. En el siguiente apartado se informa con más detalle de este corpus (véase corpus n.º 15).

(2.12) También Venezuela tiene su presencia en el PRESEEA. En concreto, se han incorporado algunas de las grabaciones del corpus de Caracas (1987) a este proyecto. Véase la información sobre este corpus en el siguiente apartado (corpus n.º 18).

(2.13) En PRESEEA se dispone de diversos corpus de Colombia. Uno de ellos es el Corpus sociolingüístico de Medellín, coordinado por M.ª Claudia González Rátiva (Universidad de Antioquia). Contiene más de 113 horas de grabación; puede consultarse en línea en la dirección http://comunicaciones.udea.edu.co/corpuslinguistico/. Para la elaboración de este corpus se ha recibido financiación de la Universidad de Antioquia y de la Universidad de Alcalá.

(2.14) Se ha incorporado a la red PRESEEA el grupo GIESCA (Grupo de Investigación para el Estudio Sociolingüístico del Caribe), de la Universidad del Atlántico (Colombia). Bajo la coordinación de Yolanda Rodríguez se ha recogido el habla de Barranquilla. Se dispone de 72 entrevistas que suman 54 horas de grabación. De momento se encuentra publicado un primer tomo con las transliteraciones11 . Para este corpus se ha contado con financiación de la Universidad del Atlántico.

(2.15) En la actualidad se está recogiendo el corpus PRESEEA de la ciudad de Lima (Perú), bajo la dirección de Rocío Caravedo (Università degli Studi di Pisa) y de Francisco Moreno (Universidad de Alcalá). Se cuenta con financiación de la Universidad de Alcalá.

(2.16) Está en marcha el corpus PRESEEA de Santiago de Chile (Chile), recogido por el grupo Estudio Sociolingüístico del Español de Chile (ESECH) del Departamento de Lingüística, de la Universidad de Chile (Alfredo Matus, Luis Prieto, Abelardo San Martín y Silvana Guerrero). El corpus contiene en torno al millón y medio de palabras y está en proceso de finalización; se pondrán a disposición pública tanto sus transliteraciones (marcadas con normas TEI) como sus audios.

(2.17) El proyecto PRESEEA también se está desarrollando en Montevideo (Uruguay) bajo la dirección de Adolfo Elizaincín (Universidad de la República). Se dispone de 17 horas de grabación, de las que ya se encuentran transliteradas 13; se puede acceder a los audios por medio de solicitud al equipo responsable. Este trabajo está siendo financiado por un convenio entre la Universidad de Alcalá y la Real Academia Española.

(2.18) El corpus PRESEEA de Puerto Rico supone 35 horas de grabación transliteradas. Se puede solicitar su acceso contactando con el responsable del corpus, Luis A. Ortiz López (Universidad de Puerto Rico).

(2.19) Una última referencia respecto al PRESEEA es la del corpus de Miami, a cargo de Humberto López Morales (Real Academia Española). Se encuentra en fase de realización: ya se han grabado las entrevistas (40 horas, 80 informantes) y existe una primera versión de su transliteración.

(3) Proyecto EGREHA

En el marco del Proyecto EGREHA (Estudio gramatical del español hablado en América), dirigido por César Hernández Alonso (Universidad de Valladolid), se ha recogido un macrocorpus de español. Pertenece al Instituto Interuniversitario de Iberoamérica y ha sido financiado por el Ministerio de Educación y Ciencia de España.

Este corpus contiene dos tipos de archivos: por un lado, incluye los materiales del corpus de la norma culta MC-NC (descrito arriba, véase corpus n.º 1) y, por otro lado, recopila un nuevo grupo de entrevistas orales sin transcripción (la mayor parte), bien grabadas recientemente o bien rescatadas del pasado (desde finales de los años sesenta). No se encuentran publicadas y solo un grupo de estas han sido transcritas; esta selección constituye el siguiente número de grabaciones, distribuidas en tres sociolectos12 : Bolivia (29), Chile (36), Colombia (17), Costa Rica (23), Ecuador (43), Guatemala (9), México (22), Perú (8), Venezuela (24), Argentina (9), República Dominicana (52) y Paraguay (14). Las entrevistas de Paraguay son las únicas que están en formato transliterado y no en audio.

2.2 Corpus de áreas geográficas concretas con predomino de entrevistas

En este apartado se describen corpus de entrevistas, con acceso directo a los textos, centrados en áreas geográficas determinadas. En algunos casos, ciertos corpus de este epígrafe, además de entrevistas, también recogen conversaciones semidirigidas. Se incluyen en este apartado por considerarse dos géneros discursivos muy cercanos (véase lo dicho arriba respecto al corpus n.º 2, proyecto PRESEEA).

Se ordenan, a continuación, por distribución geográfica: en primer lugar los de España y en segundo lugar los de Hispanoamérica.

2.2.1 De España

(4) Corpus del habla de Almería

Este corpus oral almeriense ha sido recogido por el Grupo ILSE (Estudio del discurso oral en español), cuyo responsable principal es Luis Cortés Rodríguez (Universidad de Almería). Aunque presenta diversos tipos de interacciones orales, solo se considera concluida la parte relativa a las entrevistas semidirigidas. Para la recogida y grabación de estas se ha seguido la metodología del proyecto PRESEEA (Carbonero, Cortés y Bañón, 2005: 184). Cuadro 3

(5) Estudio Sociolingüístico de la ciudad de Granada (HAGA)

Se trata de un corpus que recoge muestras de habla de los habitantes de dos barrios de la ciudad de Granada, estratificadas sociolingüísticamente. Se ha realizado bajo el proyecto HAGA, dirigido por Juan Antonio Moya Corral (Universidad de Granada), y se define por las mismas características que la parte de entrevistas del corpus VUM de Málaga (véase el cuadro 4).

(6) Corpus FORDIAL-Málaga y Corpus FORDIAL-Granada

Otros dos corpus de hablas andaluzas son los realizados bajo el proyecto FORDIAL (de Málaga y Granada). El corpus FORDIAL-Málaga, dirigido por J. A. Villena (Universidad de Málaga), se encuentra finalizado (véase cuadro 5) y el FORDIAL-Granada está en proceso de elaboración (Moya y Villena, 2005: 204). Ambos recogen interacciones de inmigrantes en zonas rurales y urbanas y su objetivo es el estudio del contacto dialectal en inmigrantes.

(7) Corpus del habla de Jaén

Aunque no se encuentra publicado, se dispone de un corpus de conversaciones semidirigidas del habla de Jaén, recogido por Moya Corral. Se han realizado diversos trabajos sobre él (Moya Corral, 1979; 1993).

(8) Habla de Sevilla

Es un corpus de entrevistas de la ciudad de Sevilla, recogido en diversos momentos por Vidal Lamíquiz, Miguel Ángel Pineda y Manuel Ollero. Cuadro 6

(9) Corpus Oral y Sonoro del Español Rural (COSER)

Es un corpus dialectal de entrevistas a informantes de diversas zonas rurales de la Península Ibérica; coordinado por Inés Fernández-Ordóñez (Universidad Autónoma de Madrid). Se está recogiendo para el estudio de la variación gramatical. Pretende ser un corpus abierto; de momento, como se señala en la página electrónica donde se puede consultar, se han recogido muestras de 636 enclaves rurales. Cuadro 7

(10) Corpus de habla culta de Salamanca

Siguiendo los planteamientos que guiaron los diversos subcorpus que componen el Macrocorpus de la norma lingüística culta (ver cuadro 8), aunque sin formar parte de este, Carmen Fernández Juncal (Universidad de Salamanca) elaboró el correspondiente a Salamanca.

(11) Corpus Oral de Asturias (CODA)

En la Universidad de Oviedo, a cargo de Álvaro Arias-Cachero, se ha recogido el corpus CODA (Corpus Oral de Asturias), que contiene distintos subcorpus orales (conversaciones y entrevistas en castellano y en asturiano de poblaciones rurales y urbanas) del período 1993-2004. Entre estos destacan, por un lado, el Corpus oral urbano de la población mayor de 55 años de Oviedo (Asturias), de 20 horas de grabación y cuya transliteración y etiquetado se encuentra en proceso de finalización; por otro lado, el Corpus oral del habla urbana de Gijón, de 50-60 horas, incorporado al PRESEEA y en proceso de realización (ver Cuadro 9).

(12) Corpus del español oral en Bilbao y área metropolitana (1982-1984) y (13) Corpus de Español Oral en Bilbao

Aunque no se encuentran publicados, Maitena Etxebarria (Universidad del País Vasco) ha recogido estos dos corpus de Bilbao, estratificados de acuerdo con las variables sociolingüísticas de PRESEEA (Etxebarria, 2005). Cuadro 10 y 11

2.2.2 De Hispanoamérica

(14) Habla de Monterrey (México)

El Habla de Monterrey (I) es un voluminoso corpus de entrevistas recogidas en el período 1985-1986, bajo la dirección de Lidia Rodríguez Alfano y María Eugenia Flores (Universidad Autónoma de Nuevo León) (véase también cuadro 12).

(15) Corpus sociolingüístico de la ciudad de México

Este corpus, coordinado por Pedro Martín Butragueño y Yolanda Lastra (El Colegio de México), contiene entrevistas de 300 informantes; una selección de estas se ha incorporado al proyecto PRESEEA (véase cuadro 13)13,.

(16) El habla culta de la generación joven de San Juan, La Habana y Santo Domingo

En 2001 Reyes Benítez publicó un corpus de 60 entrevistas de 3 islas centroamericanas: Puerto Rico, Cuba y República Dominicana, veinte por cada país. Se trata de muestras de la generación joven (15-25 años), que siguen el modelo de entrevistas del PILEI. Las de San Juan de Puerto Rico se recogieron en 1991, las de La Habana y Santo Domingo, de 1994 a 1997. Cuadro 14

En Venezuela se dispone de diversos corpus de entrevistas semidirigidas (los tres primeros están incorporados al CREA):

(17) Corpus sociolingüístico de la ciudad de Caracas 1977

(18) Corpus sociolingüístico de la ciudad de Caracas 1987

(19) Corpus sociolingüístico de la ciudad de Mérida

(20) Corpus Sociolingüístico de Maracaibo 1986

(21) Corpus de Puerto Cabello

(22) Corpus de Valencia

(17) Corpus sociolingüístico de la ciudad de Caracas 1977

(18) Corpus sociolingüístico de la ciudad de Caracas 1987

El Corpus sociolingüístico de la ciudad de Caracas 1977 fue coordinado por Paola Bentivoglio. El Corpus sociolingüístico de la ciudad de Caracas 1987, mucho más amplio, lo coordinaron Paola Bentivoglio y Mercedes Sedano (Universidad Central de Venezuela). Se puede acceder a algunos de los materiales de este corpus en la página electrónica de PRESEEA, puesto que el equipo investigador que lo sustenta se ha integrado en el citado proyecto. Cuadro 15 y 16

(19) Corpus sociolingüístico de la ciudad de Mérida

El Corpus sociolingüístico de la ciudad de Mérida, coordinado por Carmen Luisa Domínguez y Elsa Mora (Universidad de Los Andes), contiene entrevistas («conversaciones semidirigidas», de acuerdo con la nomenclatura de las investigadoras) recogidas a principios de los años noventa. Cuadro 17

(20) Corpus Sociolingüístico de Maracaibo 1986

El Corpus Sociolingüístico de Maracaibo 1986 (CSMb'86) fue recopilado por Bertha Chela-Flores y Jeannette de Gelman. Pese a ser un material inédito, en la actualidad, se encuentra a disposición pública en el Instituto de Filología Andrés Bello de la Universidad Central de Venezuela14 , bajo la responsabilidad de Kristel Guirado y Rosa Sánchez. Cuadro 18

(21) Corpus de Puerto Cabello y (22) Corpus de Valencia

Los dos últimos corpus citados de Venezuela, el Corpus de Puerto Cabello (muestras tomadas en 1980) y el Corpus de Valencia (muestras tomadas en 1985-86) no se encuentran publicados por el momento. Para acceder a ellos hay que contactar con el investigador responsable, Manuel Navarro. Cuadro 19 y 20

(23) El español hablado en Bogotá (Colombia)

En 1997, José Joaquín Montes Giraldo (Instituto Caro y Cuervo) publicó una parte del corpus de «relatos semilibres» recogido en la ciudad de Bogotá entre los años 1990 y 1992. Se trata de entrevistas semidirigidas, similares a las del resto de corpus descritos en este apartado. Cuadro 21

De los corpus de habla de Perú se citará dos de ellos, que recogen el habla de la zona andina:

(24) Habla popular andina y (25) Language Change in Peru

El corpus Habla popular andina fue recogido por Rocío Caravedo y abarca el período 1985-1992. El corpus Language Change in Peru forma parte de un proyecto dirigido por Rocío Caravedo y Carol Klee, «Language Change in Peru: Dialect Contact as a result of Andean Migration to Lima»; sus grabaciones abarcan el período 1999-2000. Cuadro 22 y 23

(26) El discurso de las personas en situación de calle en Santiago de Chile (Chile)

Este corpus, que en la actualidad se está finalizando, está coordinado por Lésmer Antonio Montecino, de la Pontificia Universidad Católica de Chile. Contiene entrevistas grabadas en casas de acogida, hospedería, plazas, etc., de la ciudad de Santiago en el período 2006-200915, Cuadro 24.

(27) Acerca de los relatos orales en Tucumán (Argentina)

El presente corpus recoge relatos de informantes de la provincia de Tucumán en el período 1978-1984. Se entrevistó a residentes de la zona de entre 20 y 80 años y se les pidió que relataran historias del lugar. El trabajo fue llevado a cabo por un equipo de investigadores del Instituto de Investigaciones Lingüísticas y Literarias Hispanoamericanas de la Universidad de Tucumán y dirigido por M. Elena Rojas Mayer16, Cuadro 25.

2.3 Corpus de conversaciones

Como se ha señalado anteriormente, la mayor parte de corpus discursivos orales están constituidos por entrevistas semidirigidas; no obstante, también se han recogido algunos corpus de conversaciones. Dada la escasez de estos últimos, se ha optado por agruparlos en un apartado diferenciado.

Los corpus que se describen a continuación, excepto el primero que se cita (COLA), corresponden a áreas geográficas concretas.

(28) Corpus COLA

El Corpus Oral del Lenguaje Adolescente COLA, coordinado por Annette Myre Jørgensen (Universidad de Bergen), recopila más de 300 conversaciones espontáneas entre jóvenes, de las siguientes ciudades: Madrid, Santiago de Chile, Buenos Aires, Guatemala, La Habana. Las conversaciones han sido recogidas en el período de 2002 a 2009. Es un proyecto todavía no finalizado, pero se encuentra en un nivel muy avanzado. Se accede electrónicamente a través de la dirección http://www.colam.org/, tanto a los textos íntegros como a concordancias, mediante diversos filtros de búsqueda: edad de los participantes, sexo, nivel social, etc. Cuadro 26

(29) Corpus de conversaciones coloquiales Val.Es.Co.

Este corpus ha sido elaborado por el grupo de investigación Val.Es.Co., bajo la dirección de Antonio Briz (Universitat de València). Es el primer corpus en español de conversaciones coloquiales espontáneas y de grabación secreta en situaciones reales de comunicación, con un sistema propio de transcripción, que intenta reflejar lo más fielmente posible la oralidad sin dificultar la lectura del texto17 . El corpus se recogió en la década de los noventa y se ha publicado en papel una selección de 19 conversaciones. En la actualidad se ha digitalizado y transcrito el resto del corpus, en el marco de un proyecto dirigido por Salvador Pons. Estas conversaciones, junto con sus fichas técnicas, se encuentran disponibles en la dirección electrónica http://www.uv.es/corpusvalesco/. Cuadro 27

(30) Alicante Corpus Oral del Español (Alcore) y Corpus Oral de la Variedad Juvenil Universitaria del Español de Alicante (COVJA)

En la Universidad de Alicante, bajo la dirección de Dolores Azorín, se han elaborado dos corpus orales de esta zona geográfica: el corpus ALCORE y el COVJA, incluido como subcorpus del primero. El tipo de interacción realizada es lo que los propios investigadores denominan «entrevista-coloquio» (Azorín, 1999: 195): tras la selección de los informantes, se les entrevista y después, en grupos, se crean conversaciones de cuatro participantes. Cuadro 28

(31) Corpus del español conversacional de Barcelona y su área metropolitana

El responsable de este corpus es el grupo GRIESBA (Grupo de Investigación del Español de Barcelona), dirigido por M.ª Rosa Vila Pujol (Universitat de Barcelona). Cuadro 29

(32) Corpus de habla de los universitarios salmantinos (CHUS)

El corpus CHUS, dirigido por Julio Borrego Nieto y Carmen Fernández Juncal (Universidad de Salamanca), da cuenta del habla de jóvenes de la ciudad de Salamanca. Combina conversaciones con entrevistas y se encuentra en proceso de realización, aunque ya ha dado lugar a diversos trabajos de investigación. Cuadro 30

(33) Corpus del Grupo de Investigación Lingüística Aplicada (COGILA)

El corpus COGILA, dirigido por Pedro Barros García (Universidad de Granada), recoge conversaciones grabadas entre 1999 y 2008. En la actualidad se está digitalizando y transcribiendo. Cuadro 31

2.4 Corpus con variedad de géneros discursivos orales

Se informa, en este apartado, de corpus que contienen muestras de lengua hablada de diversa tipología textual. Si bien alguno de los corpus de los apartados anteriores contenía entrevistas y conversaciones, en los del presente epígrafe se aúnan discursos de carácter monológico y dialógico, dando a cada uno de los géneros recogidos el mismo peso.

(34) Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)

Este corpus del español hablado peninsular fue recogido en el período 1990-1992 por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, bajo la dirección de Francisco A. Marcos Marín. Está incorporado al banco de datos del CREA. Es posible acceder a las transcripciones de los textos completos en la página http://www.educared.net/mespana_intercampus/home_49_930_esp_1_.html/. Cuadro 32

(35) C-ORAL-ROM

C-ORAL-ROM es un macrocorpus de habla espontánea, puesto que, además del español, incorpora otras tres lenguas romances: italiano, francés y portugués. El proyecto fue coordinado por dos investigadores de la Universidad de Florencia; las muestras correspondientes al español corrieron a cargo del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, bajo la dirección de Antonio Moreno Sandoval. Las grabaciones pertenecen al período 2001-2004 19. Cuadro 33

(36) Vernáculo Urbano Malagueño (VUM)

El corpus oral VUM, de la ciudad de Málaga, fue recogido en la década de 1990 bajo la dirección de Juan Andrés Villena Ponsoda (Universidad de Málaga) (véase también corpus n.º 2.1). Cuadro 34

(37) AKSAM

En la Universidad de Estocolmo, bajo la dirección de Lars Fant, se elaboró el corpus AKSAM, compuesto por grabaciones en vídeo de conversaciones entre estudiantes universitarios (tertulia, debates) y por grabaciones de negociaciones entre empresarios, por una parte, y estudiantes universitarios, por otra. Además de en español, también contiene material en sueco. Este corpus fue elaborado en un principio para estudiar aspectos discursivos y socioculturales entre hablantes nativos y no nativos de español. Cuadro 35

  • (5) Algunos de los materiales que se han incorporado al proyecto PRESEEA constituyen corpus más amplios de los que solo una parte se integra en PRESEEA. Asimismo, no todos ellos se han recogido en la misma etapa temporal: en algunos casos fueron creados previamente a la constitución de PRESEEA y, con el tiempo, se han incorporado a este proyecto. volver
  • (6) Text Encoding Initiative (TEI) es un conjunto de normas y recomendaciones para la codificación de textos electrónicos y, en consecuencia, para su homogeneización. Dichas normas facilitan el procesamiento informático de textos permitiendo el intercambio de recursos de este tipo en la comunidad científica. volver
  • (7) Algunas de las entrevistas de este corpus provienen de un corpus anterior, el VUM (véase corpus n.º 36). Las publicaciones del ESESUMA (en formato papel y en CD-ROM) son las siguientes: M. Vida Castro (ed.) (2007). El español hablado en Málaga I. Corpus oral para su estudio sociolingüístico. Nivel de estudios bajo. Málaga: Sarriá; A. M. Ávila, M. C. Lasarte y J. A. Villena (eds.) (2008). El español hablado en Málaga II. Corpus oral para su estudio sociolingüístico. Nivel de estudios medio. Málaga: Sarriá; M. C. Lasarte, J. A. Villena y A. M. Ávila (eds.) (e. p.). El español hablado en Málaga III. Corpus oral para su estudio sociolingüístico. Nivel de estudios alto. Málaga: Sarriá. Para acceder a los archivos de audio se puede contactar con el Área de Lingüística de la Universidad de Málaga. volver
  • (8) J. A. Moya Corral (coord.) (2007). El español hablado en Granada. Corpus oral para su estudio sociolingüístico. I Nivel de estudios alto. Granada: EUG. Este contiene la versión oral; hay muestras accesibles en http://www.linguas.net/MATERIALESGRANADA/tabid/611/Default.aspx/; J. A. Moya Corral (coord.) (e. p.). El español hablado en Granada. Corpus oral para su estudio sociolingüístico. II Nivel de estudios medio. Granada: EUG. volver
  • (9) F. Moreno Fernández, A. M. Cestero, I. Molina y F. Paredes (2002). La lengua hablada en Alcalá de Henares. Corpus PRESEEA-ALCALÁ I: Hablantes de instrucción superior. Alcalá de Henares: Servicio de Publicaciones de la Universidad de Alcalá. CD-ROM; F. Moreno Fernández, A. M. Cestero, I. Molina y F. Paredes (2004). La lengua hablada en Alcalá de Henares. Corpus PRESEEA-ALCALÁ II: Hablantes de instrucción media. Alcalá de Henares: Universidad de Alcalá. CD-ROM; F. Moreno Fernández, A. M. Cestero, I. Molina y F. Paredes (2007). La lengua hablada en Alcalá de Henares. Corpus PRESEEA-ALCALÁ III: Hablantes de instrucción primaria. Alcalá de Henares: Universidad de Alcalá. CD-ROM. volver
  • (10) J. R. Gómez Molina (coord.) (2001). El español hablado de Valencia. Materiales para el estudio sociolingüístico. Vol. I. Nivel sociocultural Alto. Valencia: Universitat de València; J. R. Gómez Molina (coord.) (2005). El español hablado de Valencia. Materiales para el estudio sociolingüístico. Vol. II. Nivel sociocultural Medio. Valencia: Universitat de València; J. R. Gómez Molina (coord.) (2007). El español hablado de Valencia. Materiales para el estudio sociolingüístico. Vol. III. Nivel sociocultural Bajo. Valencia: Universitat de València. volver
  • (11) Y. Rodríguez (2008). El habla de Barranquilla: materiales para su estudio. Barranquilla: Universidad del Atlántico. volver
  • (12) La selección de las transcritas supone 13 horas de grabación. Dicho trabajo de transcripción ha sido realizado por la empresa Tecnolingüística (http://www.tecnolinguistica.com/); se ha seguido el sistema estrecho del Grupo Val.Es.Co., con adopción de marcas especiales necesarias para los dialectos en cuestión. volver
  • (13) Otros corpus de entrevistas de la misma zona, o de áreas próximas, no citados arriba son los de: J. M. Lope Blanch (ed.) (1976). El habla popular de la Ciudad de México. Materiales para su estudio. México: UNAM; J. M. Lope Blanch (1990). El español hablado en el suroeste de los Estados Unidos. Materiales para su estudio. México: UNAM; y M. López Barrios y E. Mendoza (1997). El habla de Sinaloa: materiales para su estudio. Culiacán: Universidad Autónoma de Sinaloa volver
  • (14) Asimismo, se puede solicitar su acceso, a través del Departamento de Lenguas Modernas de la Facultad de Humanidades y Educación de la Universidad de Zulia. volver
  • (15) También se dispone de otro corpus de entrevistas en Chile, en este caso, de la ciudad de Valdivia: G. Cepeda y A. Barrientos (1989). El habla juvenil de Valdivia. Entrevistas informales. Valdivia: Central de Publicaciones de la Universidad Austral de Chile. volver
  • (16) Este corpus viene acompañado de un estudio discursivo, léxico, gramatical y fonético. En 1990 recibió el Gran Premio Iberoamericano Raúl Augusto Cortázar, del Fondo Nacional de las Artes. volver
  • (17) Diversos investigadores de todo el ámbito hispánico han hecho uso del sistema de transcripción creado por el Grupo Val.Es.Co. Muchos son trabajos individuales y otros institucionales. Entre estos últimos, véase, además de los ya citados en el cuerpo de este trabajo, el corpus de conversaciones que Jorge Murillo ha recogido y se encuentra almacenado en la Universidad de Costa Rica: se trata de veinte grabaciones de 20-25 minutos cada una, transcritas, como se ha dicho, siguiendo el sistema Val.Es.Co. volver
  • (18) Se puede acceder a algunas muestras en diversas publicaciones de los mienbros del grupo de COGILA: Barros y Morales (2002), Barros, López y Morales (2004). volver
  • (19) El Instituto Cervantes ha realizado la exploración de posibles aplicaciones de este corpus a la enseñanza de español como lengua extranjera (Urresti y Moreno, 2005: 81). volver
flecha a la izquierda (anterior) flecha hacia arriba (subir) flecha a la derecha (siguiente)
Centro Virtual Cervantes © Instituto Cervantes, . Reservados todos los derechos. cvc@cervantes.es