Cuadro 1
Nombre del corpus Macrocorpus de la norma lingüística culta de las principales ciudades de España y América
Tamaño 84 horas (168 informantes en total).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas semidirigidas (estratificadas en tres grupos generacionales de nivel sociocultural alto y en los dos sexos).
Variedad geográfica 12 ciudades hispánicas.
Publicación Samper, A., Hernández, C. y Troya, M. (1998). Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria-ALFAL. CD-ROM.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), profesión y ciudad de residencia de cada informante.
Acceso a textos/discursos Sí, a los textos (no a los audios).
Tratamiento informático Accesible la búsqueda de concordancias en http://www.rae.es/.
Financiación Cada equipo de los distintos subcorpus recibió ayudas de instituciones del país y, en su caso, de la provincia correspondiente. Asimismo, la Universidad de Las Palmas de Gran Canaria colaboró en la edición del material.
Cuadro 2
Nombre del corpus PRESEEA: Proyecto para el estudio sociolingüístico del Español de España y de América
Tamaño Véase abajo cada uno.
Tipo de transcripción Transliteración ortográfica; algunos etiquetados con normas TEI.
Tipo de textos Entrevistas semidirigidas (generalmente, estratificadas en tres grupos generacionales, tres niveles socioculturales y en los dos sexos).
Variedad geográfica Diversas variedades geográficas de España e Hispanoamérica.
Publicación Véase abajo cada uno. Se tiende a que se publiquen.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático En principio, no es objetivo de este macrocorpus.
Financiación La mayor parte de los distintos corpus ha recibido ayudas de instituciones del país y, en su caso, provincia correspondiente.
Cuadro 3
Nombre del corpus Corpus del habla de Almería
Tamaño 96 horas (total del corpus); 55 horas (corpus de entrevistas).
Tipo de transcripción Transliteración ortográfica y etiquetado con normas TEI.
Tipo de textos Conversaciones cara a cara, a distancia, entrevistas semidirigidas, distintos tipos de discursos monológicos, etc.
Variedad geográfica Peninsular, Almería.
Publicación Está previsto que a finales de 2009 se publique la grabación sonora (sin transcripciones) de 108 entrevistas (de 30 minutos c/u) en la página http://www.grupoilse.org/ (apartado Corpus).
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No (pero sí digitalizado).
Financiación No.
Cuadro 4
Nombre del corpus Proyecto HAGA, Estudio Sociolingüístico de la ciudad de Granada (y de otras localidades de la provincia)
Tamaño 115 informantes + 132 de otras localidades.
Tipo de transcripción Transliteración ortográfica y etiquetado con normas TEI (en su 50%).
Mayoritariamente son conversaciones semidirigidas.
Variedad geográfica Peninsular, Granada.
Publicación No.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación Ministerio de Ciencia y Tecnología.
Cuadro 5
Nombre del corpus FORDIAL (Formación Dialectal)-Málaga
Tamaño 71 horas.
Tipo de transcripción Transliteración ortográfica y etiquetado con normas TEI.
Tipo de textos Entrevistas: 48 de zona rural limítrofe con Málaga y 58 de inmigrantes de dicha zona rural instalados en Málaga. (Estratificadas en sexo, edad y nivel de educación).
Variedad geográfica Peninsular, Málaga.
Publicación No. Actualmente es posible acceder a este contactando con el Área de Lingüística de la Universidad de Málaga.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación Junta de Andalucía.
Cuadro 6
Nombre del corpus Habla de Sevilla
Tamaño 350.000 palabras aprox. (suma de los tres volúmenes publicados).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en tres niveles sociolingüísticos).
Variedad geográfica Peninsular, Sevilla.
Publicación
  1. Lamíquiz, V. y Pineda, M. A. (eds.) (1983). Sociolingüística andaluza 2. Material de encuestas para el estudio del habla urbana culta de Sevilla. Sevilla: Universidad de Sevilla. (En PILEI).
  2. Lamíquiz, V. y Pineda, M. A. (eds.) (1987). Sociolingüística andaluza 4. Encuestas del habla urbana de Sevilla —nivel popular. Sevilla: Universidad de Sevilla.
  3. Ollero, M. y Pineda, M. A. (eds.) (1992). Sociolingüística andaluza 6. Encuestas del habla urbana de Sevilla —nivel medio. Sevilla: Universidad de Sevilla.
  4. Pineda, M. A. (ed.) (1995). Sociolingüística andaluza 10. Texto informatizado del habla urbana de Sevilla. Sevilla: Universidad de Sevilla.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No (pero sí digitalizado).
Financiación Junta de Andalucía, Ministerio de Educación y Ciencia.
Cuadro 7
Nombre del corpus Corpus Oral y Sonoro del Español Rural
Tamaño 900 horas de grabación.
Tipo de transcripción Transliteración ortográfica (con algunas convenciones propias).
Tipo de textos Entrevistas (con rasgos cercanos a la conversación). Hasta la fecha se ha grabado a 1.140 informantes, de una media de edad de 72,5 años y de escasa escolarización.
Variedad geográfica Distintas variantes dialectales de la Península Ibérica.
Publicación En la dirección http://www.uam.es/coser/, se puede acceder a una muestra de las grabaciones y transcripciones correspondientes a 32 enclaves de 8 provincias.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), zona rural, temática.
Acceso a textos/discursos Sí, aunque todavía no están todos colgados en la citada página.
Tratamiento informático No (pero sí digitalizado).
Financiación Ministerio de Ciencia y Tecnología, Universidad Autónoma de Madrid.
Cuadro 8
Nombre del corpus Corpus de habla culta de Salamanca
Tamaño 7 horas.
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas, siguen el sistema del corpus MC-NC.
Variedad geográfica Peninsular, Salamanca.
Publicación Fernández, C. (2005). Corpus de Habla Culta de Salamanca (CHCS). Burgos: Instituto de la Lengua Castellano y Leonés.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), profesión y ciudad de residencia de cada informante.
Acceso a textos/discursos Sí, a los textos (no a los audios).
Tratamiento informático No.
Financiación Junta de Castilla y León.
Cuadro 9
Nombre del corpus Corpus Oral de Asturias, con distintos subcorpus.
Tamaño 250 horas de grabación aprox.
Tipo de transcripción Transliteración ortográfica y etiquetado.
Tipo de textos Entrevistas.
Variedad geográfica Peninsular, Asturias.
Publicación En preparación, publicación parcial en formato digital y en papel.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático Sí.
Financiación Principado de Asturias, Ayuntamiento de Gijón.
Cuadro 10
Nombre del corpus Corpus del español oral en Bilbao y área metropolitana (1982-1984)
Tamaño 200 horas de grabación (75 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas y conversaciones semidirigidas (estratificadas en tres niveles socioculturales, tres grupos generacionales y los dos sexos).
Variedad geográfica Peninsular, Bilbao.
Publicación No.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), origen de los hablantes.
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación No.
Cuadro 11
Nombre del corpus Corpus de Español Oral en Bilbao
Tamaño 300 horas de grabación (72 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en tres niveles socioculturales, tres grupos generacionales y los dos sexos).
Variedad geográfica Peninsular, Bilbao.
Publicación No.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), origen de los hablantes.
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación Ministerio de Educación y Ciencia.
Cuadro 12
Nombre del corpus Habla de Monterrey (1985-1986)
Tamaño 600 horas aprox.
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en tres niveles socioculturales, tres grupos generacionales y los dos sexos).
Variedad geográfica Monterrey (México).
Publicación No, pero se puede acceder a las transcripciones y a los audios, mediante solicitud al equipo responsable.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No (pero sí digitalizado).
Financiación CONACYT (Consejo Nacional de Ciencia y Tecnología, México).
Cuadro 13
Nombre del corpus Corpus sociolingüístico de la ciudad de México
Tamaño 500 horas (108 horas forman parte de PRESEEA).
Tipo de transcripción Sistema propio de transcripción y, en proceso, etiquetado con normas TEI.
Tipo de textos Entrevistas (estratificadas en tres niveles socioculturales, tres grupos generacionales y los dos sexos).
Variedad geográfica México D. F.
Publicación 108 encuestas aparecerán publicadas en CD-ROM en El Colegio de México; algunas muestras se encuentran disponibles en http://lef.colmex.mx/.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), estudios del hablante, temática, presencia de otros interlocutores.
Acceso a textos/discursos Sí (a una parte del total del corpus).
Tratamiento informático No (pero sí digitalizado).
Financiación CONACYT (Consejo Nacional de Ciencia y Tecnología, México).
Cuadro 14
Nombre del corpus El habla culta de la generación joven de San Juan, La Habana y Santo Domingo
Tamaño 60 horas (20 horas de cada ciudad).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas.
Variedad geográfica Puertorriqueña, cubana, dominicana.
Publicación
  1. Reyes Benítez, I. Y. (ed.) (2001). El habla culta de la generación joven de San Juan, Puerto Rico. Materiales para su estudio. Tomo I. San Juan: Universidad de Puerto Rico.
  2. Reyes Benítez, I. Y. (ed.) (2001). El habla culta de la generación joven de La Habana, Cuba. Materiales para su estudio. Tomo II. San Juan: Universidad de Puerto Rico.
  3. Reyes Benítez, I. Y. (ed.) (2001). El habla culta de Santo Domingo, República Dominicana. Materiales para su estudio. Tomo III. San Juan: Universidad de Puerto Rico.
Información contextual Estudios, edad y lugar de residencia del informante.
Acceso a textos/discursos Sí a los textos. Los audios están almacenados en el Seminario de Estudios Hispánicos Federico de Onís.
Tratamiento informático No.
Financiación Asociación Puertorriqueña de Profesores Universitarios, Ateneo Puertorriqueño.
Cuadro 15
Nombre del corpus Corpus sociolingüístico de Caracas (1977)
Tamaño 285.000 palabras aprox. (70 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en tres niveles socioeconómicos, dos grupos generacionales y los dos sexos).
Variedad geográfica Caracas (Venezuela).
Publicación No.
Información contextual Variables sociolingüísticas (edad, sexo, estudios) y oficio de los padres.
Acceso a textos/discursos Sí, mediante solicitud al Instituto de Filología Andrés Bello.
Tratamiento informático Accesible la búsqueda de concordancias en http://www.rae.es/.
Financiación Consejo de Desarrollo Científico y Humanístico de la Universidad Central de Venezuela.
Cuadro 16
Nombre del corpus Corpus sociolingüístico de Caracas (1987)
Tamaño 800.000 palabras aprox. (160 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en cinco niveles socioeconómicos, cuatro grupos generacionales y los dos sexos).
Variedad geográfica Caracas (Venezuela).
Publicación No, pero se encuentra en versión electrónica preparada para remitirse a los investigadores interesados.
Información contextual Variables sociolingüísticas (edad, sexo, estudios) y oficio de los padres.
Acceso a textos/discursos Sí; se puede acceder a los textos y a los audios mediante solicitud al Instituto de Filología Andrés Bello; algunas muestras están disponibles en http://www.linguas.net/portalpreseea/.
Tratamiento informático Accesible la búsqueda de concordancias en http://www.rae.es/.
Financiación Consejo de Desarrollo Científico y Humanístico de la Universidad Central de Venezuela.
Cuadro 17
Nombre del corpus Corpus sociolingüístico de la ciudad de Mérida
Tamaño 40 horas (80 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en cinco niveles socioeconómicos, cuatro grupos generacionales y los dos sexos).
Variedad geográfica Mérida (Venezuela).
Publicación Domínguez, C. y Mora, E. (1998). El habla de Mérida. Mérida, Venezuela: Consejo de Publicaciones de la Universidad de los Andes. (Se trata de la publicación de una selección de 24 entrevistas).
Información contextual Variables sociolingüísticas (edad, sexo, estudios) y oficio de los padres.
Acceso a textos/discursos Sí. Está publicada en papel una parte del total del corpus; se puede acceder al resto de transliteraciones, así como a los audios, contactando con el Centro de Investigación y Atención Lingüística de la Universidad de los Andes.
Tratamiento informático No.
Financiación Consejo de Desarrollo Científico y Humanístico de la Universidad de Los Andes.
Cuadro 18
Nombre del corpus Corpus Sociolingüístico de Maracaibo 1986
Tamaño 2.400 horas (160 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas semidirigidas (estratificadas en cinco niveles socioeconómicos, cuatro grupos generacionales y los dos sexos).
Variedad geográfica Maracaibo (Venezuela).
Publicación No, aunque se puede solicitar acceso de las transcripciones al Instituto Andrés Bello, bajo la siguiente cita: Chela-Flores, B. y J. Gelman (1988): El habla de Maracaibo. Materiales para su estudio. Maracaibo: Universidad de Zulia/Condes.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No (pero sí digitalizado).
Financiación Consejo de Desarrollo Científico y Humanístico de la Universidad de Zulia.
Cuadro 19
Nombre del corpus Corpus de Puerto Cabello
Tamaño 21 horas (65 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas semidirigidas (estratificadas en dos niveles socioculturales, dos grupos generacionales y los dos sexos).
Variedad geográfica Puerto Cabello (Venezuela).
Publicación No, aunque se puede solicitar acceso al investigador responsable.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación No.
Cuadro 20
Nombre del corpus Corpus de Valencia
Tamaño 129 horas de grabación (484 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas semidirigidas (estratificadas en tres niveles socioculturales, tres grupos generacionales y los dos sexos).
Variedad geográfica Valencia (Venezuela).
Publicación No, aunque se puede solicitar acceso al investigador responsable.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación No.
Cuadro 21
Nombre del corpus El español hablado en Bogotá
Tamaño 234 horas aprox. (234 informantes).
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Entrevistas (estratificadas en tres niveles socioculturales, tres grupos generacionales, los dos sexos y procedencia del informante).
Variedad geográfica Bogotá (Colombia).
Publicación Montes Giraldo, J. J. et al. (1997): El español hablado en Bogotá. Santafé de Bogotá: Publicaciones del Instituto Caro y Cuervo. (Es una selección de 30 grabaciones).
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), estudios, profesión y procedencia de los padres.
Acceso a textos/discursos Sí. El material sonoro está a disposición del Instituto Caro y Cuervo.
Tratamiento informático No.
Financiación No se dispone de la información.
Cuadro 22
Nombre del corpus Habla popular andina
Tamaño 760 horas aprox.
Tipo de transcripción Transcripción con sistema propio.
Tipo de textos Entrevistas (conversaciones semidirigidas).
Variedad geográfica Español andino.
Publicación No.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural).
Acceso a textos/discursos No.
Tratamiento informático No.
Financiación Sí, parcialmente por la Universidad de Minnesota.
Cuadro 23
Nombre del corpus Language Change in Peru
Tamaño 100 horas aprox.
Tipo de transcripción Transliteración ortográfica y codificado con sistema propio.
Tipo de textos Entrevistas (conversaciones semidirigidas).
Variedad geográfica Español andino.
Publicación No.
Información contextual No.
Acceso a textos/discursos No.
Tratamiento informático No (pero sí digitalizado).
Financiación No.
Cuadro 24
Nombre del corpus El discurso de las personas en situación de calle en Santiago de Chile
Tamaño 83 horas aprox.
Tipo de transcripción Sistema de transcripción Val.Es.Co. simplificado.
Tipo de textos Entrevistas semidirigidas (150 «historias de vida»).
Variedad geográfica Santiago de Chile.
Publicación En proceso. A lo largo de 2009 se publicará parte del corpus.
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), estudios y oficio de los padres.
Acceso a textos/discursos Sí, cuando se publique a lo largo de 2009. Por el momento, se encuentra disponible solo para los responsables del proyecto, en soporte digital y en papel.
Tratamiento informático No.
Financiación FONDECYT.
Cuadro 25
Nombre del corpus Acerca de los relatos orales en Tucumán
Tamaño 550 horas aprox. (550 informantes).
Tipo de transcripción Transliteración ortográfica y transcripción semialfabética.
Tipo de textos Entrevistas semidirigidas.
Variedad geográfica Provincia de Tucumán (Argentina).
Publicación Rojas Mayer, E. (coord.) (1986). Acerca de los relatos orales en Tucumán. Vols. I y II. Tucumán: INSIL.
Información contextual Sí.
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación No.
Cuadro 26
Nombre del corpus Corpus Oral del Lenguaje Adolescente COLA
Tamaño 86 horas de grabación, 600.000 palabras.
Tipo de transcripción Transliteración ortográfica y etiquetado con normas TEI.
Tipo de textos Conversaciones coloquiales de jóvenes entre 13 y 19 años.
Variedad geográfica Distintas variantes dialectales, dependiendo de la ciudad de España o América.
Publicación Acceso electrónico gratuito, previa solicitud de contraseña a través de la propia página, http://www.colam.org/.
Información contextual Sí; se puede solicitar la ficha técnica, que ofrece el contexto situacional completo (variables sociolingüísticas de los informantes, el marco físico de la grabación, temática, etc.).
Acceso a textos/discursos Sí, en la citada página electrónica. Texto y sonido alineado.
Tratamiento informático Sí, etiquetado mediante el programa Transcriber, alineamiento del sonido e incorporación de un motor de búsqueda.
Financiación Fundación Meltzer de la Universidad de Bergen, Norges Forskningsråd (NFR, Consejo Superior de Investigaciones Científicas de Noruega).
Cuadro 27
Nombre del corpus Corpus de conversaciones coloquiales Val.Es.Co (Valencia Español Coloquial)
Tamaño 341 horas de grabación. De estas 6,5 horas (100.000 palabras), se encuentran transcritas y publicadas en papel; otras 250.000 palabras más están transcritas y se encuentran disponibles electrónicamente en Internet, alineadas con el sonido.
Tipo de transcripción Transcripción con sistema de signos propios, basados en el Análisis de la Conversación.
Tipo de textos Conversacionales coloquiales.
Variedad geográfica Peninsular, Valencia.
Publicación
  1. Briz, A. y Grupo Val.Es.Co. (2002). Corpus de conversaciones coloquiales. Anejo de la revista Oralia. Madrid: Arco/Libros.
  2. Acceso a muestras de transcripciones y audios en http://www.uv.es/valesco/. Las nuevas transcripciones, con sus audios, se encuentran disponibles en http://www.uv.es/corpusvalesco/, junto con un motor de búsqueda.
Información contextual Sí. Cada conversación se acompaña de una ficha técnica en la que se recoge el contexto situacional completo (variables sociolingüísticas de los informantes, el marco físico de la grabación, temática, etc.).
Acceso a textos/discursos Sí.
Tratamiento informático En proceso.
Financiación Ministerio de Educación y Ciencia, Generalitat Valenciana.
Cuadro 28
Nombre del corpus ALCORE (Alicante Corpus Oral del Español) y subcorpus COVJA (Corpus Oral de la Variedad Juvenil Universitaria del Español de Alicante)
Tamaño ALCORE (53 horas aprox.) y COVJA (13 horas aprox.).
Tipo de transcripción Transliteración ortográfica y etiquetado normas TEI.
Tipo de textos Entrevistas-coloquio (entrevistas individuales y conversaciones en grupo). ALCORE: 76 informantes (estratificado en tres niveles socioculturales, tres grupos generacionales, los dos sexos). COVJA: 63 jóvenes estudiantes universitarios (organizados en 4 grupos de áreas del saber).
Variedad geográfica Peninsular, Alicante.
Publicación
  1. Azorín, D. (coord.) (2002). Alicante corpus oral del español. Alicante: Universidad de Alicante. Edición electrónica en CD-ROM. (Es la publicación del 50% de las grabaciones de ALCORE, 1.600 min. aprox.).
  2. Azorín, D. y Jiménez Ruiz, J. L. (1997). Corpus oral de la variedad juvenil universitaria del español hablado en Alicante. Alicante: Instituto de Cultura Juan Gil-Albert. (Incorporado al CREA).
Información contextual Variables sociolingüísticas (edad, sexo, nivel sociocultural), lugar y fecha de la grabación.
Acceso a textos/discursos Sí.
Tratamiento informático COVJA: accesible la búsqueda de concordancias en http://www.rae.es/.
Financiación Instituto Alicantino de Cultura Juan Gil-Albert, Ministerio de Educación y Cultura.
Cuadro 29
Nombre del corpus Corpus del español conversacional de Barcelona y su área metropolitana
Tamaño 100 informantes.
Tipo de transcripción Combina el sistema ortográfico con algunas convenciones propias basadas en el Análisis Conversacional (sistema Val.Es.Co.).
Tipo de textos Conversaciones coloquiales cara a cara (semidirigidas y libres) y conversaciones telefónicas (estratificadas por clase social, nivel de estudios, edad, origen geográfico, lengua del individuo).
Variedad geográfica Peninsular, Barcelona.
Publicación Publicada una parte del corpus en papel (7 conversaciones cara a cara y 3 telefónicas), en Vila, M. R. y Grupo GRIESBA (2001). Corpus del español conversacional de Barcelona y su área metropolitana. Barcelona: Edicions Universitat de Barcelona.
Información contextual Sí. Cada conversación se acompaña de una ficha sociolingüística en la que el informante responde a un cuestionario sobre diversos datos personales y lingüísticos. También se especifican las coordenadas situacionales de la grabación.
Acceso a textos/discursos Sí.
Tratamiento informático No. Está en proceso el etiquetado del corpus, ya digitalizado, y la realización de un programa de concordancias (Etxebarria y Vila, 2005: 224).
Financiación Universidad de Barcelona, Ministerio de Educación y Ciencia.
Cuadro 30
Nombre del corpus Corpus de habla de los universitarios salmantinos (CHUS)
Tamaño 14 horas (9 coloquios y 25 entrevistas hasta la fecha).
Tipo de transcripción Solo transcritos algunos fragmentos: transliteración ortográfica.
Tipo de textos Entrevistas y conversaciones.
Variedad geográfica Peninsular, Salamanca.
Publicación No.
Información contextual No.
Acceso a textos/discursos Acceso a los audios mediante solicitud al equipo responsable.
Tratamiento informático No.
Financiación No.
Cuadro 31
Nombre del corpus COGILA, Corpus del Grupo de Investigación Lingüística Aplicada
Tamaño 100 horas aprox.
Tipo de transcripción Sistema de transcripción Val.Es.Co.
Tipo de textos Conversaciones.
Variedad geográfica Peninsular, Granada.
Publicación En preparación 18.
Información contextual Sí.
Acceso a textos/discursos Sí, a partir de su publicación.
Tratamiento informático No.
Financiación Junta de Andalucía.
Cuadro 32
Nombre del corpus Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC)
Tamaño 1.100.000 palabras.
Tipo de transcripción Transliteración ortográfica, etiquetado con normas TEI.
Tipo de textos Diversas modalidades discursivas: conversacionales, periodísticos, publicitarios, jurídicos, administrativos, políticos, religiosos, etc.
Variedad geográfica Peninsular.
Publicación Acceso electrónico gratuito en http://www.educared.net/mespana_intercampus/home_49_930_esp_1_.html.
Información contextual No.
Acceso a textos/discursos Sí.
Tratamiento informático Accesible la búsqueda de concordancias en http://www.rae.es/.
Financiación No se dispone de la información.
Cuadro 33
Nombre del corpus C-ORAL-ROM
Tamaño 30 horas, 300.000 palabras aprox.
Tipo de transcripción Transliteración ortográfica con formato CHAT.
Tipo de textos Registro formal e informal, conversaciones cara a cara, telefónicas, monólogos, medios de información.
Variedad geográfica Peninsular.
Publicación Cresti, E. y Moneglia, M. (2005). C- ORAL- ROM. Integrated Reference Corpora for Spoken Romance Languages. Ámsterdam; Filadelfia: John Benjamins.
Información contextual Sí.
Acceso a textos/discursos Sí. Grabaciones orales (digitales) y transcripciones.
Tratamiento informático Alineamiento del sonido con transliteración ortográfica (WinPitch).
Anotación morfosintáctica (programa de concordancias Contextes), marcas prosódicas y léxicas. Alineamiento del texto y del sonido fuente.
Financiación Comisión Europea dentro del V Programa Marco, Ministerio de Educación y Ciencia.
Cuadro 34
Nombre del corpus VUM (Vernáculo Urbano Malagueño)
Tamaño 238 horas, 600.000 palabras (291 informantes).
Tipo de transcripción Transliteración ortográfica y etiquetado con normas TEI.
Tipo de textos Mayoritariamente son conversaciones semidirigidas (cara a cara y a distancia, grabaciones de radio y televisión), pero también se recogen diversos tipos de discursos monológicos.
Variedad geográfica Peninsular, ciudad de Málaga.
Publicación No, está inédito, aunque se pueden consultar fragmentos amplios en Cuevas Molina (2001) y Ávila Muñoz (1998: en la versión original de esta tesis está todo el corpus).
Información contextual No se dispone de la información.
Acceso a textos/discursos Sí.
Tratamiento informático No.
Financiación Ministerio de Ciencia y Tecnología.
Cuadro 35
Nombre del corpus AKSAM
Tamaño 50 horas.
Tipo de transcripción Transliteración ortográfica.
Tipo de textos Conversaciones, negociaciones empresariales y simuladas.
Variedad geográfica Español chileno y español peninsular.
Publicación Accesible en breve en página electrónica; por el momento, se puede solicitar información y acceso a Johan Gille (johan.gille@isp.su.se).
Información contextual No se dispone de la información.
Acceso a textos/discursos Sí.
Tratamiento informático No (pero sí digitalizado).
Financiación HSFR, Vetenskapsrådet (Consejo de Investigación Sueco).