Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio

        



POLÍTICA CIENTÍFICA: LENGUA Y TECNOLOGÍA

Congreso de Sevilla
 

Proyecto de una base de datos acústicos de la lengua española
Joaquim Llisterri, Dolors Poch. Universidad Autónoma de Barcelona

 

1. Necesidad en interés del proyecto

1.1. Desarrollo de los corpora orales

En los últimos años, los principales centros de investigación de Europa, Estados Unidos, Japón y Australia, tanto en el ámbito universitario como en el empresarial, han creado sus propias bases de datos y corpora que recogen la lengua hablada. Aunque la motivación inicial se encuentra en la necesidad de disponer de datos para desarrollar y evaluar las diferentes aplicaciones del procesamiento del habla —especialmente de los sistemas de reconocimiento en el momento de la creación de las primeras bases de datos—, posteriormente se ha visto que una gran cantidad de datos estructurados y accesibles posibilita igualmente la investigación básica en los más diversos aspectos de la comunicación oral. Sin embargo, en la mayor parte de los casos se ha tratado de iniciativas aisladas y, algunas veces, poco accesibles a otros grupos.

El desarrollo individual de tales herramientas ha llegado a una fase en la que se produce la necesidad de unificar los resultados obtenidos, de aplicar metodologías y criterios de diseño comunes y de establecer canales de distribución que permitan el acceso a una amplia gama de usuarios. Algunos países que cuentan con programas nacionales o con organismos de coordinación para el desarrollo de la tecnología del habla llevan ya un cierto tiempo aunando esfuerzos de diversos grupos de trabajo para llevar a cabo proyectos nacionales de recogida organizada y estructurada de datos de la lengua oral (véanse, por ejemplo, las presentaciones de tales programas en TTS & CEE, 1987).

Por otra parte, en el contexto europeo, es indispensable cumplir con el requisito del multilingüismo a fin de permitir un avance equilibrado de las aplicaciones tecnológicas y los productos comerciales que de ellas se derivan en todos los países de la Comunidad (Hearn, 1992). Los diversos programas de apoyo a la investigación y desarrollo de la CEE —especialmente ESPRIT y últimamente LRE— han contribuido a la coordinación entre grupos de países diferentes y han llevado a una serie de iniciativas en el campo de la constitución de corpora tanto orales como escritos con criterios estandarizados.

Finalmente, la cooperación entre las organizaciones comunitarias y los organismos equivalentes en otros continentes en el campo de la constitución de corpora empieza ya a perfilarse (véanse, por ejemplo, las propuestas presentadas en Castagneri, G. (ed.), 1991).

Sin embargo, la lengua española ha participado de manera relativamente reducida de esta tendencia, y muy especialmente en lo que se refiere a los corpora orales. Si bien algunos centros han constituido sus propias bases de datos para aplicaciones específicas al reconocimiento, aún estamos lejos de disponer de un corpus de la lengua oral para el español que permita, tanto la investigación básica en fonética y fonología como el desarrollo y la evaluación de sistemas de tecnología de la voz. Más adelante haremos referencia a un proyecto actualmente en desarrollo, que constituye un paso importante en esta dirección.

1. 2. Utilidad de los corpora orales

En este apartado, presentaremos tres de los principales ámbitos de aplicación de los corpora orales: la investigación aplicada a la tecnología del habla, la investigación lingüística básica y la aplicación a la enseñanza de la lengua.

1.2.1. Desarrollo de la tecnología del habla

Hemos mencionado ya que una de las primeras aplicaciones que llevaron al surgimiento de bases de datos y corpora fue el entrenamiento y la evaluación de sistemas de reconocimiento de habla. Sin embargo, su utilidad en este ámbito se ha ampliado a la obtención de modelos estadísticos de la lengua que permiten mejorar la eficacia de sistemas de conversión de habla a texto, introduciendo la probabilidad de transición entre palabras.

También para la síntesis es útil disponer de corpora orales. En primer lugar, permiten obtener información acústica sobre la variabilidad de las unidades utilizadas. Igualmente es posible describir y modelar las variaciones prosódicas ligadas a la modalidad y a la estructura sintáctica que se producen en la lectura de un texto. Finalmente, al igual que en el reconocimiento, los corpora orales permiten desarrollar modelos lingüísticos útiles para tareas como el análisis sintáctico, del cual depende buena parte de la calidad de la prosodia.

En tercer lugar, las aplicaciones que implican el diálogo persona-máquina se benefician igualmente del análisis de corpus recogidos sea durante la interacción directa entre el usuario y el sistema, sea mediante la interacción simulada (paradigma del Mago de Oz).

1.2.2. Descripción fonético y fonología del lenguaje

No parece necesario justificar que la descripción fonética y fonológica del español debe beneficiarse de un corpus oral diseñado, recogido y estructurado atendiendo a la variedad de realizaciones fonéticas presentes en la lengua, tanto en el nivel segmental como en el suprasegmental. Aunque los aspectos básicos de la fonética del español son bien conocidos, la descripción acústica detallada no es una tarea totalmente completa, especialmente si se considera la variación ligada a las diferencias geográficas, sociales y estilísticas de todo el ámbito de habla hispana.

1.2.3. Materiales de apoyo a la enseñanza de la lengua

Los materiales recopilados en un corpus extenso y con una amplia cobertura dialectal, sociolectal y estilística pueden ser utilizados de forma provechosa en la preparación de herramientas didácticas, tanto en el campo de la enseñanza de la lengua materna como en el del español como lengua extranjera. Permiten, por una parte, presentar una panorámica amplia de la variedad lingüística que queda a menudo fuera del alcance del profesor; por otra, ofrecen la posibilidad de integrarlos en métodos multimedia como los basados en CD o en CD-ROM.

Subir
 
2. Tipología de los corpora

Antes de presentar nuestra propuesta, parece necesario revisar, aunque de modo sucinto, los principales tipos de corpora orales —o relacionados con los niveles fonético y fonológico de la lengua— que se han desarrollado hasta el momento. Como se indica más adelante, esta revisión debería hacerse de modo exhaustivo como paso previo al diseño del proyecto que proponemos. Sin embargo, esta breve descripción puede ser útil para definir con mayor precisión el objetivo del trabajo.

Distinguiremos entre tres tipos de corpora: los inventarios fonéticos y fonológicos desarrollados para el estudio de los universales lingüísticos, los corpora especialmente diseñados para la descripción fonética y fonológica de la lengua y aquellos que se orientan hacia las aplicaciones y productos en el ámbito de la tecnología de la voz.

2.1. Inventarios para el estudio de los universales fonéticos y fonológicos

Una de las posibles maneras de abordar el estudio de los universales lingüísticos es la constitución de bases de datos que describan las diversas lenguas del mundo. Esta tarea se ha llevado a cabo desde un punto de vista fonológico en, al menos, dos proyectos bien conocidos: el Stanford Phonology Archive (SPA; Greenberg (ed.), 1978) y el UPSID (UCLA Phonological Segment Inventory Database; Maddieson, 1984). Sin embargo, se trata de inventarios basados exclusivamente en descripciones publicadas de sistemas fonológicos que no recogen realizaciones orales. Por este motivo, y pese a su interés intrínseco para la teoría fonética, no entran en nuestro campo de interés.

2.2. Corpora para la descripción fonética

Otros corpora diseñados para la descripción fonética de las lenguas incluyen, en cambio, materiales orales grabados que ilustran tanto los principales contrastes fonológicos segmentales y las diversas realizaciones fonéticas como aspectos propios del habla obtenida mediante técnicas que tratan de conseguir la mayor espontaneidad posible por parte del locutor, de modo que se reflejen diversos estilos.

Cabe distinguir aquí entre los que tienen como objetivo la comparación entre lenguas (el mejor ejemplo sería el proyecto IRIS (Immigrant Voices in Swedish - Phonetic Models; Engstrand, 1987) o los que se proponen la descripción fonética de una única lengua (por ejemplo BDSONS para el francés, descrita en Carré 1991, la base de datos del sueco elaborada por Carlson et al., 1990, o el proyecto de la base de datos nacional del inglés australiano de Millar, 1989). Entre estas últimas, cabe mencionar para el español la propuesta de Cid y Fernández-Corugedo (1991), basada en el corpus del inglés conocido como IBM Lancaster Corpus of Spoken English.

No trataremos aquí, por los motivos que se exponen más adelante, las propuestas de estudio de la lengua oral basadas en transcripciones ortográficas de grabaciones sin que se recoja la señal sonora en el corpus (véase, también para el español, Marcos Marín, 1991).

2.3. Corpora para aplicaciones tecnologías

En tercer lugar, cabe mencionar los corpora diseñados para aplicaciones tecnológicas, especialmente en el campo del reconocimiento del habla. Su contenido fonético suele basarse en palabras aisladas o en frases fonéticamente equilibradas, aunque cada vez es más importante la tendencia a incluir textos, como sucede en el caso del corpus francés BREF (Lamel et al., 1991) o del Wall Street Journal Continuous Speech Recognition Corpus (WSJ-CSR, Paul y Baker, 1992) orientado hacia el reconocimiento del habla continua. Es paradigmática en este campo la base de datos conocida como TIMIT (Zue et al, 1990), en la que se recogen más de 2.340 frases pronunciadas por 630 locutores.

Frente a estos corpora orientados hacia el desarrollo del reconocimiento y, en muchos casos, la síntesis del habla, en sus aspectos más genéricos, existen proyectos en los que los datos se refieren a una aplicación concreta. Entre ellos destaca el Air Traffic Information Systems Corpora (ATIS, Zue et al., 1991), cuyo objetivo es desarrollar un sistema para la reserva de vuelos; por este motivo, en él se recogen preguntas espontáneas producidas por locutores en interacción con un sistema simulado y preparado para llevar a cabo esta tarea.

El proyecto que se presenta a continuación recoge aspectos de los dos últimos tipos de corpora expuestos. Por una parte, pretende servir como herramienta de estudio en la descripción fonética y fonológica del español; por otra, quiere también ser útil en la puesta a punto de sistemas de síntesis y de reconocimiento del habla en esta lengua.

Subir
 
3. La constitución de un corpus oral

La constitución de un corpus oral como los que acabamos de describir conlleva una serie de tareas que se presentan esquemáticamente a continuación (Dolmazon, 1991; Goldsmith y Fuller, 1991). En la planificación y la realización de cada una de ellas es preciso tomar decisiones sobre el tipo de información que debe recogerse, el grado de variabilidad que pretende cubrirse, el modo de obtención de los datos, su nivel de descripción, y el soporte para el almacenamiento y la difusión, por poner algunos ejemplos. En este punto, es esencial considerar la experiencia de un proyecto en el que diversos países europeos han conseguido unificar sus protocolos y métodos para la realización de corpora orales en el marco del programa ESPRIT. Nos referimos al proyecto SAM 2589 (Speech Assessment Metho, que ha dedicado parte de sus recursos a la definición de criterios estándar en los aspectos anteriormente mencionados. Es nuestra opinión que cualquier iniciativa en el terreno de los corpora orales no puede en absoluto prescindir de los criterios de este consorcio.

La figura 1 sintetiza las etapas a las que hacemos referencia. En la parte izquierda de la figura se esquematizan las principales fases en la preparación de un corpus oral. En la parte derecha se mencionan aquellas herramientas desarrolladas por el proyecto SAM y los estándares adoptados por este grupo. La descripción de cada una de las fases se encuentra detallada en la propuesta que se presenta seguidamente.

Subir
 
4. Características del corpus propuesto

Tal como se ha señalado anteriormente, un corpus oral del español debiera cumplir una doble función:

1)   Servir a la investigación básica en la descripción de la lengua.

2)   Prestar servicio en aplicaciones tecnológicas concretas.

Esto supone que, dejando aparte las cuestiones de grabación, almacenamiento y formato que deben tener los datos registrados, hay que prestar atención extrema, lógicamente, a los materiales que constituyen dicha base y a los factores de variación contemplados en la elaboración de la misma. Así, en la definición del proyecto habrá que tomar en cuenta los aspectos que se discuten a continuación (Llisterri y Poch, 199l).

4.1. Locutores

Con respecto a las fuentes de variación que afectan a los materiales que se quiera grabar, el control de la selección de locutores es esencial, puesto que las características intrínsecas de los mismos así como sus características extrínsecas afectan directamente al material que constituye propiamente el corpus.

4.1.1. Variaciones intrínsecas

En el capítulo de las características intrínsecas, prescindiendo del hecho de que las dimensiones de las cuerdas vocales y del tracto vocal de cada individuo son distintas y, ello provoca, por tanto, variaciones en las características acústicas de los sonidos, dos son los factores que se deben tener en cuenta en la elaboración del corpus: sexo y edad.

Sexo: Es bien sabido que los documentos de análisis acústico de la voz de hombre y de la voz de mujer revelan importantes diferencias en la realización de los sonidos del habla por parte de ambas clases de individuos. Un corpus representativo del español debe incluir ambos tipos de locutores, aunque hay que determinar cuántos y combinar, además, estos aspectos con las variaciones extrínsecas que afectan a los locutores.

Edad: Por otra parte, las variaciones que se producen en la voz humana por influencia de la edad constituyen también un fenómeno ampliamente estudiado. Es de sobra conocido el hecho de que, durante la adolescencia, y paralelamente al desarrollo de procesos hormonales que afectan al desarrollo sexual, la voz se modifica atravesando un período relativamente largo de inestabilidad. De igual modo, paralelamente a la menopausia y la andropausia, la voz pasa de nuevo por un período de modificaciones e inestabilidad. Así, lo más aconsejable para el proyecto de base de datos, parece ser la definición de una «franja de edad» ideal en la que estarían comprendidos los locutores seleccionados para la grabación del material de la misma.

4.1.2. Variaciones extrínsecas

Las variaciones extrínsecas afectan especialmente a los aspectos dialectales y sociolectales: la determinación del sexo y la edad de los locutores no dice nada respecto a la zona geográfica de donde proceden ni respecto al sociolecto que normalmente hablan. Por lo tanto habría que prestar también especial atención a estos factores en la etapa de selección de los locutores.

Variedad dialectal: La variedad dialectal del español es enorme y ello debe quedar reflejado en un corpus representativo de la lengua. Ahora bien, es difícil decidir cómo debe recogerse la enorme riqueza de la lengua y creemos que ésta es más bien una cuestión abierta a los dialectólogos, pues se trata de establecer, en este punto, un compromiso entre cuáles son las variantes del español que tienen entidad suficiente para constituir una «subunidad» del corpus y cuáles serían las dimensiones del producto final, puesto que no debe perderse de vista que un material de este tipo, como ya se ha señalado, debe tener unas dimensiones que lo hagan manejable con una relativa facilidad.

Variedad sociolectal: La cuestión de la variedad sociolectal está también estrechamente relacionada con la dialectal, pues ambas, en realidad, se entrecruzan y se podría afirmar que cada realización es producto de la variedad geográfica, de la variedad social y de otros aspectos que comentaremos después con mayor detalle. Así, en íntima relación con la variedad dialectal, el problema de la variación social debiera quedar como cuestión abierta para los sociolingüistas especialistas del tema.

4.2. Material lingüístico

Parece obvio que en un corpus representativo del español deben ejemplificarse los elementos segmentales y suprasegmentales de la lengua, aunque hay que tener presente que los sonidos y la prosodia conllevan problemas de diferente orden.

Por supuesto, los factores que se mencionan en este apartado deben combinarse con los expuestos en el apartado 4.1, es decir, sexo de los locutores y variación dialectal y social.

4.2.1. Contenido fonético

Con vistas a conseguir los objetivos que acabamos de presentar, pensamos que en nuestra base de datos debiera aparecer, en forma de listas de palabras, el inventario de sonidos y combinaciones posibles, de tal suerte que dichas listas permitieran ilustrar los problemas deseados.

Probablemente habría que incluir también algunas combinaciones de palabras representativas de combinaciones de sonidos que sólo se dan en el dominio de la fonética sintáctica.

El inventario de sonidos del español y las distintas posibilidades combinatorias de estas unidades es de sobra conocido, puesto que otros trabajos ya publicados y otros proyectos de investigación se han ocupado anteriormente de estos problemas, de forma que no parece que plantee dudas el hecho de que en el corpus debe aparecer este inventario y deben recogerse también estas posibilidades combinatorias.

Para que el corpus siga siendo representativo de la lengua debe considerarse también otro aspecto: la frecuencia de aparición de cada uno de los sonidos y de cada posibilidad de combinación de los mismos.

Los estudios publicados sobre frecuencia de aparición de unidades del español se basan en criterios fonológicos (entre los más recientes véanse, por ejemplo, Quilis y Esgueva, 1980; Rojo,1991). Un corpus oral exige recoger unidades fonéticas y no fonológicas.

Esto supone establecer en primer lugar el inventario de sonidos y combinaciones de sonidos que aparecen en la lengua.

Para el proyecto Albayzín (Casacuberta et al., 1992) se ha preparado un corpus fonético que ha conllevado un estudio estadístico de aparición de sonidos y de combinaciones de sonidos. Creemos que es fundamental conservar estas proporciones en el corpus para no desvirtuar la realidad de la lengua.

La cuestión de los elementos suprasegmentales presenta, para el español, especiales dificultades, la mayor de las cuales es la falta de descripciones adecuadas de los fenómenos que se debieran reflejar. Si bien todos somos conscientes de la gran diversidad de entonaciones que presentan las distintas variedades de la lengua, lo cierto es que, aparte ciertas observaciones de tipo general y del manual de entonación literaria de Navarro Tomás (1945), no contamos, como ocurre con los sonidos, con descripciones e inventarios que caractericen las diferentes posibilidades expresivas del español. Por tanto, parece imprescindible realizar, en primer lugar, una tarea previa de estudio y caracterización de estos fenómenos antes de decidir cómo integrarlos en un corpus de la lengua.

4.2.2. Variedad estilística

Un aspecto que hemos mencionado de pasada en el apartado anterior, pero que consideramos esencial en el momento de definir los materiales que debieran integrar el corpus, es la cuestión de los estilos de habla. Recientes estudios realizados sobre varias lenguas, entre ellas el español, han puesto de manifiesto que la realización de los sonidos varía considerablemente en función de los estilos de habla: los sonidos analizados a partir de grabaciones de listas de palabras o de palabras contenidas en frase-marco presentan unas características considerablemente distintas de las que presentan los sonidos analizados a partir de grabaciones de una conversación semi-dirigida, por ejemplo, diferencias a las que no son en absoluto ajenos los temas que se tratan en las diversas conversaciones. Las aplicaciones tecnológicas se resienten de estas diferencias pues si los modelos que sirven de punto de referencia a sistemas de conversión de texto a voz o a sistemas de reconocimiento automático especialmente el grado de eficacia alcanzado está lejos de responder a las expectativas necesarias para obtener una buena rentabilidad de los productos. Por otra parte, creemos que dicha variación estilística tiene también una importancia crucial en el terreno de la descripción de la lengua y en el ámbito de la teoría fonética.

La cuestión pendiente ahora mismo es la de la caracterización y clasificación de los distintos estilos ya que se trata de un problema todavía no resuelto que es, en la práctica, una cuestión interdisciplinar que afecta no sólo a la fonética sino también a otras disciplinas como la pragmática o la sociolingüística; de ahí que mencionáramos ya anteriormente esta cuestión cuando nos referíamos a la variación «social» del español. Lo cierto es que aun cuando la casuística de los estilos contara ya con algunos modelos elaborados en el momento de decidir qué estilos habría que recoger en el corpus sería necesario realizar una selección tendente a la simplificación. Una forma de recoger las variaciones estilísticas más importantes podría ser incluir en el corpus, además de las listas de palabras, combinaciones de palabras.


Subir
 
4.3. Grabación y almacenamiento

4.3.1. La recogida de datos

La recogida de los datos presenta ciertos inconvenientes cuando se aspira a cubrir una gran variedad de realizaciones fonéticas propias de diversas zonas dialectales del dominio lingüístico. Por una parte, los hablantes de determinadas variedades pueden ser fácilmente accesibles para su grabación en estudio; en cambio, en el caso de ciertos dialectos o sociolectos, puede ser difícil conseguir una grabación que reúna los requisitos técnicos necesarios para la posterior constitución de un corpus.

4.3.2. La grabación

Los datos de un corpus oral deben recogerse, idealmente, en una cámara anecoica y con procedimientos digitales. El estándar de SAM describe el entorno acústico adecuado (cámara anecoica), el tipo de micrófono (ADG C-414) y su colocación, la placa de adquisición de datos (OROS AU22), la estación de trabajo (SESAM), el sistema de presentación de los datos al locutor y el desarrollo de la sesión de grabación (EUROPEC), el modo de obtener una copia de seguridad (PCM o DAT) y el procesamiento de la señal necesarios para obtener grabaciones comparables entre diversas lenguas y diversos hablantes recogidas por equipos de trabajo diferentes (SAM, 1991). No es preciso mencionar que este aspecto requiere la colaboración de especialistas en procesamiento digital de señales.

4.4. Tratamiento de los datos

Una vez recogidos, los datos de un corpus deben ser procesados en diversos aspectos. Centramos aquí el comentario en los más relevantes para la información fonética que después deberá extraerse del material.

4.4.1. Transcripción

Aunque en principio puede pensarse en tres niveles distintos de transcripción —ortográfica, fonética y acústica—, parece que es realista proponerse llevar a cabo la transcripción ortográfica y la fonética, dejando que sea el propio investigador que utiliza el corpus quien establezca la aparición de determinadas características acústicas en relación con sus criterios de segmentación. Sin embargo, es esencial en este punto que tanto la transcripción ortográfica como la fonética estén alineadas con la señal sonora.

Por otra parte, se plantea el problema de la selección de un alfabeto fonético aceptable en los sistemas informáticos y que permita abordar con cierto detalle la transcripción del español. Wells (1989) describe el SAM Phonetic Alphabet (SAMPA), adoptado como estándar en el proyecto al que va hemos hecho referencia. Sin embargo, es preciso un estudio previo que permita determinar su utilidad en la transcripción de múltiples variantes de una única lengua.

4.4.2. Anotación

Es posible establecer también otro nivel de descripción que incluya información sobre características morfológicas o sintácticas de los enunciados recogidos. Estas últimas son especialmente importantes en lo que se refiere a la utilización del corpus para estudios prosódicos, y parece necesario incluirlas, al menos en las partes del corpus diseñadas para el estudio de1a entonación.

4.4.3. Etiquetado

Finalmente, un corpus debe contener ficheros con información completa sobre los locutores, el contenido lingüístico, las condiciones de grabación o la situación de los datos, el medio de difusión. SAM ha definido también estos aspectos (SAM, 1991).

4.5. Organización de los datos

Los datos recogidos, para ser incluidos en el corpus, deben estar estrictamente estructurados, de modo que sea posible su recuperación con criterios diversos. Por este motivo es necesario establecer una estructura de la base de datos que comprenda tanto el formato de los ficheros, el de las cabeceras o los tipos de etiqueta utilizados. En estos aspectos, el programa EUROPEC (SAM, 1991) permite facilitar relativamente la tarea y permite también disponer de formatos de ficheros compatibles con otros sistemas. El acceso a los datos requiere también el diseño de un procedimiento de consulta que interrelacione ficheros diferentes, de modo que el investigador pueda acceder a la información utilizando diversos parámetros ( por ejemplo la procedencia de los hablantes, la aparición de una variante fonética, el contacto entre dos sonidos, etc.). En este punto, es del todo necesaria la colaboración de especialistas en programación.

4.6. Difusión

Los procedimientos más utilizados actualmente para la difusión de corpora son el disco compacto (CD) o el compact disc read only memory (CD-ROM). Tanto el proyecto americano DARPA (Garofolo y Pallett, 1989) como el europeo SAM utilizan esta última alternativa. El primero ha puesto ya en circulación CD-ROMs con algunos de los corpora que se han mencionado anteriormente: TIMIT (1990) y ATIS (1990) entre otros; en lo que se refiere al segundo, existe también un CD-ROM con EUROM.0, la primera base de datos multilingüe que surgió del proyecto. Parece pues que éste debe ser el medio de difusión del corpus que aquí se propone.

Subir
 
5. Planificación del proyecto

En este último apartado se describe una posible planificación de las tareas necesarias para llevar a cabo el corpus propuesto, y se realiza una estimación de los recursos necesarios partiendo de una primera aproximación al diseño final del corpus.

5.1. Tareas

Las tareas necesarias para realizar el corpus propuesto se resumen a continuación. El contenido de cada una de ellas ha quedado ya expuesto en los apartados anteriores.

5.1.1. Revisión bibliográfica

a) Revisión y evaluación de bases de datos con objetivos similares o comparables

b) Revisión bibliográfica sobre la variación fonética en español

5.1.2. Diseño

a) Diseño de los diferentes corpora

b)
Definición de las características (edad, sexo, dialecto y sociolecto) y selección de los locutores

c)
Establecimiento del procedimiento estándar de grabación

d)
Fijación de los estándares de transcripción, anotación y etiquetado

e)
Diseño de la estructura del corpus

f)
Elección del soporte para su difusión

5.1.3. Realización de las grabaciones

5.1.4. Preparación y formateado del material

5.1.5. Transcripción, anotación y etiquetado

5.1.6. Organización del corpus

5.1.7. Distribución

a) Producción del corpus en el soporte elegido

b) Determinación de las condiciones de distribución

5.1.8. Mantenimiento y actualización


Subir

5.2. Recursos y organización temporal

A fin de establecer una primera estimación de los recursos humanos y de la extensión en el tiempo del proyecto, se ofrece a continuación una primera estimación de algunos aspectos del corpus. Debe señalarse que se trata aquí de lo que nos parecen unos mínimos necesarios, que pueden ampliarse en fases sucesivas.
 


5.2.1. Propuesta de locutores y materiales

Locutores: Se proponen 200 locutores (20 variantes dialectales x 10 locutores por variedad).

Materiales:

a) 400 palabras (40 unidades fonéticas x 10 palabras representando cada unidad)

b) 200 palabras por frase

c)
250 frases para el estudio prosódico (50 estructuras sintácticas x 5 frases cada una)

d)
1 texto fonéticamente equilibrado (40 unidades fonéticas, x 10 muestras como mínimo de cada una más una ejemplificación de las estructuras prosódicas; 5' de duración

e)
1 entrevista dirigida (40 unidades fonéticas x 10 muestras como mínimo de cada una más una ejemplificación de las estructuras prosódicas; 30' de duración)

5.2.2. Organización temporal y recursos humanos

En función de la propuesta anterior, se ofrece una estimación del tiempo requerido para cada fase y del número de investigadores dedicados a ella.

a) Revisión bibliográfica: 2 investigadores durante 4 meses

b)
Diseño: 6 investigadores durante 12 meses

c)
Grabación: 2 investigadores durante 18 meses

d)
Transcripción, etiquetado y anotación: 10 investigadores durante 18 meses

e)
Organización del corpus: 2 investigadores durante 6 meses

f)
Producción de CD-ROM

En total, tal como se describe en el punto anterior, el proyecto puede implicar a 22 investigadores o colaboradores durante un período aproximado de 36 meses. En conjunto, esta estimación representa unos 7 hombres año.

5.2.3. Reutilización de recursos

Para acabar, señalaremos que existe en la actualidad un proyecto, financiado por la CICYT (TIC91-1488-C06), en el que seis grupos de investigación españoles colaboran en la elaboración de tres bases de datos para el reconocimiento de habla. Conocido como Albayzín (Casacuberta et al, 1992), se propone la elaboración de un corpus fonético, un corpus de aplicación para la consulta a bases de datos y un corpus para el reconocimiento en ambientes ruidosos. A lo largo de 1992 se han desarrollado una serie de herramientas —por ejemplo para el equilibrado fonético de corpus o para la selección y etiquetado de frases en el corpus de aplicación— que sin duda van a ser de gran utilidad en futuros proyectos de corpora para el español.


Subir

Referencias

CARLSON, R.; GRANSTRÖM, B., and NORD, L. (1990): «The KTH speech database», Speech Communication, 9,4:375-380.

CARRÉ, R. (1991): «Los bancos de sonidos», «Los bancos de sonidos», in VIDAL BENEYTO J. (Dir.): Las industrias de la lengua. Trad. de M. Alvar et al. Salamanca/ Madrid: Fundación Sánchez Ruipérez/ Pirámide (Biblioteca del Libro, 5), págs. 108-118.

CASACUBIERTA, F.; GARCÍA, R.; LLISTERRRI, J.; NADEU, C.; PARDO J.M., y RUBIO, A. (1992): «Desarrollo de corpus para investigación en tecnologías del habla (Albayzin)», Procesamiento del Lenguaje Natural, «Boletín» 12: 35-42.

CASTAGNERI, G. (ed.) (1991): Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assessment Methods, Chiavari (Italy), 26-28 September 1991. Organised by CSELT in cooperation with CEC DGXIII, ESCA, ESPRIT Project 2589 SAM.

CID, M.,and FERNÁNDEZ CORUGEDO, S.G. (1991): «The construction of a corpus of spoken Spanish: Phonetic and phonological pararneters», in Proceedings of the ESCA Workshop 'Phonetics and Phonology of Speaking Styles: Reduction and Elaboration in Speech Communication'. Barcelona, Catalonia, Spain, 30 September-2 October 1991, págs. 17-1, 17-5.

DOLMANZON, J.M. (1991): «Towards International Vocal Database Standards», in CASTAGNERI (Ed.).

ENGSTRAND, O. (1987): «The IRIS speech data base - a status report», in ENGSTRAND, O. (Ed.): Papers from the Swedish Phonetics Conference Held in Uppsala October 17-18,1986 (RULL, Reports from the Uppsala University Department of Linguistics, 17): 121-126.

GARAFOLO, J.S., and PALLETT, D.S. (1989): «Use of CD-Rom for speech database storage and exchange», in TUBACH, J.P., and MARIANI, J.J. (Eds.): Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd., págs. 309-312.

GOLDSMITH, M. and FULLER, H. (1991): «Speech Database Construction», in CASTAGNERI (Ed.).

GREENBERG, J. (Ed.) (1978): Universals of Human Language. Vol 2: Phonology. Stanford: Stanford University Press.

HEARN, P. (1992): «Working Panel 5A Report: Linguistic Services (Corpora & Lexica)», in CEC (1992). Language and Technology. Proposals to the Commission of the European Communities, DGXIII by Users, Industry and Researchers. June, 1992.

LAMEL, L.F.; GAUVAIN, J.-L. and ESKENAZI, M. (1991): «BREF, a Large Vocabulary Spoken Corpus for French», in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991, vol 2, págs. 505-508.

LLISTERRI, J. and POCH, D. (1991): «Phonetic criteria for the development of a speech database in Spanish (the Albayzin Project)», in CASTAGNERI (Ed.) (1991).

MADDIESON, I. (1984): Patterns of Sounds. Cambridge: Cambridge University Press.

MARCOS MARÍN, F. (1991): «Archivos digitales», in Simposio de la Lengua Española, Ciencia y Tecnología. Barcelona, 7-11 de octubre, 1992, 42 págs.


MILLAR, J.B. (1989): «Design and use of a national speech database», in Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989, págs. 2.5.1-2.5.4.

NAVARRO TOMAS, T. (1945): Manual de entonación española. New York: Hispanic Institute. Cuarta edici6n: Madrid: Guadarrama (Punto Omega, 175), 1974.

PAUL, D.B., and BAKER, J.M. (1992): «The design for the Wall Street Journal -based CRS Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.

QUILIS, A., and ESGUEVA, M. (1980): «Frecuencia de fonemas en el español hablado», Lingüística Española Actual, 2,1: 1-25.

ROJO, G. (1991): «Frecuencia de fonemas en español actual», in BREA, M., and FERNÁNDEZ REI, F. (Coord.): Homenaxe ó profesor Constantino García. Santiago de Compostela: Universidade. Servicio de Publicación e Intercambio Científico, págs. 451-467.


SAM (1991): Speech Acquisition and Annotation Protocols and Index of Mnemonics. Documentn.» SAM-UCL-018. Second Draft, 20 February 1991.

TTS & CEC (1987): Proceedings from Conference and Following Workshop on Speech Technology. Status of Technology and Programmes Worldwide. Held at Jutland Telephone, Arhus May 20, 1987.

WELLS, J.C. (1989): «Computer-coded phonemic notation of individual languages of the European Community», Journal of the International Phonetic Association», 19,1: 31-54.

ZUE, V.; GLASS, J.; GOODINE, D.; HIRSCHMAN, L.; LEUNG, H.; PHILLIPS, M.; POLIFRONI, J. and SENEFF, S. (1991): «The MIT ATIS system: Preliminary development, spontaneous speech data collection and performance evaluation» in Eurospeech 91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991, vol 2, págs. 537-540.

ZUE, V.; SENEFF, S. and GLASS, J. (1990): «Speech database development at MIT: TIMIT and beyond», Speech Communication, 9,4:351-356.

 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.