|
|
Proyecto de una
base de datos acústicos de la lengua española
Joaquim Llisterri, Dolors Poch. Universidad Autónoma de Barcelona
|
|
1. Necesidad en interés del proyecto
1.1. Desarrollo de los corpora orales
En los últimos años, los principales centros de investigación de Europa, Estados
Unidos, Japón y Australia, tanto en el ámbito universitario como en el empresarial, han
creado sus propias bases de datos y corpora que recogen la lengua hablada. Aunque la
motivación inicial se encuentra en la necesidad de disponer de datos para desarrollar y
evaluar las diferentes aplicaciones del procesamiento del habla especialmente de los
sistemas de reconocimiento en el momento de la creación de las primeras bases de
datos, posteriormente se ha visto que una gran cantidad de datos estructurados y
accesibles posibilita igualmente la investigación básica en los más diversos aspectos
de la comunicación oral. Sin embargo, en la mayor parte de los casos se ha tratado de
iniciativas aisladas y, algunas veces, poco accesibles a otros grupos.
El desarrollo individual de tales herramientas ha llegado a una fase en la que se produce
la necesidad de unificar los resultados obtenidos, de aplicar metodologías y criterios de
diseño comunes y de establecer canales de distribución que permitan el acceso a una
amplia gama de usuarios. Algunos países que cuentan con programas nacionales o con
organismos de coordinación para el desarrollo de la tecnología del habla llevan ya un
cierto tiempo aunando esfuerzos de diversos grupos de trabajo para llevar a cabo proyectos
nacionales de recogida organizada y estructurada de datos de la lengua oral (véanse, por
ejemplo, las presentaciones de tales programas en TTS & CEE, 1987).
Por otra parte, en el contexto europeo, es indispensable cumplir con el requisito del
multilingüismo a fin de permitir un avance equilibrado de las aplicaciones tecnológicas
y los productos comerciales que de ellas se derivan en todos los países de la Comunidad
(Hearn, 1992). Los diversos programas de apoyo a la investigación y desarrollo de la CEE
especialmente ESPRIT y últimamente LRE han contribuido a la coordinación
entre grupos de países diferentes y han llevado a una serie de iniciativas en el campo de
la constitución de corpora tanto orales como escritos con criterios estandarizados.
Finalmente, la cooperación entre las organizaciones comunitarias y los organismos
equivalentes en otros continentes en el campo de la constitución de corpora empieza ya a
perfilarse (véanse, por ejemplo, las propuestas presentadas en Castagneri, G. (ed.),
1991).
Sin embargo, la lengua española ha participado de manera relativamente reducida de esta
tendencia, y muy especialmente en lo que se refiere a los corpora orales. Si bien algunos
centros han constituido sus propias bases de datos para aplicaciones específicas al
reconocimiento, aún estamos lejos de disponer de un corpus de la lengua oral para el
español que permita, tanto la investigación básica en fonética y fonología como el
desarrollo y la evaluación de sistemas de tecnología de la voz. Más adelante haremos
referencia a un proyecto actualmente en desarrollo, que constituye un paso importante en
esta dirección.
1. 2. Utilidad de los corpora orales
En este apartado, presentaremos tres de los principales ámbitos de aplicación de los
corpora orales: la investigación aplicada a la tecnología del habla, la investigación
lingüística básica y la aplicación a la enseñanza de la lengua.
1.2.1. Desarrollo de la tecnología del habla
Hemos mencionado ya que una de las primeras aplicaciones que llevaron al surgimiento de
bases de datos y corpora fue el entrenamiento y la evaluación de sistemas de
reconocimiento de habla. Sin embargo, su utilidad en este ámbito se ha ampliado a la
obtención de modelos estadísticos de la lengua que permiten mejorar la eficacia de
sistemas de conversión de habla a texto, introduciendo la probabilidad de transición
entre palabras.
También para la síntesis es útil disponer de corpora orales. En primer lugar, permiten
obtener información acústica sobre la variabilidad de las unidades utilizadas.
Igualmente es posible describir y modelar las variaciones prosódicas ligadas a la
modalidad y a la estructura sintáctica que se producen en la lectura de un texto.
Finalmente, al igual que en el reconocimiento, los corpora orales permiten desarrollar
modelos lingüísticos útiles para tareas como el análisis sintáctico, del cual depende
buena parte de la calidad de la prosodia.
En tercer lugar, las aplicaciones que implican el diálogo persona-máquina se benefician
igualmente del análisis de corpus recogidos sea durante la interacción directa entre el
usuario y el sistema, sea mediante la interacción simulada (paradigma del Mago de Oz).
1.2.2. Descripción fonético y fonología del lenguaje
No parece necesario justificar que la descripción fonética y fonológica del español
debe beneficiarse de un corpus oral diseñado, recogido y estructurado atendiendo a la
variedad de realizaciones fonéticas presentes en la lengua, tanto en el nivel segmental
como en el suprasegmental. Aunque los aspectos básicos de la fonética del español son
bien conocidos, la descripción acústica detallada no es una tarea totalmente completa,
especialmente si se considera la variación ligada a las diferencias geográficas,
sociales y estilísticas de todo el ámbito de habla hispana.
1.2.3. Materiales de apoyo a la enseñanza de la lengua
Los materiales recopilados en un corpus extenso y con una amplia cobertura dialectal,
sociolectal y estilística pueden ser utilizados de forma provechosa en la preparación de
herramientas didácticas, tanto en el campo de la enseñanza de la lengua materna como en
el del español como lengua extranjera. Permiten, por una parte, presentar una panorámica
amplia de la variedad lingüística que queda a menudo fuera del alcance del profesor; por
otra, ofrecen la posibilidad de integrarlos en métodos multimedia como los basados en CD
o en CD-ROM. |
 |
2. Tipología de los corpora
Antes de presentar nuestra propuesta, parece necesario revisar, aunque de modo sucinto,
los principales tipos de corpora orales o relacionados con los niveles fonético y
fonológico de la lengua que se han desarrollado hasta el momento. Como se indica
más adelante, esta revisión debería hacerse de modo exhaustivo como paso previo al
diseño del proyecto que proponemos. Sin embargo, esta breve descripción puede ser útil
para definir con mayor precisión el objetivo del trabajo.
Distinguiremos entre tres tipos de corpora: los inventarios fonéticos y fonológicos
desarrollados para el estudio de los universales lingüísticos, los corpora especialmente
diseñados para la descripción fonética y fonológica de la lengua y aquellos que se
orientan hacia las aplicaciones y productos en el ámbito de la tecnología de la voz.
2.1. Inventarios para el estudio de los universales fonéticos y fonológicos
Una de las posibles maneras de abordar el estudio de los universales lingüísticos es la
constitución de bases de datos que describan las diversas lenguas del mundo. Esta tarea
se ha llevado a cabo desde un punto de vista fonológico en, al menos, dos proyectos bien
conocidos: el Stanford Phonology Archive (SPA; Greenberg (ed.), 1978) y el UPSID (UCLA
Phonological Segment Inventory Database; Maddieson, 1984). Sin embargo, se trata de
inventarios basados exclusivamente en descripciones publicadas de sistemas fonológicos
que no recogen realizaciones orales. Por este motivo, y pese a su interés intrínseco
para la teoría fonética, no entran en nuestro campo de interés.
2.2. Corpora para la descripción fonética
Otros corpora diseñados para la descripción fonética de las lenguas incluyen, en
cambio, materiales orales grabados que ilustran tanto los principales contrastes
fonológicos segmentales y las diversas realizaciones fonéticas como aspectos propios del
habla obtenida mediante técnicas que tratan de conseguir la mayor espontaneidad posible
por parte del locutor, de modo que se reflejen diversos estilos.
Cabe distinguir aquí entre los que tienen como objetivo la comparación entre lenguas (el
mejor ejemplo sería el proyecto IRIS (Immigrant Voices in Swedish - Phonetic Models;
Engstrand, 1987) o los que se proponen la descripción fonética de una única lengua (por
ejemplo BDSONS para el francés, descrita en Carré 1991, la base de datos del sueco
elaborada por Carlson et al., 1990, o el proyecto de la base de datos nacional del
inglés australiano de Millar, 1989). Entre estas últimas, cabe mencionar para el
español la propuesta de Cid y Fernández-Corugedo (1991), basada en el corpus del inglés
conocido como IBM Lancaster Corpus of Spoken English.
No trataremos aquí, por los motivos que se exponen más adelante, las propuestas de
estudio de la lengua oral basadas en transcripciones ortográficas de grabaciones sin que
se recoja la señal sonora en el corpus (véase, también para el español, Marcos Marín,
1991).
2.3. Corpora para aplicaciones tecnologías
En tercer lugar, cabe mencionar los corpora diseñados para aplicaciones tecnológicas,
especialmente en el campo del reconocimiento del habla. Su contenido fonético suele
basarse en palabras aisladas o en frases fonéticamente equilibradas, aunque cada vez es
más importante la tendencia a incluir textos, como sucede en el caso del corpus francés
BREF (Lamel et al., 1991) o del Wall Street Journal Continuous Speech
Recognition Corpus (WSJ-CSR, Paul y Baker, 1992) orientado hacia el
reconocimiento del habla continua. Es paradigmática en este campo la base de datos
conocida como TIMIT (Zue et al, 1990), en la que se recogen más de 2.340 frases
pronunciadas por 630 locutores.
Frente a estos corpora orientados hacia el desarrollo del reconocimiento y, en muchos
casos, la síntesis del habla, en sus aspectos más genéricos, existen proyectos en los
que los datos se refieren a una aplicación concreta. Entre ellos destaca el Air
Traffic Information Systems Corpora (ATIS, Zue et al., 1991), cuyo objetivo
es desarrollar un sistema para la reserva de vuelos; por este motivo, en él se recogen
preguntas espontáneas producidas por locutores en interacción con un sistema simulado y
preparado para llevar a cabo esta tarea.
El proyecto que se presenta a continuación recoge aspectos de los dos últimos tipos de
corpora expuestos. Por una parte, pretende servir como herramienta de estudio en la
descripción fonética y fonológica del español; por otra, quiere también ser útil en
la puesta a punto de sistemas de síntesis y de reconocimiento del habla en esta lengua. |
 |
3. La constitución de un corpus oral
La constitución de un corpus oral como los que acabamos de describir conlleva una serie
de tareas que se presentan esquemáticamente a continuación (Dolmazon, 1991; Goldsmith y
Fuller, 1991). En la planificación y la realización de cada una de ellas es preciso
tomar decisiones sobre el tipo de información que debe recogerse, el grado de
variabilidad que pretende cubrirse, el modo de obtención de los datos, su nivel de
descripción, y el soporte para el almacenamiento y la difusión, por poner algunos
ejemplos. En este punto, es esencial considerar la experiencia de un proyecto en el que
diversos países europeos han conseguido unificar sus protocolos y métodos para la
realización de corpora orales en el marco del programa ESPRIT. Nos referimos al proyecto
SAM 2589 (Speech Assessment Metho, que ha dedicado parte de sus recursos a la
definición de criterios estándar en los aspectos anteriormente mencionados. Es nuestra
opinión que cualquier iniciativa en el terreno de los corpora orales no puede en absoluto
prescindir de los criterios de este consorcio.
La figura 1 sintetiza las etapas a
las que hacemos referencia. En la parte izquierda de la figura se esquematizan las
principales fases en la preparación de un corpus oral. En la parte derecha se mencionan
aquellas herramientas desarrolladas por el proyecto SAM y los estándares adoptados por
este grupo. La descripción de cada una de las fases se encuentra detallada en la
propuesta que se presenta seguidamente. |
 |
4. Características del corpus propuesto
Tal como se ha señalado anteriormente, un corpus oral del español debiera cumplir una
doble función:
1) Servir a la investigación
básica en la descripción de la lengua.
2) Prestar servicio en aplicaciones tecnológicas concretas.
Esto supone que, dejando aparte las cuestiones de
grabación, almacenamiento y formato que deben tener los datos registrados, hay que
prestar atención extrema, lógicamente, a los materiales que constituyen dicha base y a
los factores de variación contemplados en la elaboración de la misma. Así, en la
definición del proyecto habrá que tomar en cuenta los aspectos que se discuten a
continuación (Llisterri y Poch, 199l).
4.1. Locutores
Con respecto a las fuentes de variación que afectan a los materiales que se quiera
grabar, el control de la selección de locutores es esencial, puesto que las
características intrínsecas de los mismos así como sus características extrínsecas
afectan directamente al material que constituye propiamente el corpus.
4.1.1. Variaciones intrínsecas
En el capítulo de las características intrínsecas, prescindiendo del hecho de que las
dimensiones de las cuerdas vocales y del tracto vocal de cada individuo son distintas y,
ello provoca, por tanto, variaciones en las características acústicas de los sonidos,
dos son los factores que se deben tener en cuenta en la elaboración del corpus: sexo y
edad.
Sexo: Es bien sabido que los documentos de análisis acústico de la voz de hombre
y de la voz de mujer revelan importantes diferencias en la realización de los sonidos del
habla por parte de ambas clases de individuos. Un corpus representativo del español debe
incluir ambos tipos de locutores, aunque hay que determinar cuántos y combinar, además,
estos aspectos con las variaciones extrínsecas que afectan a los locutores.
Edad: Por otra parte, las variaciones que se producen en la voz humana por
influencia de la edad constituyen también un fenómeno ampliamente estudiado. Es de sobra
conocido el hecho de que, durante la adolescencia, y paralelamente al desarrollo de
procesos hormonales que afectan al desarrollo sexual, la voz se modifica atravesando un
período relativamente largo de inestabilidad. De igual modo, paralelamente a la
menopausia y la andropausia, la voz pasa de nuevo por un período de modificaciones e
inestabilidad. Así, lo más aconsejable para el proyecto de base de datos, parece ser la
definición de una «franja de edad» ideal en la que estarían comprendidos los locutores
seleccionados para la grabación del material de la misma.
4.1.2. Variaciones extrínsecas
Las variaciones extrínsecas afectan especialmente a los aspectos dialectales y
sociolectales: la determinación del sexo y la edad de los locutores no dice nada respecto
a la zona geográfica de donde proceden ni respecto al sociolecto que normalmente hablan.
Por lo tanto habría que prestar también especial atención a estos factores en la etapa
de selección de los locutores.
Variedad dialectal: La variedad dialectal del español es enorme y ello debe quedar
reflejado en un corpus representativo de la lengua. Ahora bien, es difícil decidir cómo
debe recogerse la enorme riqueza de la lengua y creemos que ésta es más bien una
cuestión abierta a los dialectólogos, pues se trata de establecer, en este punto, un
compromiso entre cuáles son las variantes del español que tienen entidad suficiente para
constituir una «subunidad» del corpus y cuáles serían las dimensiones del producto
final, puesto que no debe perderse de vista que un material de este tipo, como ya se ha
señalado, debe tener unas dimensiones que lo hagan manejable con una relativa facilidad.
Variedad sociolectal: La cuestión de la variedad sociolectal está también
estrechamente relacionada con la dialectal, pues ambas, en realidad, se entrecruzan y se
podría afirmar que cada realización es producto de la variedad geográfica, de la
variedad social y de otros aspectos que comentaremos después con mayor detalle. Así, en
íntima relación con la variedad dialectal, el problema de la variación social debiera
quedar como cuestión abierta para los sociolingüistas especialistas del tema.
4.2. Material lingüístico
Parece obvio que en un corpus representativo del español deben ejemplificarse los
elementos segmentales y suprasegmentales de la lengua, aunque hay que tener presente que
los sonidos y la prosodia conllevan problemas de diferente orden.
Por supuesto, los factores que se mencionan en este apartado deben combinarse con los
expuestos en el apartado 4.1, es decir, sexo de los locutores y variación dialectal y
social.
4.2.1. Contenido fonético
Con vistas a conseguir los objetivos que acabamos de presentar, pensamos que en nuestra
base de datos debiera aparecer, en forma de listas de palabras, el inventario de sonidos y
combinaciones posibles, de tal suerte que dichas listas permitieran ilustrar los problemas
deseados.
Probablemente habría que incluir también
algunas combinaciones de palabras representativas de combinaciones de sonidos que sólo se
dan en el dominio de la fonética sintáctica.
El inventario de sonidos del español y las distintas posibilidades combinatorias de estas
unidades es de sobra conocido, puesto que otros trabajos ya publicados y otros proyectos
de investigación se han ocupado anteriormente de estos problemas, de forma que no parece
que plantee dudas el hecho de que en el corpus debe aparecer este inventario y deben
recogerse también estas posibilidades combinatorias.
Para que el corpus siga siendo representativo de la lengua debe considerarse también otro
aspecto: la frecuencia de aparición de cada uno de los sonidos y de cada posibilidad de
combinación de los mismos.
Los estudios publicados sobre frecuencia de aparición de unidades del español se basan
en criterios fonológicos (entre los más recientes véanse, por ejemplo, Quilis y
Esgueva, 1980; Rojo,1991). Un corpus oral exige recoger unidades fonéticas y no
fonológicas.
Esto supone establecer en primer lugar el inventario de sonidos y combinaciones de sonidos
que aparecen en la lengua.
Para el proyecto Albayzín (Casacuberta et al., 1992) se ha preparado un corpus
fonético que ha conllevado un estudio estadístico de aparición de sonidos y de
combinaciones de sonidos. Creemos que es fundamental conservar estas proporciones en el
corpus para no desvirtuar la realidad de la lengua.
La cuestión de los elementos suprasegmentales presenta, para el español, especiales
dificultades, la mayor de las cuales es la falta de descripciones adecuadas de los
fenómenos que se debieran reflejar. Si bien todos somos conscientes de la gran diversidad
de entonaciones que presentan las distintas variedades de la lengua, lo cierto es que,
aparte ciertas observaciones de tipo general y del manual de entonación literaria de
Navarro Tomás (1945), no contamos, como ocurre con los sonidos, con descripciones e
inventarios que caractericen las diferentes posibilidades expresivas del español. Por
tanto, parece imprescindible realizar, en primer lugar, una tarea previa de estudio y
caracterización de estos fenómenos antes de decidir cómo integrarlos en un corpus de la
lengua.
4.2.2. Variedad estilística
Un aspecto que hemos mencionado de pasada en el apartado anterior, pero que consideramos
esencial en el momento de definir los materiales que debieran integrar el corpus, es la
cuestión de los estilos de habla. Recientes estudios realizados sobre varias lenguas,
entre ellas el español, han puesto de manifiesto que la realización de los sonidos
varía considerablemente en función de los estilos de habla: los sonidos analizados a
partir de grabaciones de listas de palabras o de palabras contenidas en frase-marco
presentan unas características considerablemente distintas de las que presentan los
sonidos analizados a partir de grabaciones de una conversación semi-dirigida, por
ejemplo, diferencias a las que no son en absoluto ajenos los temas que se tratan en las
diversas conversaciones. Las aplicaciones tecnológicas se resienten de estas diferencias
pues si los modelos que sirven de punto de referencia a sistemas de conversión de texto a
voz o a sistemas de reconocimiento automático especialmente el grado de eficacia
alcanzado está lejos de responder a las expectativas necesarias para obtener una buena
rentabilidad de los productos. Por otra parte, creemos que dicha variación estilística
tiene también una importancia crucial en el terreno de la descripción de la lengua y en
el ámbito de la teoría fonética.
La cuestión pendiente ahora mismo es la de la caracterización y clasificación de los
distintos estilos ya que se trata de un problema todavía no resuelto que es, en la
práctica, una cuestión interdisciplinar que afecta no sólo a la fonética sino también
a otras disciplinas como la pragmática o la sociolingüística; de ahí que
mencionáramos ya anteriormente esta cuestión cuando nos referíamos a la variación
«social» del español. Lo cierto es que aun cuando la casuística de los estilos contara
ya con algunos modelos elaborados en el momento de decidir qué estilos habría que
recoger en el corpus sería necesario realizar una selección tendente a la
simplificación. Una forma de recoger las variaciones estilísticas más importantes
podría ser incluir en el corpus, además de las listas de palabras, combinaciones de
palabras. |
 |
4.3. Grabación y almacenamiento
4.3.1. La recogida de datos
La recogida de los datos presenta ciertos inconvenientes cuando se aspira a cubrir una
gran variedad de realizaciones fonéticas propias de diversas zonas dialectales del
dominio lingüístico. Por una parte, los hablantes de determinadas variedades pueden ser
fácilmente accesibles para su grabación en estudio; en cambio, en el caso de ciertos
dialectos o sociolectos, puede ser difícil conseguir una grabación que reúna los
requisitos técnicos necesarios para la posterior constitución de un corpus.
4.3.2. La grabación
Los datos de un corpus oral deben recogerse, idealmente, en una cámara anecoica y con
procedimientos digitales. El estándar de SAM describe el entorno acústico adecuado
(cámara anecoica), el tipo de micrófono (ADG C-414) y su colocación, la placa de
adquisición de datos (OROS AU22), la estación de trabajo (SESAM), el sistema de
presentación de los datos al locutor y el desarrollo de la sesión de grabación
(EUROPEC), el modo de obtener una copia de seguridad (PCM o DAT) y el procesamiento de la
señal necesarios para obtener grabaciones comparables entre diversas lenguas y diversos
hablantes recogidas por equipos de trabajo diferentes (SAM, 1991). No es preciso mencionar
que este aspecto requiere la colaboración de especialistas en procesamiento digital de
señales.
4.4. Tratamiento de los datos
Una vez recogidos, los datos de un corpus deben ser procesados en diversos aspectos.
Centramos aquí el comentario en los más relevantes para la información fonética que
después deberá extraerse del material.
4.4.1. Transcripción
Aunque en principio puede pensarse en tres niveles distintos de transcripción
ortográfica, fonética y acústica, parece que es realista proponerse llevar
a cabo la transcripción ortográfica y la fonética, dejando que sea el propio
investigador que utiliza el corpus quien establezca la aparición de determinadas
características acústicas en relación con sus criterios de segmentación. Sin embargo,
es esencial en este punto que tanto la transcripción ortográfica como la fonética
estén alineadas con la señal sonora.
Por otra parte, se plantea el problema de la selección de un alfabeto fonético aceptable
en los sistemas informáticos y que permita abordar con cierto detalle la transcripción
del español. Wells (1989) describe el SAM Phonetic Alphabet (SAMPA), adoptado como
estándar en el proyecto al que va hemos hecho referencia. Sin embargo, es preciso un
estudio previo que permita determinar su utilidad en la transcripción de múltiples
variantes de una única lengua.
4.4.2. Anotación
Es posible establecer también otro nivel de descripción que incluya información sobre
características morfológicas o sintácticas de los enunciados recogidos. Estas últimas
son especialmente importantes en lo que se refiere a la utilización del corpus para
estudios prosódicos, y parece necesario incluirlas, al menos en las partes del corpus
diseñadas para el estudio de1a entonación.
4.4.3. Etiquetado
Finalmente, un corpus debe contener ficheros con información completa sobre los
locutores, el contenido lingüístico, las condiciones de grabación o la situación de
los datos, el medio de difusión. SAM ha definido también estos aspectos (SAM, 1991).
4.5. Organización de los datos
Los datos recogidos, para ser incluidos en el corpus, deben estar estrictamente
estructurados, de modo que sea posible su recuperación con criterios diversos. Por este
motivo es necesario establecer una estructura de la base de datos que comprenda tanto el
formato de los ficheros, el de las cabeceras o los tipos de etiqueta utilizados. En estos
aspectos, el programa EUROPEC (SAM, 1991) permite facilitar relativamente la tarea y
permite también disponer de formatos de ficheros compatibles con otros sistemas. El
acceso a los datos requiere también el diseño de un procedimiento de consulta que
interrelacione ficheros diferentes, de modo que el investigador pueda acceder a la
información utilizando diversos parámetros ( por ejemplo la procedencia de los hablantes,
la aparición de una variante fonética, el contacto entre dos sonidos, etc.). En este
punto, es del todo necesaria la colaboración de especialistas en programación.
4.6. Difusión
Los procedimientos más utilizados actualmente para la difusión de corpora son el disco
compacto (CD) o el compact disc read only memory (CD-ROM). Tanto el proyecto
americano DARPA (Garofolo y Pallett, 1989) como el europeo SAM utilizan esta última
alternativa. El primero ha puesto ya en circulación CD-ROMs con algunos de los corpora
que se han mencionado anteriormente: TIMIT (1990) y ATIS (1990) entre otros; en lo que se
refiere al segundo, existe también un CD-ROM con EUROM.0, la primera base de datos
multilingüe que surgió del proyecto. Parece pues que éste debe ser el medio de
difusión del corpus que aquí se propone. |
 |
5. Planificación del proyecto
En este último apartado se describe una posible planificación de las tareas necesarias
para llevar a cabo el corpus propuesto, y se realiza una estimación de los recursos
necesarios partiendo de una primera aproximación al diseño final del corpus.
5.1. Tareas
Las tareas necesarias para realizar el corpus propuesto se resumen a continuación. El
contenido de cada una de ellas ha quedado ya expuesto en los apartados anteriores.
5.1.1. Revisión bibliográfica
a) Revisión y evaluación de
bases de datos con objetivos similares o comparables
b) Revisión bibliográfica sobre la variación fonética en español
5.1.2. Diseño
a) Diseño de los diferentes
corpora
b) Definición de las características (edad, sexo, dialecto y sociolecto) y
selección de los locutores
c) Establecimiento del procedimiento estándar de grabación
d) Fijación de los estándares de transcripción, anotación y etiquetado
e) Diseño de la estructura del corpus
f) Elección del soporte para su difusión
5.1.3. Realización de las
grabaciones
5.1.4. Preparación y formateado del
material
5.1.5. Transcripción, anotación y
etiquetado
5.1.6. Organización del corpus
5.1.7. Distribución
a) Producción del corpus en
el soporte elegido
b) Determinación de las condiciones de distribución
5.1.8. Mantenimiento y
actualización |
 |
5.2. Recursos y organización temporal
A fin de establecer una primera estimación de los recursos humanos y de la extensión en
el tiempo del proyecto, se ofrece a continuación una primera estimación de algunos
aspectos del corpus. Debe señalarse que se trata aquí de lo que nos parecen unos
mínimos necesarios, que pueden ampliarse en fases sucesivas. |
|
5.2.1. Propuesta de locutores y materiales
Locutores: Se proponen 200 locutores (20 variantes dialectales x 10 locutores por
variedad).
Materiales:
a) 400 palabras (40 unidades
fonéticas x 10 palabras representando cada unidad)
b) 200 palabras por frase
c) 250 frases para el estudio prosódico (50 estructuras sintácticas x 5 frases cada
una)
d) 1 texto fonéticamente equilibrado (40 unidades fonéticas, x 10 muestras como
mínimo de cada una más una ejemplificación de las estructuras prosódicas; 5' de
duración
e) 1 entrevista dirigida (40 unidades fonéticas x 10 muestras como mínimo de cada
una más una ejemplificación de las estructuras prosódicas; 30' de duración)
5.2.2. Organización temporal y
recursos humanos
En función de la propuesta anterior, se ofrece una estimación del tiempo requerido para
cada fase y del número de investigadores dedicados a ella.
a) Revisión bibliográfica:
2 investigadores durante 4 meses
b) Diseño: 6 investigadores durante 12 meses
c) Grabación: 2 investigadores durante 18 meses
d) Transcripción, etiquetado y anotación: 10 investigadores durante 18 meses
e) Organización del corpus: 2 investigadores durante 6 meses
f) Producción de CD-ROM
En total, tal como se describe en el
punto anterior, el proyecto puede implicar a 22 investigadores o colaboradores durante un
período aproximado de 36 meses. En conjunto, esta estimación representa unos 7 hombres
año.
5.2.3. Reutilización de recursos
Para acabar, señalaremos que existe en la actualidad un proyecto, financiado por la CICYT
(TIC91-1488-C06), en el que seis grupos de investigación españoles colaboran en la
elaboración de tres bases de datos para el reconocimiento de habla. Conocido como
Albayzín (Casacuberta et al, 1992), se propone la elaboración de un corpus
fonético, un corpus de aplicación para la consulta a bases de datos y un corpus para el
reconocimiento en ambientes ruidosos. A lo largo de 1992 se han desarrollado una serie de
herramientas por ejemplo para el equilibrado fonético de corpus o para la
selección y etiquetado de frases en el corpus de aplicación que sin duda van a ser
de gran utilidad en futuros proyectos de corpora para el español. |
 |
ReferenciasCARLSON, R.; GRANSTRÖM, B., and NORD, L. (1990): «The
KTH speech database», Speech Communication, 9,4:375-380.
CARRÉ, R. (1991): «Los bancos de sonidos», «Los bancos de sonidos», in VIDAL BENEYTO
J. (Dir.): Las industrias de la lengua. Trad. de M. Alvar et al. Salamanca/
Madrid: Fundación Sánchez Ruipérez/ Pirámide (Biblioteca del Libro, 5), págs.
108-118.
CASACUBIERTA, F.; GARCÍA, R.; LLISTERRRI, J.; NADEU, C.; PARDO J.M., y RUBIO, A. (1992):
«Desarrollo de corpus para investigación en tecnologías del habla (Albayzin)», Procesamiento
del Lenguaje Natural, «Boletín» 12: 35-42.
CASTAGNERI, G. (ed.) (1991): Workshop on International Cooperation and Standardization
of Speech Databases and Speech I/O Assessment Methods, Chiavari (Italy), 26-28
September 1991. Organised by CSELT in cooperation with CEC DGXIII, ESCA, ESPRIT Project
2589 SAM.
CID, M.,and FERNÁNDEZ CORUGEDO, S.G. (1991):
«The construction of a corpus of spoken Spanish: Phonetic and phonological pararneters»,
in Proceedings of the ESCA Workshop 'Phonetics and Phonology of Speaking Styles:
Reduction and Elaboration in Speech Communication'. Barcelona, Catalonia, Spain, 30
September-2 October 1991, págs. 17-1, 17-5.
DOLMANZON, J.M. (1991): «Towards International Vocal Database Standards», in CASTAGNERI
(Ed.).
ENGSTRAND, O. (1987): «The IRIS speech data base - a status report», in ENGSTRAND, O.
(Ed.): Papers from the Swedish Phonetics Conference Held in Uppsala October 17-18,1986
(RULL, Reports from the Uppsala University Department of Linguistics, 17): 121-126.
GARAFOLO, J.S., and PALLETT, D.S. (1989): «Use of CD-Rom for speech database storage and
exchange», in TUBACH, J.P., and MARIANI, J.J. (Eds.): Eurospeech 89. European
Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh:
CEP Consultants Ltd., págs. 309-312.
GOLDSMITH, M. and FULLER, H. (1991): «Speech Database Construction», in CASTAGNERI
(Ed.).
GREENBERG, J. (Ed.) (1978): Universals of Human Language. Vol 2: Phonology. Stanford:
Stanford University Press.
HEARN, P. (1992): «Working Panel 5A Report: Linguistic Services (Corpora & Lexica)»,
in CEC (1992). Language and Technology. Proposals to the Commission of the European
Communities, DGXIII by Users, Industry and Researchers. June, 1992.
LAMEL, L.F.; GAUVAIN, J.-L. and ESKENAZI, M. (1991): «BREF, a Large Vocabulary Spoken
Corpus for French», in Eurospeech 91. 2nd European Conference on Speech Communication
and Technology. Genova, Italy, 24-26 September 1991, vol 2, págs. 505-508.
LLISTERRI, J. and POCH, D. (1991): «Phonetic criteria for the development of a speech
database in Spanish (the Albayzin Project)», in CASTAGNERI (Ed.) (1991).
MADDIESON, I. (1984): Patterns of Sounds. Cambridge: Cambridge University Press.
MARCOS MARÍN, F. (1991): «Archivos digitales», in Simposio de la Lengua Española,
Ciencia y Tecnología. Barcelona, 7-11 de octubre, 1992, 42 págs.
MILLAR, J.B. (1989): «Design and use of a national speech database», in Proceedings
of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech
Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989, págs. 2.5.1-2.5.4.
NAVARRO TOMAS, T. (1945): Manual de entonación española. New York: Hispanic
Institute. Cuarta edici6n: Madrid: Guadarrama (Punto Omega, 175), 1974.
PAUL, D.B., and BAKER, J.M. (1992): «The design for the Wall Street Journal -based CRS
Corpus», Proceedings of the Fifth DARPA Workshop on Speech and Natural Language.
QUILIS, A., and ESGUEVA, M. (1980): «Frecuencia de fonemas en el español hablado», Lingüística
Española Actual, 2,1: 1-25.
ROJO, G. (1991): «Frecuencia de fonemas en español actual», in BREA, M., and FERNÁNDEZ
REI, F. (Coord.): Homenaxe ó profesor Constantino García. Santiago de Compostela:
Universidade. Servicio de Publicación e Intercambio Científico, págs. 451-467.
SAM (1991): Speech Acquisition and Annotation Protocols and Index of Mnemonics. Documentn.»
SAM-UCL-018. Second Draft, 20 February 1991.
TTS & CEC (1987): Proceedings from Conference and Following Workshop on Speech
Technology. Status of Technology and Programmes Worldwide. Held at Jutland Telephone,
Arhus May 20, 1987.
WELLS, J.C. (1989): «Computer-coded phonemic notation of individual languages of the
European Community», Journal of the International Phonetic Association», 19,1:
31-54.
ZUE, V.; GLASS, J.; GOODINE, D.; HIRSCHMAN, L.; LEUNG, H.; PHILLIPS, M.; POLIFRONI, J. and
SENEFF, S. (1991): «The MIT ATIS system: Preliminary development, spontaneous speech data
collection and performance evaluation» in Eurospeech 91. 2nd European Conference on
Speech Communication and Technology. Genova, Italy, 24-26 September 1991, vol 2,
págs. 537-540.
ZUE, V.; SENEFF, S. and GLASS, J. (1990): «Speech database development at MIT: TIMIT and
beyond», Speech Communication, 9,4:351-356. |
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|