Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



ANÁLISIS Y SÍNTESIS DE LA SEÑAL ACÚSTICA

Congreso de Sevilla
 

Mesa redonda
Francisco Casacuberta Nolla. Universidad Politécnica de Valencia


El Reconocimiento Automático del Habla (RAH) es una parte de la Inteligencia Artificial en la que muchas disciplinas, como la Teoría de la Señal o la Fonética, por citar sólo dos de ellas, juegan papeles importantes. El objetivo último del RAH es el permitir la comunicación hablada entre seres humanos y computadores.

El problema que se plantea en un sistema de RAH es el de hacer cooperar un conjunto de informaciones en presencia de ambigüedades, incertidumbres y errores inevitables para llegar a obtener una interpretación aceptable del mensaje acústico recibido (Casacuberta y Vidal, 1987a y 1987b).

El conjunto de informaciones procede de diversas fuentes de conocimiento (figura l). Las fuentes acústica, fonética, fonológica y posiblemente léxica, con los correspondientes procedimientos interpretativos, dan lugar a un módulo conocido como decodificador acústico-fonético (o en ocasiones a un decodificador léxico). Las fuentes de conocimiento sintáctico, semántico y pragmático, que son diseñadas para una tarea concreta, dan lugar al modelo del lenguaje del sistema (Casacuberta y Vidal, 1987b).

Un aspecto crucial en el diseño de un sistema de RAH es la elección del tipo de aprendizaje que se utilice para construir las mencionadas fuentes de conocimiento. Básicamente, existen dos tipos: el Aprendizaje Deductivo (AD) y el Aprendizaje Inductivo (AI) (Casacuberta, 1991).

Las técnicas de AD se basan en la transferencia de los conocimientos que un experto humano posee a un sistema informático. Un ejemplo paradigmático de las metodologías que utilizan tales técnicas lo constituyen los Sistemas Basados en el Conocimiento y, en particular, los Sistemas Expertos (Haton, 1985). Por otra parte, las técnicas de AI se basan en que el sistema pueda, automáticamente, conseguir los conocimientos necesarios a partir de ejemplos reales sobre la tarea que se desea modelizar. En este segundo tipo, los ejemplos los constituyen aquellas partes de los sistemas basados en los modelos ocultos de Markov o en las redes neuronales artificiales que son configuradas automáticamente a partir de muestras de aprendizaje (Rabiner, 1988) (Lippman, 1989) (Casacuberta, 1991).

Estos dos últimos ejemplos son, en la actualidad, la base de las metodologías que están teniendo un mayor éxito en RAH. En la práctica, no existen metodologías que estén basadas únicamente en el AI, de hecho, se asume un compromiso deductivo-inductivo en el que los aspectos generales se suministran deductivamente y la caracterización de la variabilidad inductivamente. Es en la parte deductiva donde los expertos en Fonética, Sintaxis, Semántica, etc., pueden incidir de una manera concreta. A continuación se comenta brevemente en qué partes de un sistema de RAH estos conocimientos expertos pueden tener especial importancia.

La entrada al decodificador acústico-fonético es la señal vocal convenientemente representada; para ello, es necesario que ésta sufra un preproceso de parametrización (figura l). En esta etapa previa es necesario asumir algún modelo físico. Actualmente, los modelos auditivos son los más utilizados, mientras que los modelos basados en la producción de la voz están poco desarrollados. En particular, se cree que los modelos articulatorios podrían ser más convenientes para representar a la señal vocal. Por otra parte, los modelos actualmente utilizados son básicamente estáticos, donde se asume que la señal vocal es cuasi-estacionaria en intervalos cortos de tiempo. Un estudio del comportamiento dinámico de la voz podría suministrar mayor información a un sistema de RAH. Finalmente, en esta etapa previa, otro tema poco estudiado es el del habla en ambientes adversos. En particular, una completa caracterización del efecto Lombard sería de gran interés en el diseño de ciertos sistemas que deben funcionar en un ambiente de gran ruido (Mariani, 1989).


Subir


En el diseño de un decodificador acústico-fonético aparecen diversos problemas para los cuales no se han aportado soluciones satisfactorias. En primer lugar, habría que citar el problema de la modelización subléxica; en particular, la elección de las unidades subléxicas adecuadas. Actualmente, ciertas unidades de tipo «fonético» son las más utilizadas (Schwartz, 1988), aunque las sílabas y semisílabas también ofrecen soluciones atractivas. En principio parece necesario que las unidades subléxicas deben estar relacionadas con unidades lingüísticas con el objeto de caracterizar el vocabulario de la aplicación concreta, y sin que se necesiten muestras de entrenamiento para todas las palabras que lo componen. Pero por otra parte es necesario relacionar dichas unidades con información acústica, que habrá que caracterizar estadísticamente. La Fonología puede aportar también información sobre las reglas que gobiernan las posibles secuencias de unidades subléxicas, lo que permitiría depurar algunos de los errores inevitables que produce el decodificador acústico-fonético. Finalmente, otros problemas con los que hay que enfrentarse en el diseño de un decodificador acústico-fonético y que son de difícil solución son el de la coarticulación y el de la modelización de ciertas palabras cortas que pueden cambiar el significado de una pronunciación.

En el diseño del modelo del lenguaje para una tarea concreta también aparecen problemas para los que no se les ha dado una solución totalmente satisfactoria. En primer lugar, está el problema de la representación de la Sintaxis y de la Semántica, así como el del correspondiente análisis. Actualmente, existe una fuerte tendencia a que ambas estén integradas. La razón de ello es que los sistemas de RAH se diseñan para tareas concretas, en las que se imponen fuertes restricciones sintácticas y semánticas, estando ambas muy relacionadas. Las principales soluciones que se están adoptando actualmente provienen de la teoría de los lenguajes formales y del proceso del lenguaje natural.

Finalmente, otros problemas complementarios a los anteriores, son la utilización de la prosodia y el del diálogo entre el sistema automático y el ser humano (Niemann et al., 1985).

Los sistemas actuales de RAH necesitan para su correcto funcionamiento grandes corpora de voz y de texto escrito para el aprendizaje y la evaluación de los correspondientes sistemas. La aportación de los expertos en Fonética, Sintaxis, etc. en el diseño de tales corpora es fundamental, en particular, para las transcripciones, segmentación y estudio de la representatividad del material que se debe adquirir (Casacuberta et al., 1991).

Finalmente, y a modo de conclusión, la contribución de los expertos en Fonética, Sintaxis, Semántica, etc. en la comprensión de los fenómenos que ocurren en el proceso de la comunicación oral y en el diseño de sistemas de RAH es importante para mejorar las prestaciones de los actuales sistemas de comunicación entre seres humanos y máquinas.


Subir

Bibliografía

CASACUBIERTA, F. Y VIDAL, E. (1987 a): Reconocimiento automático del habla, Marcombo.

CASACUBIERTA, F. Y VIDAL, E. (1987 b): «Reconocimiento automático del habla: Metodologías y arquitecturas». En Inteligencia artificial: Conceptos, métodos y aplicaciones, Marcombo.

CASACUBIERTA, F., GARCÍA, R., LLISTERRI, J., NADEU C., PARDO, J. M., RUBIO, A. (1991): Workshop on Intemational Cooperation and Standarization of Speech Databases and Specch I/O Assesment Methods. «Development of Spanish Corpora for Speech Research (ALBAYZIN)». Chiavari, 26-28 septiembre 1991. Actas.

CASACUBIERTA, F. (1991): «Aprendizaje automático en reconocimiento del habla». Actas del Simposium Nacional de Lengua, Ciencia y Tecnología. Barcelona, septiembre 1991.

HATON, J. P. (1985): «Knowledge-Based and Expert Systems in Automatic Speech Recognition». En New Systems and Architectures for Automatic Speech Recognition and Synthesis. R. DeMori y Ch. Y. Suen (eds.) NATO-ASI Series. Springer Verlag, págs. 249-270.

LIPPMAN, R. D. (1989): Review of Neural Networks for Speech Recognition. Neural Computation 1 (1). MIT Press, págs. 1-38.

MARIANI, J. (1989): «Recent Advances in Speech Processing». Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing - 1989, págs. 429-440.

NIEMANN, H. et al. (1985): «The Speech Understanding and Dialog Systems». En New Systems and Architectures for Automatic Speech Recognition and Synthesis. R. DeMori y Ch. Y. Suen eds. NATO-ASI Series. Springer Verlag, págs. 271-302.

RABINER, L. R. (1988): «Mathematical Foundations of Hidden Markov Models». En Recent Advances in Speech Understanding and Dialog Systems. Springer-Verlag. H. Nieman, M. Lang, G. Sagerer (eds.). Springer-Verlag, págs. 183-206.

SCHWARTZ, R. M. et al. (1988): «Acoustic-phonetic decoding of speech». En Recent Advances in Speech Understanding and Dialog Systems. Springer-Verlag, H. Nieman, M. Lang, G. Sagerer (eds.). Springer-Verlag.
 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.