|
|
Mesa redonda
Francisco Casacuberta Nolla. Universidad Politécnica de Valencia
|
|
El Reconocimiento Automático del Habla (RAH) es una parte de la Inteligencia Artificial
en la que muchas disciplinas, como la Teoría de la Señal o la Fonética, por citar sólo
dos de ellas, juegan papeles importantes. El objetivo último del RAH es el permitir la
comunicación hablada entre seres humanos y computadores.
El problema que se plantea en un sistema de RAH es el de hacer cooperar un conjunto de
informaciones en presencia de ambigüedades, incertidumbres y errores inevitables para
llegar a obtener una interpretación aceptable del mensaje acústico recibido (Casacuberta
y Vidal, 1987a y 1987b).
El conjunto de informaciones procede de diversas fuentes de conocimiento (figura l). Las fuentes acústica,
fonética, fonológica y posiblemente léxica, con los correspondientes procedimientos
interpretativos, dan lugar a un módulo conocido como decodificador acústico-fonético (o
en ocasiones a un decodificador léxico). Las fuentes de conocimiento sintáctico,
semántico y pragmático, que son diseñadas para una tarea concreta, dan lugar al modelo
del lenguaje del sistema (Casacuberta y Vidal, 1987b).
Un aspecto crucial en el diseño de un sistema de RAH es la elección del tipo de
aprendizaje que se utilice para construir las mencionadas fuentes de conocimiento.
Básicamente, existen dos tipos: el Aprendizaje Deductivo (AD) y el Aprendizaje Inductivo
(AI) (Casacuberta, 1991).
Las técnicas de AD se basan en la transferencia de los conocimientos que un experto
humano posee a un sistema informático. Un ejemplo paradigmático de las metodologías que
utilizan tales técnicas lo constituyen los Sistemas Basados en el Conocimiento y, en
particular, los Sistemas Expertos (Haton, 1985). Por otra parte, las técnicas de AI se
basan en que el sistema pueda, automáticamente, conseguir los conocimientos necesarios a
partir de ejemplos reales sobre la tarea que se desea modelizar. En este segundo tipo, los
ejemplos los constituyen aquellas partes de los sistemas basados en los modelos ocultos de
Markov o en las redes neuronales artificiales que son configuradas automáticamente a
partir de muestras de aprendizaje (Rabiner, 1988) (Lippman, 1989) (Casacuberta, 1991).
Estos dos últimos ejemplos son, en la actualidad, la base de las metodologías que están
teniendo un mayor éxito en RAH. En la práctica, no existen metodologías que estén
basadas únicamente en el AI, de hecho, se asume un compromiso deductivo-inductivo en el
que los aspectos generales se suministran deductivamente y la caracterización de la
variabilidad inductivamente. Es en la parte deductiva donde los expertos en Fonética,
Sintaxis, Semántica, etc., pueden incidir de una manera concreta. A continuación se
comenta brevemente en qué partes de un sistema de RAH estos conocimientos expertos pueden
tener especial importancia.
La entrada al decodificador acústico-fonético es la señal vocal convenientemente
representada; para ello, es necesario que ésta sufra un preproceso de parametrización (figura l). En esta etapa previa es
necesario asumir algún modelo físico. Actualmente, los modelos auditivos son los más
utilizados, mientras que los modelos basados en la producción de la voz están poco
desarrollados. En particular, se cree que los modelos articulatorios podrían ser más
convenientes para representar a la señal vocal. Por otra parte, los modelos actualmente
utilizados son básicamente estáticos, donde se asume que la señal vocal es
cuasi-estacionaria en intervalos cortos de tiempo. Un estudio del comportamiento dinámico
de la voz podría suministrar mayor información a un sistema de RAH. Finalmente, en esta
etapa previa, otro tema poco estudiado es el del habla en ambientes adversos. En
particular, una completa caracterización del efecto Lombard sería de gran interés en el
diseño de ciertos sistemas que deben funcionar en un ambiente de gran ruido (Mariani,
1989). |

|
En el diseño de un decodificador acústico-fonético aparecen diversos problemas para
los cuales no se han aportado soluciones satisfactorias. En primer lugar, habría que
citar el problema de la modelización subléxica; en particular, la elección de las
unidades subléxicas adecuadas. Actualmente, ciertas unidades de tipo «fonético» son
las más utilizadas (Schwartz, 1988), aunque las sílabas y semisílabas también ofrecen
soluciones atractivas. En principio parece necesario que las unidades subléxicas deben
estar relacionadas con unidades lingüísticas con el objeto de caracterizar el
vocabulario de la aplicación concreta, y sin que se necesiten muestras de entrenamiento
para todas las palabras que lo componen. Pero por otra parte es necesario relacionar
dichas unidades con información acústica, que habrá que caracterizar estadísticamente.
La Fonología puede aportar también información sobre las reglas que gobiernan las
posibles secuencias de unidades subléxicas, lo que permitiría depurar algunos de los
errores inevitables que produce el decodificador acústico-fonético. Finalmente, otros
problemas con los que hay que enfrentarse en el diseño de un decodificador
acústico-fonético y que son de difícil solución son el de la coarticulación y el de
la modelización de ciertas palabras cortas que pueden cambiar el significado de una
pronunciación.
En el diseño del modelo del lenguaje para una tarea concreta también aparecen problemas
para los que no se les ha dado una solución totalmente satisfactoria. En primer lugar,
está el problema de la representación de la Sintaxis y de la Semántica, así como el
del correspondiente análisis. Actualmente, existe una fuerte tendencia a que ambas estén
integradas. La razón de ello es que los sistemas de RAH se diseñan para tareas
concretas, en las que se imponen fuertes restricciones sintácticas y semánticas, estando
ambas muy relacionadas. Las principales soluciones que se están adoptando actualmente
provienen de la teoría de los lenguajes formales y del proceso del lenguaje natural.
Finalmente, otros problemas complementarios a los anteriores, son la utilización de la
prosodia y el del diálogo entre el sistema automático y el ser humano (Niemann et
al., 1985).
Los sistemas actuales de RAH necesitan para su correcto funcionamiento grandes corpora de
voz y de texto escrito para el aprendizaje y la evaluación de los correspondientes
sistemas. La aportación de los expertos en Fonética, Sintaxis, etc. en el diseño de
tales corpora es fundamental, en particular, para las transcripciones, segmentación y
estudio de la representatividad del material que se debe adquirir (Casacuberta et al.,
1991).
Finalmente, y a modo de conclusión, la contribución de los expertos en Fonética,
Sintaxis, Semántica, etc. en la comprensión de los fenómenos que ocurren en el proceso
de la comunicación oral y en el diseño de sistemas de RAH es importante para mejorar las
prestaciones de los actuales sistemas de comunicación entre seres humanos y máquinas.
|
 |
Bibliografía
CASACUBIERTA, F. Y VIDAL, E. (1987 a):
Reconocimiento automático del habla, Marcombo.
CASACUBIERTA, F. Y VIDAL, E. (1987 b): «Reconocimiento automático del habla:
Metodologías y arquitecturas». En Inteligencia artificial: Conceptos, métodos y
aplicaciones, Marcombo.
CASACUBIERTA, F., GARCÍA, R., LLISTERRI, J., NADEU C., PARDO, J. M., RUBIO, A. (1991):
Workshop on Intemational Cooperation and Standarization of Speech Databases and Specch I/O
Assesment Methods. «Development of Spanish Corpora for Speech Research (ALBAYZIN)».
Chiavari, 26-28 septiembre 1991. Actas.
CASACUBIERTA, F. (1991): «Aprendizaje automático en reconocimiento del habla». Actas
del Simposium Nacional de Lengua, Ciencia y Tecnología. Barcelona, septiembre 1991.
HATON, J. P. (1985): «Knowledge-Based and Expert Systems in Automatic Speech
Recognition». En New Systems and Architectures for Automatic Speech Recognition and
Synthesis. R. DeMori y Ch. Y. Suen (eds.) NATO-ASI Series. Springer Verlag, págs.
249-270.
LIPPMAN, R. D. (1989): Review of Neural Networks for Speech Recognition. Neural
Computation 1 (1). MIT Press, págs. 1-38.
MARIANI, J. (1989): «Recent Advances in Speech Processing». Proc. IEEE Int. Conf. on
Acoustic, Speech and Signal Processing - 1989, págs. 429-440.
NIEMANN, H. et al. (1985): «The Speech Understanding and Dialog Systems». En New
Systems and Architectures for Automatic Speech Recognition and Synthesis. R. DeMori y
Ch. Y. Suen eds. NATO-ASI Series. Springer Verlag, págs. 271-302.
RABINER, L. R. (1988): «Mathematical Foundations of Hidden Markov Models». En Recent
Advances in Speech Understanding and Dialog Systems. Springer-Verlag. H. Nieman, M.
Lang, G. Sagerer (eds.). Springer-Verlag, págs. 183-206.
SCHWARTZ, R. M. et al. (1988): «Acoustic-phonetic decoding of speech». En Recent
Advances in Speech Understanding and Dialog Systems. Springer-Verlag, H. Nieman, M.
Lang, G. Sagerer (eds.). Springer-Verlag. |
|
|
|

| La lengua española y las
nuevas tecnologías |
| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |
| Enviar comentarios |
Centro
Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.
|
|