Centro Virtual Cervantes

Obras de referenciaCongresos de la lengua

Congreso de Sevilla

Inicio



INTELIGENCIA ARTIFICIAL Y LENGUA ESPAÑOLA

Congreso de Sevilla
 

Mesa redonda
Asunción Moreno. Universidad Politécnica de Cataluña



Resumen

Se hace una breve descripción de las técnicas de representación y parametrización de señales de voz. Se discuten las mejoras que podrían obtenerse introduciendo un modelo auditivo y un modelo articulatorio en el sistema. Se revisan técnicas utilizadas cuando los sistemas trabajan en condiciones adversas y, finalmente, se enuncian como temas de debate factores acústico-fonéticos que podrían mejorar la calidad del reconocedor.

Representación de señales de voz en reconocimiento

La primera etapa en un sistema de reconocimiento de la señal de voz consiste en la extracción de un conjunto de valores o parámetros que contengan la información relevante de la señal. Es deseable que el número de parámetros sea el menor posible.

Por información relevante en este caso se entiende aquella información acústica que va a permitir al sistema reconocer el mensaje. En un sistema de verificación o identificación de locutor, por ejemplo, sería información relevante la necesaria para distinguir por sus peculiaridades articulatorias, de entonación, etc., a un locutor determinado.

La necesidad de que el número de parámetros sea el menor posible viene determinada por el tiempo de respuesta exigido desde que entra la señal en el sistema hasta que se obtiene el resultado del reconocimiento. Es computacionalmente muy costoso y por tanto conviene reducir al máximo la información a manejar. Las técnicas de compresión se apoyan en el hecho de que la señal de voz es altamente redundante.

Para conseguir los dos objetivos mencionados, la señal de voz se limita en banda y se digitaliza. Como valores más usuales la limitación en banda se realiza a una frecuencia entre 3,7 KHz y 5 KHz y se muestrea a una frecuencia entre 8 KHz y 10 KHz. A continuación se divide la señal en segmentos de duración fija (un valor típico es 30 ms) solapados entre sí (10 ó 20 ms). Para cada segmento se realiza una compresión de datos que consiste en un análisis frecuencial de la señal dando como resultado un conjunto representativo de parámetros.

Este análisis frecuencial puede realizarse según distintos métodos siendo los más utilizados los siguientes:

a)   Filtrado de la señal en distintas bandas frecuenciales y cálculo de la energía en cada banda. El resultado es que cada segmento queda representado por N valores de energía, cada uno correspondiente a una banda (ej.: N= 16).

b)   Cálculo de la envolvente del espectro. Está basado en un sencillo modelo articulatorio donde el tracto vocal se supone formado por una sucesión de tubos acústicos sin pérdidas. Aplicando técnicas de predicción lineal se extrae, para cada segmento, un conjunto de parámetros (el número oscila entre 8 y 12) que representan el modelo articulatorio y a su vez llevan información de la envolvente del espectro como ya se ha mencionado. Aparecen claramente representados los cuatro formantes más significativos. En este último método también se añade la energía asociada a cada segmento.

Es conocido que el oído no responde de una forma lineal a una excitación dada. El doble de potencia no supone que el oído lo perciba con el doble de intensidad. El oído tiene una respuesta más bien logarítmica (decibelios) y por esta razón en ambos métodos de extracción de parámetros se tiene en cuenta una cierta compresión logarítmica en las características frecuenciales extraídas.

Sobre la señal parametrizada por cualquiera de los métodos reseñados, se realiza una estimación de las características dinámicas del espectro de la señal de voz:

— Evolución temporal del espectro,

— Evolución temporal de la energía,

y con todas estas informaciones se procede a realizar el reconocimiento.


Subir


Modelos auditivo y articulatorio

Hasta aquí hemos visto las técnicas más usuales de parametrización de la señal de voz para aplicaciones de reconocimiento. El conocimiento cada vez más profundo de los modelos auditivo y articulatorio puede mejorar las técnicas de representación de señal.

Un simple análisis del modelo auditivo se ha traducido en realizar una compresión logarítmica del espectro. Se trabaja con una representación frecuencial más plana logrando así enfatizar aquellos formantes que, de otra manera, quedarían totalmente enmascarados por el de mayor valor. Un análisis algo más profundo del comportamiento auditivo, podría aumentar la calidad de la señal parametrizada teniendo en cuenta las siguientes observaciones:

Existe un umbral fijo de audición por debajo del cual el oído es incapaz de percibir sonidos. Este umbral es dependiente de la frecuencia.

Existe un umbral variable de audición producido por un efecto de enmascaramiento psicoacústico. Un tono a una frecuencia determinada no permite percibir tonos por debajo de ese umbral dentro de lo que se denomina «banda crítica».

Hasta el momento estos dos umbrales están siendo aplicados en codificación de señales de audio de alta calidad con excelentes resultados.

La parametrización basada en el modelo articulatorio simple explicado anteriormente es susceptible de ser mejorado. El modelo no tiene en cuenta la posible resonancia producida por la cavidad nasal, no considera pérdidas en el modelo de tubos acústicos y calcula el modelo en intervalos de unos 30 ms con actualizaciones de 10 ms ó 20 ms. Este intervalo puede ser demasiado largo para caracterizar ciertos sonidos.

Condiciones adversas

Un sistema de reconocimiento diseñado para trabajar en un laboratorio puede verse altamente degradado cuando trabaja en un ambiente real. Intervienen muchos factores nuevos que pueden no haber sido considerados: Ruido, múltiples conversaciones simultáneas, factores psicológicos que alteran al locutor como stress, fatiga, etc., factores ambientales...

En lo que a la primera etapa del reconocedor concierne, la de extracción de parámetros de la señal de entrada, conviene que el sistema sea robusto, esto es, que los factores anteriormente mencionados influyan lo menos posible en el resultado de la parametrización con respecto a la señal de laboratorio.

En lo que a ruido se refiere, una técnica muy utilizada consiste en incorporar un cancelador de ruido. Es un sistema que «aprende» cómo es el ruido, sus características frecuenciales, y las sustrae o las cancela de la señal original. La señal «limpia» es aplicada al sistema de parametrización subsiguiente. Otras técnicas están basadas en la utilización de parámetros insensibles al ruido, consiguiéndose buenos resultados trabajando con tipos de ruido muy limitados. La gran variabilidad tanto de las fuentes de ruido como de sus características hacen de este problema un campo de estudio totalmente abierto.

El problema de múltiples conversaciones no está, ni mucho menos, resuelto. El oído es capaz de discriminar y seguir una conversación entre un conjunto de ellas. Un sistema de reconocimiento, hasta la fecha es incapaz de realizar esta discriminación apoyándose en técnicas robustas de parametrización. Las técnicas de cancelación a partir de señales tomadas simultáneamente en diversos puntos del lugar donde se producen las distintas conversaciones son, hasta el momento, las más avanzadas.

Incorporación de información acústico fonética

Una vez examinados brevemente los sistemas de extracción de características habitualmente empleados para un sistema de reconocimiento, esta exposición termina introduciendo algunos puntos que pueden ser de interés desde un punto de vista acústico fonético para mejorar la caracterización de las señales.

Es conocido que una representación tiempo frecuencia como el espectrograma puede dar a un experto fonetista información suficiente para realizar un reconocimiento con una tasa de error muy baja. Parte de esta información es condensada en los parámetros anteriormente expuestos pero mucha información no es en absoluto tenida en cuenta:

Entonación. Puede facilitar la búsqueda de «puntos de anclaje», puntos donde puede asegurarse que empieza o termina una palabra, una frase, etc.

Rasgos distintivos: Determinan unívocamente cada alófono. Si bien es difícil determinar con exactitud todos los rasgos distintivos en un segmento de señal para asociarlo a un alófono dado, un análisis de los mismos puede permitir una clasificación de sonidos en agrupaciones estables y con significado fonético. Una posible aplicación es la segmentación de señales o, como veremos en el siguiente apartado, en una primera etapa auxiliar del sistema de reconocimiento.

Reglas fonológicas: El conjunto de sonidos de una lengua es importante, pero no menos importante es el conocimiento de las combinaciones posibles entre estos sonidos. Las reglas fonológicas permiten avanzar en el estudio de la coarticulación y establecen restricciones importantes en las transiciones entre fonemas. Las reglas fonológicas pueden ser utilizadas para realizar una etapa de reconocimiento entre agrupaciones de fonemas previa al reconocimiento definitivo.

Correlatos articulatorios: La aplicación del estudio de los correlatos articulatorios en reconocimiento ha sido dirigido hacia dos vertientes. La primera es la determinación de los mismos a partir de la señal acústica y la realización del reconocimiento en función de estos parámetros. Es una forma de representación de la señal todavía en fase preliminar y los resultados obtenidos hasta el momento son inferiores a los obtenidos manejando la información espectral mencionada al principio. La segunda vertiente consiste en la utilización de la información de los correlatos articulatorios en la determinación de las unidades básicas a utilizar en el reconocimiento.

 

Subir
| La lengua española y las nuevas tecnologías |

| Portada del CVC |
| Obras de referencia | Actos culturales | Foros | Aula de lengua | Oteador |
| Rinconete | El trujamán |

| Enviar comentarios |

Centro Virtual Cervantes
© Instituto Cervantes (España), 2003-. Reservados todos los derechos.