|
Resumen
Se hace una breve descripción de las técnicas de representación y parametrización de
señales de voz. Se discuten las mejoras que podrían obtenerse introduciendo un modelo
auditivo y un modelo articulatorio en el sistema. Se revisan técnicas utilizadas cuando
los sistemas trabajan en condiciones adversas y, finalmente, se enuncian como temas de
debate factores acústico-fonéticos que podrían mejorar la calidad del reconocedor.
Representación de señales de voz en reconocimiento
La primera etapa en un sistema de reconocimiento de la señal de voz consiste en la
extracción de un conjunto de valores o parámetros que contengan la información
relevante de la señal. Es deseable que el número de parámetros sea el menor posible.
Por información relevante en este caso se entiende aquella información acústica que va
a permitir al sistema reconocer el mensaje. En un sistema de verificación o
identificación de locutor, por ejemplo, sería información relevante la necesaria para
distinguir por sus peculiaridades articulatorias, de entonación, etc., a un locutor
determinado.
La necesidad de que el número de parámetros sea el menor posible viene determinada por
el tiempo de respuesta exigido desde que entra la señal en el sistema hasta que se
obtiene el resultado del reconocimiento. Es computacionalmente muy costoso y por tanto
conviene reducir al máximo la información a manejar. Las técnicas de compresión se
apoyan en el hecho de que la señal de voz es altamente redundante.
Para conseguir los dos objetivos mencionados, la señal de voz se limita en banda y se
digitaliza. Como valores más usuales la limitación en banda se realiza a una frecuencia
entre 3,7 KHz y 5 KHz y se muestrea a una frecuencia entre 8 KHz y 10 KHz. A continuación
se divide la señal en segmentos de duración fija (un valor típico es 30 ms) solapados
entre sí (10 ó 20 ms). Para cada segmento se realiza una compresión de datos que
consiste en un análisis frecuencial de la señal dando como resultado un conjunto
representativo de parámetros.
Este análisis frecuencial puede realizarse según distintos métodos siendo los más
utilizados los siguientes:
a) Filtrado de la señal en
distintas bandas frecuenciales y cálculo de la energía en cada banda. El resultado es
que cada segmento queda representado por N valores de energía, cada uno correspondiente a
una banda (ej.: N= 16).
b) Cálculo de la envolvente del espectro. Está basado en un
sencillo modelo articulatorio donde el tracto vocal se supone formado por una sucesión de
tubos acústicos sin pérdidas. Aplicando técnicas de predicción lineal se extrae, para
cada segmento, un conjunto de parámetros (el número oscila entre 8 y 12) que representan
el modelo articulatorio y a su vez llevan información de la envolvente del espectro como
ya se ha mencionado. Aparecen claramente representados los cuatro formantes más
significativos. En este último método también se añade la energía asociada a cada
segmento.
Es conocido que el oído no responde de una forma
lineal a una excitación dada. El doble de potencia no supone que el oído lo perciba con
el doble de intensidad. El oído tiene una respuesta más bien logarítmica (decibelios) y
por esta razón en ambos métodos de extracción de parámetros se tiene en cuenta una
cierta compresión logarítmica en las características frecuenciales extraídas.
Sobre la señal parametrizada por cualquiera de los métodos reseñados, se realiza una
estimación de las características dinámicas del espectro de la señal de voz:
Evolución temporal del espectro,
Evolución temporal de la energía,
y con todas estas informaciones se procede a
realizar el reconocimiento. |
 |
Modelos auditivo y articulatorio
Hasta aquí hemos visto las técnicas más usuales de parametrización de la señal de voz
para aplicaciones de reconocimiento. El conocimiento cada vez más profundo de los modelos
auditivo y articulatorio puede mejorar las técnicas de representación de señal.
Un simple análisis del modelo auditivo se ha traducido en realizar una compresión
logarítmica del espectro. Se trabaja con una representación frecuencial más plana
logrando así enfatizar aquellos formantes que, de otra manera, quedarían totalmente
enmascarados por el de mayor valor. Un análisis algo más profundo del comportamiento
auditivo, podría aumentar la calidad de la señal parametrizada teniendo en cuenta las
siguientes observaciones:
Existe un umbral fijo de audición
por debajo del cual el oído es incapaz de percibir sonidos. Este umbral es dependiente de
la frecuencia.
Existe un umbral variable de audición producido por un efecto de enmascaramiento
psicoacústico. Un tono a una frecuencia determinada no permite percibir tonos por debajo
de ese umbral dentro de lo que se denomina «banda crítica».
Hasta el momento estos dos umbrales
están siendo aplicados en codificación de señales de audio de alta calidad con
excelentes resultados.
La parametrización basada en el modelo articulatorio simple explicado anteriormente es
susceptible de ser mejorado. El modelo no tiene en cuenta la posible resonancia producida
por la cavidad nasal, no considera pérdidas en el modelo de tubos acústicos y calcula el
modelo en intervalos de unos 30 ms con actualizaciones de 10 ms ó 20 ms. Este intervalo
puede ser demasiado largo para caracterizar ciertos sonidos.
Condiciones adversas
Un sistema de reconocimiento diseñado para trabajar en un laboratorio puede verse
altamente degradado cuando trabaja en un ambiente real. Intervienen muchos factores nuevos
que pueden no haber sido considerados: Ruido, múltiples conversaciones simultáneas,
factores psicológicos que alteran al locutor como stress, fatiga, etc., factores
ambientales...
En lo que a la primera etapa del reconocedor concierne, la de extracción de parámetros
de la señal de entrada, conviene que el sistema sea robusto, esto es, que los factores
anteriormente mencionados influyan lo menos posible en el resultado de la parametrización
con respecto a la señal de laboratorio.
En lo que a ruido se refiere, una técnica muy utilizada consiste en incorporar un
cancelador de ruido. Es un sistema que «aprende» cómo es el ruido, sus características
frecuenciales, y las sustrae o las cancela de la señal original. La señal «limpia» es
aplicada al sistema de parametrización subsiguiente. Otras técnicas están basadas en la
utilización de parámetros insensibles al ruido, consiguiéndose buenos resultados
trabajando con tipos de ruido muy limitados. La gran variabilidad tanto de las fuentes de
ruido como de sus características hacen de este problema un campo de estudio totalmente
abierto.
El problema de múltiples conversaciones no está, ni mucho menos, resuelto. El oído es
capaz de discriminar y seguir una conversación entre un conjunto de ellas. Un sistema de
reconocimiento, hasta la fecha es incapaz de realizar esta discriminación apoyándose en
técnicas robustas de parametrización. Las técnicas de cancelación a partir de señales
tomadas simultáneamente en diversos puntos del lugar donde se producen las distintas
conversaciones son, hasta el momento, las más avanzadas.
Incorporación de información acústico fonética
Una vez examinados brevemente los sistemas de extracción de características
habitualmente empleados para un sistema de reconocimiento, esta exposición termina
introduciendo algunos puntos que pueden ser de interés desde un punto de vista acústico
fonético para mejorar la caracterización de las señales.
Es conocido que una representación tiempo frecuencia como el espectrograma puede dar a un
experto fonetista información suficiente para realizar un reconocimiento con una tasa de
error muy baja. Parte de esta información es condensada en los parámetros anteriormente
expuestos pero mucha información no es en absoluto tenida en cuenta:
Entonación. Puede facilitar
la búsqueda de «puntos de anclaje», puntos donde puede asegurarse que empieza o termina
una palabra, una frase, etc.
Rasgos distintivos: Determinan unívocamente cada alófono. Si bien es difícil
determinar con exactitud todos los rasgos distintivos en un segmento de señal para
asociarlo a un alófono dado, un análisis de los mismos puede permitir una clasificación
de sonidos en agrupaciones estables y con significado fonético. Una posible aplicación
es la segmentación de señales o, como veremos en el siguiente apartado, en una primera
etapa auxiliar del sistema de reconocimiento.
Reglas fonológicas: El conjunto de sonidos de una lengua es importante, pero no
menos importante es el conocimiento de las combinaciones posibles entre estos sonidos. Las
reglas fonológicas permiten avanzar en el estudio de la coarticulación y establecen
restricciones importantes en las transiciones entre fonemas. Las reglas fonológicas
pueden ser utilizadas para realizar una etapa de reconocimiento entre agrupaciones de
fonemas previa al reconocimiento definitivo.
Correlatos articulatorios: La aplicación del estudio de los correlatos
articulatorios en reconocimiento ha sido dirigido hacia dos vertientes. La primera es la
determinación de los mismos a partir de la señal acústica y la realización del
reconocimiento en función de estos parámetros. Es una forma de representación de la
señal todavía en fase preliminar y los resultados obtenidos hasta el momento son
inferiores a los obtenidos manejando la información espectral mencionada al principio. La
segunda vertiente consiste en la utilización de la información de los correlatos
articulatorios en la determinación de las unidades básicas a utilizar en el
reconocimiento.
|