EVALUACIÓN DE
SISTEMAS BASADOS
EN VOZ
David Escudero
Universidad de Valladolid
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Evaluación de sistemas de
reconocimiento de voz
Wˆ  arg max P(W | X )
W
Evaluación de sistemas de
reconocimiento de voz
Wˆ  arg max P( X | W ) P(W ) / P( X )
W
Evaluación de sistemas de
reconocimiento de voz
Wˆ  arg max P( X | W ) P(W )
W
Modelo acústico
Modelo de lenguaje
Evaluación de sistemas de
reconocimiento de voz
Reconocimiento de palabras aisladas:

La tasa de error se define como la proporción media de items
reconocidos incorrectamente. Un item puede ser una palabra,
un fonema…




E=Ne/N; N es el número de palabras en el test y Ne los palabras
incorrectamente reconocidas.
Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones
C=1-E es la corrección
La matriz de confusión con Cij definida como la probabilidad
de que la palabra i sea reconocida como la palabra j y Cii la
proporción de veces que la palabra i es correctamente
reconocida
Cij 
N ij

j'
N ij '
Evaluación de sistemas de
reconocimiento de voz
Reconocimiento continuo de palabras:




Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes.
La tasa de error es E=Ne/N
Y la precisión del sistema A=1-E
NIST ofrece software para evaluar sistemas.
Dependencia del locutor


Cabras (tasas de reconocimiento bajas)
Obejas (altas tasas de reconocimiento)
Evaluación de sistemas de
reconocimiento de voz
En sistemas de dictado



Precisión del reconocimiento
Velocidad de dictado: número de palabras por minuto que
pueden ser procesadas
Estrategias de corrección de errores.
En sistemas de diálogo
1.
2.
Precisión del reconocimiento
Rechazo OOV (out of vocabulary): un buen sistema debería
rechazar OOVs y pedir al usuario que diga las cosas de otra
manera para que utilice palabras que pueda reconocer.
Evaluación de sistemas de
reconocimiento de voz
3.
4.
5.
Recuperación ante errores: Tanto el sistema como el usuario
pueden equivocarse. Un buen sistema debería permitir al
usuario deshacer acciones.
Tiempo de respuesta: Tiempo desde que termina una orden
hasta que comienza la acción asociada.
Conocimiento de la situación: el usuario debería ser consciente
de lo que puede decir en cada momento porque el vocabulario
de reconocimiento depende de la situación. Puede expresarse
como el número de veces que el usuario envió un comando en
un contexto en el que no estaba permitido. Para evaluarlo se
emplean preguntas subjetivas del tipo:
1.
2.
3.
La lista de órdenes estaba clara?
Hacen falta capacidades especiales para usar el sistema?
La ayuda online fue útil?
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Evaluación de sistemas de
reconocimiento de locutor

Categorías:

Verificación de locutor: es el proceso de aceptación o de rechazo de
la identidad de un hablante comparando un conjunto de medidas de
una serie de locuciones con respecto a las mismas medidas en una
serie de locuciones del hablante a verificar.
 Identificación de locutor: es el proceso de determinar a quien de un
conjunto de hablantes registrados corresponde una locución dada.
Evaluación de sistemas de
reconocimiento de locutor

Evaluación basada en curvas ROC (Receiver Operating
Characteristics):

En verificación de locutor se pueden dar dos condiciones para
una locución de entrada:



También hay dos decisiones





s, la condición de que la locución es del locutor registrado.
n, lo contrario.
S aceptar la locución como perteneciente al locutor
N rechazar la locución
Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa
aceptación P(N|s) falso rechazo P(N|n) rechazo correcto.
Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1
Las curvas ROC representan en una P(S|s) frente a P(S|n)
Evaluación de sistemas de
reconocimiento de locutor


El sistema B tiene un rendimiento superior al
sistema A.
El sistema C se corresponde con una decisión al
azar.
Evaluación de sistemas de
reconocimiento de locutor




La figura muestra la relación entre los dos tipos de error y los
criterios de decisión.
Un criterio de decisión rígido hace difícil para el impostor ser
falsamente reconocido. También se incrementan las posibilidades
de rechazar al locutor. (punto a)
Un criterio de decisión suave facilita que el locutor sea reconocido
pero también es fácil para el impostor ser reconocido (punto b)
El punto c es el valor óptimo conocido como la tasa de equierror
EER.
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Evaluación en sistemas de síntesis
de voz

Tres etapas en un sistema TTS:
 Módulo
de preproceso del texto.
 Módulo de generación prosódica.
 Módulo de generación de señal.
Evaluación en sistemas de síntesis
de voz

Módulo de proceso del texto:
 La
función de este módulo es producir una
representación leíble por la máquina de manera que
genere tanto la secuencia de palabras pronunciables
como la relación entre ellas.
 La entrada suele ser texto plano introducido por el
usuario o texto generado en un sistema de diálogo.
 Se admite SSML tags
 El objetivo es reducir ambigüedades.


 La
Siglas: Dr. Doctor o Drive
“Que salgan primero las señoras y señores mayores”.
interpretación semántica no es obvia y por esto es
necesario anotar.
Evaluación en sistemas de síntesis
de voz

Módulo de predicción prosódica:
 La
función de este módulo es convertir la
representación abstracta del habla en una secuencia
de parámetros que representan F0, energía, duración
y cualidad del habla.
 Suele faltar información siempre porque hay muchos
factores que influyen: humor, carácter, situación…
 Se ha dado más importancia a F0 pero el resto son
todas muy importantes.
 Variabilidad aceptable:


Grandes diferencias en los parámetros se perciben como
iguales.
Pequeños cambios pueden ser relevantes.
Evaluación en sistemas de síntesis
de voz

Módulo de generación de forma de onda:
 Toma
los parámetros de los módulos
anteriores y los convierte en una forma de
onda que puede ser enviada al altavoz.
 Se apoya en la concatenación de segmentos:
Parámetros de los fonemas o de los difonemas.
 Grabaciones

 Compromiso

tamaño-calidad.
Paradójicamente los más pequeños ofrecen más
flexibilidad
Evaluación en sistemas de síntesis
de voz

Evaluación:
 Inteligibilidad
 Naturalidad
 Likeabilidad
La realidad está bien, pero en
algunas aplicaciones lo que importa es que
sea divertido.

Evaluación por módulos y evaluación
conjunta
Evaluación en sistemas de síntesis
de voz

Evaluación del módulo de preproceso de
texto:
 Es
el más fácil de evaluar porque sabemos lo
qué debería decir y por tanto medir el error.
 La dificultad está en los contextos $N: N
dólares o la variable N.
 Desafíos actuales en la pronunciación
arbitraria por ejemplo a la hora de leer
extranjerismos.
Evaluación en sistemas de síntesis
de voz

Evaluación del módulo prosódico:






Es el más difícil de evaluar: no sabemos cual es la salida
perfecta.
Hay una gran variabilidad de formas que pueden tener el mismo
significado.
Difícil que un locutor diga lo mismo dos veces con los mismos
parámetros prosódicos.
La palabra “si” se puede entonar con decenas de variaciones.
Para los locutores es fácil distinguir la intención… para las
máquinas es difícil generarla.
Se requiere a test perceptuales:



MOS Mean opinion score (se recomienda emplear 30 oyentes)
ABX comparar dos versiones con el objetivo.
La tendencia debería ser emplear evaluaciones diagnósticas.
Evaluación en sistemas de síntesis
de voz

Evaluación del módulo de generación de audio:
 Se
ha pasado de evaluar la inteligibilidad a evaluar la
expresividad.
 La calidad en términos de calidad del sonido influye
también.
 Los usuarios tienen expectativas muy altas.
 Se emplean medidas de distancia de la forma de
onda entre la voz sintética y la original.
 También evaluaciones MOS.
Evaluación en sistemas de síntesis
de voz

Evaluación del sistema completo


La primera impresión se ha mostrado definitiva.
Inteligibilidad:




Naturalidad:



Mejor emplear el término credibilidad: Walt Disney no es natural
pero es creíble.
La selección de la voz se ha mostrado definitivo: ajustarse al
contexto.
Likeability:



Se hace emitir una secuencia de palabras sin sentido.
Evaluación basada en una tarea: tiempo de respuesta.
Se somete también a pruebas de resistencia ante habla acelerada y
ralentizada.
La selección de la voz en la situación de nuevo es definitivo.
Este concepto es determinante para la aceptación y uso del
sistema.
Existe un estándar UIT-T P.85
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Evaluación en sistemas de diálogo


Cada uno de estos componentes tiene sus métodos de
evaluación.
Aquí se trata como un conjunto. Como producto SW.
Evaluación en sistemas de diálogo
El estándar ITU_T P.851
 Eficacia: precisión y perfección con la que algunos usuarios
especificados pueden lograr objetivos específicos en entornos
particulares. P.e. el éxito de la tarea.

Eficiencia: relación entre los recursos dedicados y la precisión y
perfección de los objetivos logrados. P.e. la duración del diálogo..

Capacidad de uso describe la capacidad en la que un servicio
puede ser comprendido, aprendido y utilizado por usuarios
especificados bajo condiciones específicas.

La satisfacción del usuario es un indicador de la utilidad y la
capacidad de uso que se percibe por el grupo destinado de
usuarios del servicio.
Evaluación en sistemas de diálogo


Evaluación subjetiva basada en usuarios.
Dos fuentes de información principales:
1)
2)



Durante la interacción, se recopilan parámetros del sistema, y
se registran las palabras del sistema y del usuario. Los ficheros
de registro se envían a la evaluación de un experto.
Después de la interacción, los agentes de prueba reciben un
cuestionario que persigue recopilar información.
Se admite el uso del mago de oz
Los casos de prueba se basan en hipótesis de
situaciones reales.
La elección de los usuarios de prueba debe guiarse por
la finalidad de la prueba.
Evaluación en sistemas de diálogo

Cuestionarios rellenados por los usuarios:




Evaluación de capacidades de uso


Preguntas relativas a los antecedentes de los usuarios.
Preguntas relativas a la interacción individual.
Preguntas relativas a la impresión general del usuario en
relación con el sistema. (ver el estándar)
Realizado sobre los usuarios o por expertos.
Análisis e interpretación de la información recopilada.



Valores medios con intervalos de confianza.
Pruebas de relevancia con análisis de varianza ANOVA
En caso de que una de las variables estadísticas tenga un
efecto significativo estadísticamente, podrá utilizarse una prueba
post-hoc para realizar comparaciones por pares entre las
medias, y para determinar las fuentes de las diferencias.
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial

Evaluación de sistemas animación
facial

Los sistemas del KTH (Royal Institute of
Technology Sweden)
 http://www.speech.kth.se/multimodal/
Evaluación de sistemas animación
facial

Uno de sus proyectos presenta un interfaz de telefonía
para sordos.



Acentuación de movimientos



Los sordos asumen que no todas las personas son igual de
fáciles de interpretar en sus movimientos labios.
Oportunidad para la síntesis facial.
Parametros: Jaw rotation, lip protrusion, mouth spread, tongue
tip elevation.
Estos parámetros se acentuaron en grado desde el 25% al
200% sobre lo normal.
Evaluación:


Los test consisten en la emisión de frases y preguntas ABX
El 24% de usuarios prefiere la hipearticulación con grados entre
el 150% y el 90%
Evaluación de sistemas animación
facial

Prominencia:




Importancia del movimiento de cabeza y cejas en la prominencia.
Se incluyen movimientos en locuciones.
La percepción de prominencia se incrementa hasta en un 24%.
Prosodia e interacción:


Uso de gestos para expresar el estado del diálogo.
Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0,
retardo
 Cada gesto tiene un valor positivo y otro negativo.
 Se plantea el diálogo:
Humano: Qiero ir a la estación de Valladolid desde Madrid
Maquina: Valladolid.

Y hay que decir si cree que la máquina ha entendido y acepta la
presguna o no (1-5)
 Los resultados demuestran que los usuarios son sensibles a estítulos
acústicos y también visuales.
Evaluación de sistemas animación
facial

Expresividad facial
 La
cabeza hace de profesor de idiomas que quiere
que el alumno mejore su pronunciación.
 El profesor corrige cuando el alumno se equivoca.
 Los probadores deben reconocer la expresión del
avatar: neutral, happy, sad, angry.
 Tasas de hasta el 93%
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial
 Evaluación de sistemas multimodales

Evaluación de sistemas
multimodales

Terminología
 Evaluación
técnica: relativa exclusivamente a
aspectos técnicos del sistema.

Evaluación objetiva: independiente de juicios
humanos.
 Evaluación

de usabilidad.
Evaluación subjetiva: Juicios de usuarios.
 Evaluación
cuantitativa: basada en métricas.
 Evaluación cualitativa: basada en
estimaciones o juicios sobre alguna cualidad.
Evaluación de sistemas
multimodales
Métodos de evaluación
 Proceso de desarrollo:




Test unitario: aplicado a una parte pequeña o componente del
sistema.
Test de integración: Aplicado sobre varios módulos de cooperan.
Function test: Realizado para comprobar que determinada
funcionalidad está bien resuelta.
Caja blanca y caja negra: aplicados a nivel de módulo.
Evaluación de sistemas
multimodales
Métodos de evaluación
 Ciclo de vida: necesitan usuarios representativos:







Mock-ups y walkthroughs: son borradores de los diálogos. La
diferencia entre ambos es que los mock-ups necesitan usuarios.
Guideline-based Necesita un modelo del sistema y unas guías
para confrontar. Puede ser una llamada a un consultor experto.
Mago de Oz que son diálogos simulados por personas.
Prototipo: Interfaz similar a la del sistema final. No necesita toda
la funcionalidad pero los usuarios pueden interactuar.
Test de campo: se utiliza en su escenario final.
Think aloud Los usuarios hablan mientras desarrollan.
Cuestionarios y entrevistas
Evaluación de sistemas
multimodales
Criterios de evaluación
 Los criterios deben abarcar aspectos técnicos y
de usabilidad.
 Estarán en función del objetivo del sistema.
 Revisión handout adjunto sobre evaluación del
sistema multimodal de NICE Hans Christian
Andersen Prototype
Índice
Evaluación de sistemas de reconocimiento
de voz
 Evaluación en sistemas de reconocimiento
de locutor
 Evaluación en sistemas de síntesis de voz
 Evaluación de sistemas de diálogo
 Evaluación de sistemas animación facial
 Evaluación de sistemas multimodales

Referencias

Evaluation of Text and Speech Systems. Springer; (May
4, 2007)
Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang
Minker (Editor)


ITU-T P.85 Método para la evaluación subjetiva de la
calidad vocal de los dispositivos generadores de voz
(06/94)
ITU-T P.851 Evaluación de la calidad subjetiva de los
servicios telefónicos basados en sistemas
Conversacionales (11/2003)
Descargar

Document