Logo del
Departamento
o Instituto
Sistemas de Interacción Natural
(4e)
Luis Hernández Gómez
[email protected]
SPEECH & LANGUAGE TECHNOLOGIES
4a: Speech production and analysis
4b: Speech perception
4c: Speech Analysis
4d: Text-to-Speech
4e: Speech Recognition
4f: Dialog Systems
Digital Speech Processing Course
Prof. Lawrence Rabiner
http://www.caip.rutgers.edu/~lrr/
Tratamiento Digital de Voz
 Tema 6: Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Tecnología de Reconocimiento de Locutor
 Tecnología de Reconocimiento de Habla
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: ¿qué se dice?
 La variedad de locutores (¿quién lo dice?): “ruido”
(Acentos, variedades dialectales, etc.)
Reconocimiento de Locutor: ¿quién lo dice?
 La variedad de mensajes hablados (¿qué se dice?): “ruido”
 variación intra-locutor variación inter-locutores
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: Características
 Dependiente / Independiente de Locutor
 Tamaño del Vocabulario
 “Tipos de Reconocimiento”:
 Habla aislada, palabras en contexto (word spotting), habla
natural, lenguaje natural, habla espontánea, ...
 Otros:
 Entorno de Ruido: móviles, cabinas, automóvil, ...
 Sistema de comunicación: GSM, manos-libres, VoIP, ...
 Prestaciones
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: Dependiente/Independiente
del Locutor
 Dependiente de Locutor: por ejemplo, sistemas de dictado.
 Independiente de Locutor: aplicaciones telefónicas.
 Cada vez mayor importancia de las “Técnicas de Adaptación
al Locutor”
 Reducción de la cantidad de voz para la adaptación.
 Adaptación supervisada / no-supervisada.
 Adaptación también al entorno de ruido.
 Adaptación a “habla espontánea”.
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: Tamaño del Vocabulario
 El vocabulario DEBE estar pre-fijado (en muchas ocasiones es
muy importante la gestión dinámica de vocabularios : entradas
variables)
 El diseño del vocabulario puede “olvidar” palabras: palabras
fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e
incorporar esas palabras es de gran importancia.
 Las prestaciones del Reconocedor son dependientes del
tamaño del vocabulario:
 Pequeño (< 100), medio (<1000), grande (>1000 -- 1M)
 PERO es muy importante (muchas veces más que el número
de palabras):
o El grado de similitud acústica entre palabras (ej.: teléfonos)
o La GRAMÁTICA de reconocimiento. La gramática restringe
la secuencia de palabras a reconocer.
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: ”Tipo” de Reconocimiento
(terminología imprecisa)
 Habla aislada: lista de palabras (directorio de nombres)
 Palabras en contexto (word spotting): “con Juan Pérez por
favor”
 Habla natural: “dictado natural,” u “órdenes naturales”
(“quiero que me digas qué películas ponen hoy”)
 Lenguaje natural: suele asociarse a la identificación de
entidades semánticas:
<solicitud de información>quiero que me digas qué
<tipo de información>películas</tipo de información>
ponen<tiempo>hoy</tiempo>
</solicitud de información>
 Habla espontánea: “disfluencias” : “..eh quiero que me des,
que me diga.. digas qué... pone... las películas de hoy”
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Habla: Características
 Más otros....
 Entorno de Ruido: móviles, cabinas, automóvil, ...
 Sistema de comunicación: GSM, manos-libres, VoIP, ...
 DIFICULTAD de medir “realmente” las prestaciones de un
sistema de reconocimiento (en laboratorio en aplicaciones)
 Errores de Reconocimiento: Tasa de Error (Sustituciones /
Inserciones / Elisiones (borrados))
 Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la
Tasa de Error.
 Ruidos
 Palabras OOV (fuera del vocabulario)
 Medidas de Confianza: “seguridad” del resultado de
reconocimiento (ejemplo: Adaptación no-supervisada)
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Locutor: Características
 Dependiente / Independiente de Texto
 Población cerrada / abierta
 “Modos de Funcionamiento”:
 VERIFICACIÓN
 IDENTIFICACIÓN
 (Detección; Autenticación)
 Otros:
 Entorno de Ruido..., Sistema de comunicaciones, ...
VARIABILIDAD ENTRE SESIONES
 Prestaciones
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Rec. de Locutor: Dependiente/Independiente de Texto
 Dependiente Texto:
 Texto fijo: locución pre-establecida (clave de acceso)
 Texto variable (vocabulario fijo): se pide que el locutor pronuncie
una clave generada aleatoriamente (text prompted); objetivos: evitar
grabaciones y “clave en voz alta”
 Independiente de Texto: el locutor puede emplear cualquier
locución, sin restricciones (duración, riqueza fonética ?
Imaginación ? => tipo de aplicación: Acústica Forense)
 Importancia de la estrategia de diálogo (factores humanos):
preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...)
 Reconocimiento de Locutor Sistemas de Verificación de
Información Verbal (complementarios? Fases diferentes ?)
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Locutor: Población cerrada/abierta
 Población cerrada: reconocimiento entre un conjunto cerrado
de usuarios; “el impostor está en casa”.
 Población abierta: reconocimiento “abierto” a impostores
externos a los “locutores reconocibles”
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Locutor: Modos de funcionamiento
 VERIFICACIÓN: decidir si una persona es quien dice ser
utilizando su “huella vocal” (ej.: tecleo mi password y el sistema
me pide que hable para comprobar que soy yo: se contrasta la voz
dubitada contra una sola “huella vocal” –la del password-)
 IDENTIFICACIÓN: decidir si la voz de una persona
pertenece a algun locutor de una población de locutores
identificados. (se compara la voz dubitada con todas las huellas
vocales de la población “indubitada”)
 (DETECCIÓN: localización de un locutor en una grabación de
audio – AUTENTICACIÓN: mediante
verificación/identificación)
Reconocimiento de Voz
 Principios de Reconocimiento de Habla y de Locutor
 Reconocimiento de Locutor: Prestaciones
 Otros:
 Entorno de Ruido... Sistema de comunicación...
 VARIABILIDAD ENTRE SESIONES
 Errores de Reconocimiento: tasas de:
 Falsa Aceptación FA: un impostor vulnera el sistema
 Falso Rechazo FR: un usuario no es reconocido
 “Aciertos” de Reconocimiento:
 Rechazo correcta: un impostor es rechazado
 Aceptación correcta: un usuario es reconocido
El coste de cada tipo de error depende de la aplicación (por
ejemplo: mayor, menor seguridad)
 TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll;
imposibilidad de entrenarse en el sistema
0012-09
Four conditional probabilities
in speaker verification
Input utterance
Decision
condition
condition
s
(customer)
S (accept)
P(S | s)
P(S | n)
N (reject)
P(N | s)
P(N | n)
n
(impostor)
0012-10
FR= P (N | s)
Equal
Error
Rate
Error rate
1
FA= P (S | n)
EER
0
a
c
b
Decision criterion (Threshold)
Relationship between error rate and decision
criterion (threshold) in speaker verification
0012-11
1
B
b
P (S | s)
A
0
a
D
P (S | n)
1
Receiver operating characteristic (ROC) curves; performance
examples of three speaker verification systems: A, B, and D
Reconocimiento de Voz
 Reconocimiento de Locutor: Prestaciones
(http://www.nist.gov/speech)
Curvas ROC
Curvas DEC
Reconocimiento de Voz
 Reconocimiento de Locutor: Prestaciones
(http://www.nist.gov/speech)
We have found it useful in speech applications to use
a variant of this which we call the DET (Detection
Error Tradeoff) Curve, described below.
In the DET curve we plot error rates on both axes,
giving uniform treatment to both types of error, and
use a scale for both axes which spreads out the plot
and better distinguishes different well performing
systems and usually produces plots that are close to
linear.
0103-23
Recognition error rate (%)
20
10
Male Female
Identification
Verification
5
2
1
0.5
0.2
0.1
2
5
10
20
50
Size of population
100
Recognition error rates as a function of population
size in speaker identification and verification
Reconocimiento de Voz
 Reconocimiento de Locutor: Prestaciones (La Granja)
SHEEP, GOATS, LAMBS and WOLVES
A Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas
Reynolds 3,4,
1 National Institute of Standards and Technology, 2 The Johns Hopkins University
3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International
Reconocimiento de Voz
 Reconocimiento de Locutor: Prestaciones (La Granja)
 Sheep (ovejas) – Sheep comprise our default speaker
type. In our model, sheep dominate the population and
systems perform nominally well for them.
 Goats (cabras) – Goats, in our model, are those
speakers who are particularly difficult to recognize.
Goats tend to adversely affect the performance of
systems by accounting for a disproportionate share of
the missed detections. The goat population can be an
especially important problem for entry control systems,
where it is important that all users be reliably accepted.
Reconocimiento de Voz
 Lambs (corderos) – Lambs, in our model, are those
speakers who are particularly easy to imitate. That is, a
randomly chosen speaker is exceptionally likely to be
accepted as a lamb. Lambs tend to adversely affect the
performance of systems by accounting for a
disproportionate share of the false alarms. This
represents a potential system weakness, if lambs can
be identified, either through trial and error or through
correlation with other directly observable
characteristics.
 Wolves (lobos) – Wolves, in our model, are those
speakers who are particularly successful at imitating
other speakers. That is, their speech is exceptionally
likely to be accepted as that of another speaker. Wolves
tend to adversely affect the performance of systems by
accounting for a disproportionate share of the false
alarms. This represents a potential system weakness, if
wolves can be identified and recruited to defeat
systems.
Tratamiento Digital de Voz
 Tecnología de Reconocimiento de Locutor
 Estructura de un Sistema de Reconocimiento de Locutor
Entrenamiento Modelos/Patrones
de referencia
para cada Locutor
Señal
de Voz
Extracción
De
Características
Reconocimiento
Comparación
(Distancia)
Speech Recognition Technology in the
Ubiquitous/Wearable Computing Environment Sadaoki Furui
http://www.furui.cs.titech.ac.jp/
Resultado
Reconocimiento
Tratamiento Digital de Voz
 Tecnología de Reconocimiento de Locutor
 Otros aspectos importantes:
Modelos/Patrones
de referencia
para cada Locutor
Cancelador
De
Ecos
Señal
de Voz
Detector de
Actividad
“Compensación”
De
Ruido
Extracción
De
Características
Comparación
(Distancia)
Resultado
Reconocimiento
Tecnología de Reconocimiento de Locutor
 Identificación
Similarity
Reference
template or model
(Speaker #1)
Similarity
Speech
wave
Feature
extraction
Reference
template or model
(Speaker #2)
•••
Similarity
Reference
template or model
(Speaker #N)
Maximum
selection
Identification
result
(Speaker ID)
Tecnología de Reconocimiento de Locutor
 Verificación
Speech
wave
Speaker ID
(#M)
Feature
extraction
Similarity
Decision
Reference
template or model
(Speaker #M)
Threshold
Identification
result
(Accept / Reject)
Tecnología de Reconocimiento de Locutor
 Decisión
Distribution
Intra-speaker distance
s DB
Inter-speaker distance
m DB
Distance
Tecnología de Reconocimiento de Locutor
 Objetivo: obtener un modelo del locutor
 Para discriminación, no para codificación ni síntesis
Marco de Trabajo: Reconocimiento de Patrones
El clasificador óptimo es el clasificador de Bayes
Observacio
nes
O  o 1 , o 2 ,.... o T 
Clasificac
 ------- 
Clases
 1 ,  2 ,......  L 
 ˆ   i si p (  i / O )  max p ( ˆ / O ) y p (  i / O )  

ˆ
ión : 
 ˆ   o (rechazo) en caso contrario
Tecnología de Reconocimiento de Locutor
 “Todo” lo necesario es conocer la función de
probabilidad
p ( 1 / O )
p (2 / O )
p ( 3 / O )

Rechazo
Clase 1
Clase 2
Clase 3
Clase 2 Rechazo
O
Tecnología de Reconocimiento de Locutor
 “Todo” lo necesario es conocer la función de
probabilidad
p ( 1 / O )
p (2 / O )
O
.
.
.
p(L / O )
.
.
.
Max
Rechazo

ˆ
Tecnología de Reconocimiento de Locutor
 PERO: la función de probabilidad “nunca” se
conoce: forma paramétrica desconocida y cantidad de
datos de estima (entrenamiento) limitados
p ( 1 / O )
p (2 / O )
O
.
.
.
.
.
.
Max
p(L / O )
NO UN CLASIFICADOR ÚNICO
Funciones de
Discriminación
Rechazo

ˆ
Tecnología de Reconocimiento de Locutor
 De una forma simplificada podemos considerar:
Por la técnica de clasificación:
 Clasificadores no-paramétricos
 Clasificadores paramétricos
 (Discriminativos)
Atendiendo al tipo de información empleada:
 Clasificadores a partir de información a largo plazo
 Clasificadores a partir de información a corto plazo
0012-13
Input
speech
Feature
extraction
Long-term
statistics
Average, variance,
correlation, MAR
Distance
or
similarity
Decision
Speaker
identity
Reference templates
or models
(a) Long-term-statistics-based method
Input
speech
Feature
extraction
Parametric or
Non-Parametric
Accumulation
Decision
Paterns
(b) short-term information based method
Speaker
identity
Tecnología de Reconocimiento de Locutor
Por la técnica de clasificación...
 Clasificadores no-paramétricos:
 No hacen ninguna hipótesis sobre el modelo de distribución de
la voz del locutor
 Se basan completamente en los datos de entrenamiento
Un ejemplo típico serían los sistemas de Reconocimiento
Independientes del Locutor basados en Cuantificación Vectorial
0103-19
Spectral envelopes
Speaker-specific codebook
Vector quantization (VQ)-based text-independent speaker
recognition
Tecnología de Reconocimiento de Locutor
 Cuantificador Vectorial
Representa el conjunto de vectores de
ENTRENAMIENTO X={x1,x2, ... xN} por un
número pequeño de representantes (centroides)
Y={y1, y2, ... yM} (M<N)
• Fase 1. Determinación de los representantes
– Medida de distancia d(xi, yj)
– Entrenamiento: Codebook Y
• Fase 2. Asignación del centroide más próximo
– Cuantificación de una observación o
Q o   y j  d ( o , y j )  d ( o , y k )  k  j
Tecnología de Reconocimiento de Locutor
 Entrenamiento CV algoritmo LBG
Primer centroide
Duplicación
Asignación de vectores
Cálculo de centroides
NO
NO
D?
SI
N?
SI
Cuantificación
Asunción Moreno
Universidad Politécnica de Cataluña
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Entrenamiento
y
x
Cuantificación
y
x
VQ Performance on Unseen Data
Ramachandran &
Mamone (eds)
‘Modern Methods of
Speech Processing’
Kluer Academic, 1995
Reconocimiento de Voz
 Reconocimiento de Locutor: Prestaciones (La Granja)
SHEEP, GOATS, LAMBS and WOLVES
A Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas
Reynolds 3,4,
1 National Institute of Standards and Technology, 2 The Johns Hopkins University
3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International
Tecnología de Reconocimiento de Locutor
O  {o1 , o 2 , ...
o T } Secuencia
de Observacio
nes
(caracterí sticas : Ceps   Ceps   Ceps)
Medida de Distancia
VQ
L
L
 {y , y
1
Distancia
L
2
para el VQ del Locutor L
, .... y
Acumulada
L
M
}
para Locut or L
 Q o 
T
D
L

t
t 1
con
Q o   y j  d ( o , y j )  d ( o , y k )  k  j
Input
speech
Feature
extraction
VQ distortion
Accumulation
Decision
Speaker
identity
Independencia de Texto
VQ codebooks
Observaciones independientes
Tecnología de Reconocimiento de Locutor
 Reconocimiento de Locutor mediante CV
 El cuantificador vectorial “representa” la distribución
estadística de los datos
 Otras técnicas de entrenamiento:
Entrenamiento Discriminativo: el objetivo no es el minimizar
el error de cuantificación sino el Error de CLASIFICACIÓN
(técnicas de gradiente -> Redes Neuronales)
Tecnología de Reconocimiento de Locutor
Por la técnica de clasificación...
 Clasificadores paramétricos (I):
 Son los más utilizados en Reconocimiento
Clasificad
or bayesiano
p ( i / O ) 
necesita
: p ( i / O )
p ( O / i ) p ( i )
p (O )
p ( O ) : no interviene
p (  i ) : probabilid
ad a priori de que sea el locutor i
  Locutores equiprobal es

  En RECONOCIM IENTO de HABLA
p ( i )  
 probabilid ad de que se pronuncie una frase
 Gramática - Modelo de Lenguaje
p ( O /  i ) : probabilid
ad acústica
Tecnología de Reconocimiento de Locutor
Por la técnica de clasificación...
 Clasificadores paramétricos (II):
 Utilizan una representación paramétrica explícita de la
probabilidad acústica: p ( O /  )
i
 Los parámetros de
p ( O /  i ) se estiman a partir de los datos
de entrenamiento X={x1,x2,
... xN}
Proporciona un formalismo matemático consistente para
técnicas de adaptación a diferentes condiciones y entornos.
Tecnología de Reconocimiento de Locutor
p (O / i )
p (O / i )
Tecnología de Reconocimiento de Locutor
 Clasificadores paramétricos: GMM (Gaussian Mixture
Models)
 Representación paramétrica explícita de la probabilidad
acústica como suma de fdp gaussianas:
M
p (O /  ) 
c
i
 N μ i , Σ i  o
i 1
siendo,
M  número
de mezclas
μ i  vector de medias de la mezcla
Σ i  matriz de covarianza
c i  peso para la mezcla
N μ i , Σ i   distribuci
i
s (generalme
nte diagonal)
de la mezcla
i
i (suma de pesos es igual a 1)
ón Normal (dimensión
D  vector caracterís ticas)
Tecnología de Reconocimiento de Locutor
 Clasificadores paramétricos: GMM (Gaussian Mixture
Models)
M
 Los parámetros de
p (O /  ) 
c
i
 N μ i , Σ i  o
i 1
se estiman a partir de los datos de entrenamiento X={x1,x2,
x N}
 La combinación de gaussianas se aproxima a la distribución
de los datos.
...
Tecnología de Reconocimiento de Locutor
Tecnología de Reconocimiento de Locutor
Tecnología de Reconocimiento de Locutor
 Identificación con GMMs
p ( O / 1 )
p (O / 2 )
Speech
wave
•••
Feature
extraction
Maximum
selection
p (O / L )
O  {o1 , o 2 , ...
o T } Secuencia
de Observacio
nes
(caracterí sticas : Ceps   Ceps   Ceps)
Verosimili tud " acumulada"
para el Locutor " i"
 T
  p (o t / i )
 t 1
p (O / i )  
o utilizando
 T
  log[ p ( o t /  i )]
 t 1
logaritmos
Identification
result
(Speaker ID)
Tecnología de Reconocimiento de Locutor
 Verificación con GMMs : Normalización
• Likelihood ratio
log L(O)  log p(O|=  c) - log p(O|    c)
 c : identidad supuesta
• A posteriori probability
log L(O)  log p(O |  =  c) - log  p(O | )
SRef
Ref : locutor de referencia o cohorte
de locutores
• Modelo Universal
log L(O)  log p(O |  =  c) - log  p(O |  UBM)
UBM : Universal Background Model
Tecnología de Reconocimiento de Locutor
Tecnología de Reconocimiento de Locutor
 Clasificadores paramétricos: GMM (Gaussian Mixture
Models)
M
 Los parámetros de
p (O /  ) 
c
i
 N μ i , Σ i  o
i 1
se estiman a partir de los datos de entrenamiento X={x1,x2,
...
x N}
 ¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento 
Número de Parámetros a estimar
 Técnicas de Entrenamiento:
ML (Maximum Likelihood)
MAP (Maximun a posteriori)
Similares resultados si no hay información a priori, pero MAP
válida para adaptación
Tecnología de Reconocimiento de Locutor
 Entrenamiento ML
Dada una Secuencia
O  {o1 , o 2 , ...
de Observacio
nes de ENTRENAMI
oT }
(caracterí sticas : Ceps   Ceps   Ceps)
ML para  es el que maximiza
El estimador
:
ˆ  arg max p ( O /  )

o lo que es equivalent
ˆ  arg max

Algoritmo
e:
T
 log[
p ( o t /  )]
t 1
Iterativo
EM (Expectati
on Maximizat
ion)
ENTO
Tecnología de Reconocimiento de Locutor
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
-15
-10
-5
0
5
10
15
20
Tecnología de Reconocimiento de Locutor
Tratamiento Digital de Voz
 Reconocimiento de Locutor => Reconocimiento de Habla
 Hasta ahora: El orden de la secuencia de sonidos NO
IMPORTABA => Independiente de Texto
 PERO:
 En Reconocimiento de Locutor dependiente de texto
 En Reconocimiento de Habla
La secuencia de sonidos sí importa (“casa” “saca”)
Primera Aproximación: Alineamiento Temporal + Medida de
Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de Voz
 Reconocimiento de Locutor => Reconocimiento de Habla
Primera Aproximación: Alineamiento Temporal + Medida de
Distancia (DTW Dynamic Time Warping)
C
A
S
A
ENVENTANADO
ANÁLISIS
{
V
1
V
2
V3
V4
V5
V6
}
PATRÓN
Tratamiento Digital de Voz
 Reconocimiento de Locutor => Reconocimiento de Habla
DTW Dynamic Time Warping)
 ENTRENAMIENTO: se obtiene y almacena un patrón de
refrencia (PRef) para cada una de las palabras del vocabulario
 RECONOCIMIENTO: se obtiene el patrón de la palabra a
reconocer (PReco). La palabra reconocida será la correspondiente
al patrón de referencia más parecido (menor distancia) al patrón a
reconocer.
d ( P Re co , P Re f ) 
 d (o
Re co
i
,oi
Re f
)
PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco
SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O
ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)
Tratamiento Digital de Voz
PATRÓN
DE REFERENCIA
(TIEMPO)
5
4
3
2
PALABRA
A RECONOCER
(TIEMPO)
1
1
2
3
4
5
6
7
8
Tratamiento Digital de Voz
 Reconocimiento de Locutor => Reconocimiento de Habla
DTW Dynamic Time Warping
Cálculo distancia acumulada g(i,j) según el “camino óptimo”
(Programación Dinámica)
g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)}
g(i-1,j)
g(i-1,j-1)
g(i,j)
1 < i < I ( nº tramas de Preco )
1 < j < J ( nºtramas de Pref )
g(i,j-1)
La distancia entrel el PRef y el PReco d(PRef, PReco) será:
d(Preco, Pref) = g(I,J) / I+J
Tratamiento Digital de Voz
 Reconocimiento de Locutor => Reconocimiento de Habla
DTW Dynamic Time Warping)
PATRÓN
DE REFERENCIA
(TIEMPO)
5
4
3
2
PALABRA
A RECONOCER
(TIEMPO)
1
1
2
3
4
5
6
7
8
Reconocimiento de Habla
 Tecnología Dominante: HMM (Hidden Markov Models)
 Clasificador Paramétrico: p(O/ con  secuencia de sonidos,
palabras, frases,...
 Primera Aproximación: Estados + GMMs por Estado
Reconocimiento de Habla
 HMM (Hidden Markov Models)
 IMPORTA la secuencia de sonidos
 DEFINICIÓN DE UN HMM :
 Topología (izquierda – derecha; saltos; no. estados)
 Probabilidades de transión entre estados aij
 Probabilidades de comenzar en el estado i: pi
 Probabilidades de observación de cada estado bi(Ot)
Caso sencillo: HMM de una palabra wL:  wL
a22
a11
a12
a23
a13
a34
a24
a55
a44
a33
a45
a35
Reconocimiento de Habla
 HMM (Hidden Markov Models)
Caso sencillo: HMM de una palabra wi:  wi
a22
a11
a12
a23
a13
a34
a24
a55
a44
a33
a45
a35
wi = “siete” S1=/s/ S2=/i/ S3=/e/ S4=/t/ S5=/e/
No. Estados: ¿no. sonidos ? ¿no. Medio de tramas / sonido?
“lógica propia del modelado HMM”
Reconocimiento de Habla
 HMM (Hidden Markov Models)
Caso sencillo: HMM de una palabra wL:  wL
a22
a11
a12
a23
a55
a44
a33
a34
a45
N

a13
 w  p , A , bi ( o t )
L
L
L
L

a24
a35
a
ij
 1 i
j 1
aij : duración de los sonidos en cada estado (?)
Probabilidad de comenzar en el estado i: pi
Izquierda – derecha: p1 =1 ; pi =0 i != 0
Reconocimiento de Habla
 HMM (Hidden Markov Models)
Probabilidades de observación de cada estado bi(Ot):
 Continua (mezcla de gaussianas)
 Discreta (Cuantificador vectorial + probabilidades centroides)
 Semicontinua (gaussianas compartidas)

K
b i (O t ) 

i
ck  N μ k , Σ k
i

o
k 1
i
μ k  vector
i
Σ k  Matriz
de medias
de la gaussiana
de covarianza
(generalme
nte diagonal
c k  Pesos de las mezclas
K  numero
de mezclas
k para estado
de la gaussiana
: sólo varianzas
i
k para el estado
)
i
Reconocimiento de Habla
 HMM (Hidden Markov Models)
 w1

w3
.....................
P(O/
 w1)
P(O/
 w2)
P(O/
 w3)
.....................
.....................
P(O/
 wL
 wL)
Resultado
 w2
DECISOR
MÁXIMO
RECONOCIMIENTO
Rechazo
Confianza
N-Best
Eduardo Lleida Solano
Dpt. de Ingeniería Electrónica y Comunicaciones
Universidad de Zaragoza
Las Bases
Utilizando
la fórmula de Bayes
P (W | O ) 
P ( O | W ) P (W )
P (O )
P(W) ... Probabilidad de que la secuencia de palabras W sea
pronunciada
 P(O|W) ... Probabilidad de que cuando una persona pronuncia la
secuencia de palabras W obtengamos la secuencia de medidas
acústicas O
 P(O) ... Probabilidad de la secuencia de medidas acústicas O


Fórmula del Reconocedor
W  arg max P ( O | W ) P (W )
W
Modelo Acústico
Modelo de Lenguaje
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Descargar

Diapositiva 1