Procesamiento de
señales de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
1
La comunicación oral
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
2
¿Qué es la voz?
• Onda de sonido (onda de presión)
• Producida por el aparato fonador
• Utilizada para comunicación (para
transmisión de mensajes)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
3
Cuestiones varias:
•
•
•
•
¿Qué relación hay entre los fonemas y la señal de voz?
¿Y entre otras características y la señal de voz?
¿Cómo podemos analizar las características de la voz?
¿Cómo se manifiesta una patología de la voz en la
señal?
• ¿Cómo podemos ajustar un sistema de ayuda a la
audición para optimizar la comprensión de la voz?
• ¿Cómo podemos interpretar un error en la producción
de un fonema?
• ¿Cómo podemos interpretar un error en detección o
identificación de fonemas?
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
4
Procesamiento de voz
•
•
•
•
•
Análisis de voz
Codificación y comprensión de voz
Síntesis de voz
Reconocimiento automático de voz
Reconocimiento y verificación de
locutores
• Detección de patologías
• Diseño de ayudas para la audición
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
5
¿Qué es la voz?
• Producción de la voz
• Percepción de la voz
• Procesamiento de señales
Dificultades al intentar relacionar la señal
con las características
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
6
Problemas del procesamiento de voz
• Variabilidad
– Intra-locutor (estado salud / ánimo, velocidad)
– Inter-locutor
– Adquisición
• Continuidad: concatenación y coarticulación
• Información contenida en la señal de voz
muy redundante
• Multi-interactividad entre niveles:
– Nivel fonético
– Características suprasegmentales
– Nivel semántico: contexto – suplencia mental
• Ruido: perturbación + efecto Lombard
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
7
• Variabilidad de las
señales de voz
• 40 ms correspondientes
al fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
8
Modelos de producción de voz
• Órganos de producción de voz
– Cavidades infraglóticas
– Cavidad laríngea (cuerdas vocales)
– Cavidades supraglóticas
Provisión de aire
Generación de la “onda glotal”
Filtrado de la onda glotal (diversificación
fonética)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
9
Modelo acústico de producción de voz
• Onda acústica: onda de presión en el aire
con c = 350 m/s
• Longitud de onda l = c / f
– Para 100 Hz, l = 3.5 m
– Para 4 kHz, l = 8.75 cm
• Producción de sonido:
– Fonemas sonoros: vibración cuerdas vocales
– Fonemas sordos: flujo turbulento
– Fonemas oclusivos: obstrucción + apertura
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
10
Modelo acústico de producción de voz (II)
• Paredes no rígidas:
– Pérdidas onda acústica
• Forma y sección del tracto vocal varía en el
tiempo:
– Se producen entre 5 y 20 fonemas por segundo
• Acoplamiento de la cavidad nasal mediante
desplazamiento del velo del paladar
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
11
Simplificaciones
• Tracto vocal tubo rígido descrito por la
“función de área” A(x,t)
• Como l > radio del tubo, aproximación de
onda plana
– (El problema de contorno tridimensional se puede
reducir a un problema unidimensional)
• Se desprecian pérdidas por viscosidad,
conducción térmica en aire y paredes del
tubo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
12
Función de área
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
13
Ecuaciones de onda
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
14
Condiciones de contorno
• Glotis: vibración cuerdas vocales
• Labios: p(L)=0
• Onda proporcional a u(L)
Solución de las ecuaciones de onda
• A se puede suponer constante en el tiempo
(condición de quasi-estacionariedad)
• Para A(x) sencilla, soluciones analíticas
• Para A(x) compleja, métodos numéricos
• Medidas de A(x): Rx, TAC, RMN, articulógraf.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
15
Pérdidas por elasticidad
• mw masa/unid.long;
• bw cte. amortiguación
• kw cte. recuperación elástica
• Solución para:
• L = 17.5 cm
• A = cte = 5.0 cm2
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
16
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
17
Formantes
• Formantes: resonancias del tracto vocal
• Por las dimensiones y la velocidad de
propagación del sonido, aparece en
promedio 1 formante por cada kHz
• El tracto vocal “filtra” la onda glotal: amplifica
cada componente de frecuencia con una
determinada ganancia
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
18
Pérdidas por radiación de onda
• p(L) = 0 no es cierto
• Impedancia acústica Z
• Impedancia para abertura circular
de radio a en plano infinito
• El filtrado del tracto vocal
considerando las perdidas por
radiación es distinto:
• Caída para altas frecuencias
• 6 dB / década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
19
u(L,f) / uG(f)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
20
Solución numérica para función de
área correspondiente a fonema /a/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
21
Acoplamiento del tracto nasal
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
22
Modelo acústico de
producción de voz
• Excitación
– Fonemas sonoros
– Fonemas sordos
– Fonemas oclusivos
• Filtrado por tracto vocal / nasal
– Formantes (1 por kHz)
– Caída 6 dB/década
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
23
Modelo digital de producción
de voz
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
24
Características de la voz
• Excitación:
–
–
–
–
Sonoro (freq. fundamental o pitch)
Sordo
Oclusivo
Combinación
• Formantes:
– Cavidad buco-nasal
– Envolvente espectral
• Energía: presión de aire
• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
25
Características de la voz
• Excitación:
–
–
–
–
Sonoro (freq. fundamental o pitch)
Sordo
Oclusivo
Combinación
• Formantes:
– Cavidad buco-nasal
– Envolvente espectral
• Energía: presión de aire
• Evolución en el tiempo de los parámetros
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
26
Clasificación de los fonemas
(desde el punto de vista de la producción)
• Actividad de cuerdas vocales
– Vocales
– Consonantes sonoras
– Consonantes sordas
• Modo de articulación
– Vocales
– Consonantes
• Lugar de articulación
– Vocales
– Consonantes
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
27
Clasificación de vocales
• Modo de articulación (formante 1)
– Cerradas (i,u)
– Medias (e,o)
– Abiertas (a)
• Lugar de articulación (formante 2)
– Anteriores (i,e)
– Centrales (a)
– Posteriores (o,u)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
28
Formantes 1º y 2º en vocales
3000
freq. 2o formante (Hz)
2500
2000
/e/
/i/
1500
1000
500
200
/a/
/u/
300
/o/
400
500
600
700
800
900
1000
freq. 1er formante (Hz)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
29
Modo de articulación (cons.)
•
•
•
•
•
Oclusivas (b,d,g,p,t,k)
Fricativas (s,f,z,x,y)
Africadas (ch)
Nasales (m,n,ñ)
Líquidas:
– Laterales (l, ll)
– Vibrantes (r, R)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
30
Lugar de articulación (cons.)
•
•
•
•
•
•
•
Bilabiales (b,p,m)
Labiodentales (f)
Linguodentales (t,d)
Linguointerdentales (z)
Linguoalveolares (s,n,l,r,R)
Linguopalatales (y,ch,ñ,ll)
Linguovelares (k,g,x)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
31
Fonemas del español
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
32
Análisis de señales de voz
• Conceptos de procesado de señales
– Transformada de Fourier
– Componentes de frecuencia
– Espectro de potencia
– Filtrado
– Ventanas
– Muestreo
– Espectrogramas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
33
Transformada de Fourier
• Transformada (FT):
– Cambio de representación
– Misma información (otra representación)
– Existe transformada inversa (FT-1)
– Transforma señal compleja en señal
compleja:
Im(z)
r
y
f
x
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
Re(z)
34
Espectro de potencia (1)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
35
Espectro de potencia (2)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
36
Descomposición en componentes freq.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
37
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
38
Linealidad de la Transformada de Fourier
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
39
Filtrado
excitación
señal filtrada
filtro
• Caracterización del filtro:
– Tiempo: respuesta impulsiva
– Frecuencia: función de transferencia (o
respuesta en frecuencia)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
40
Filtrado en el tiempo: convolución
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
41
Filtrado en frecuencia: multiplicación
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
42
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
43
Ventanas (multiplicación en tiempo)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
44
Transformada de un tren de pulsos
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
45
Transformada de señal periódica
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
46
Muestreo de señales: T. de muestreo
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
47
Transformada Fourier:
Resumen
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
48
DFT y FFT
• Transformada discreta de Fourier (DFT)
• Transformada rápida de Fourier (FFT)
•
•
•
•
Señales discretas (muestreadas)
Ventana (resolución espectral)
N muestras en t => N muestras en f
FFT: Muy utilizada en procesamiento
digital de señales
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
49
La señal de voz
/sal/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
50
La señal de voz
/s/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
/a/
/l/
51
Estacionariedad de la voz
• La señal de voz es “estacionaria a trozos”
– Durante la pronunciación de un fonema es quasiestacionaria
– Velocidad cambios tracto vocal
– Velocidad cambios cuerdas vocales
– Estacionaria durante 20 – 40 ms
– Velocidad de pronunciación: 5-20 fonemas / seg
– Análisis de “trozos de voz estacionarios”:
ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
52
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
53
Análisis con ventanas
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
54
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
55
Espectro de las vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
56
Formantes 1º y 2º en vocales
3000
freq. 2o formante (Hz)
2500
2000
/e/
/i/
1500
1000
500
200
/a/
/u/
300
/o/
400
500
600
700
800
900
1000
freq. 1er formante (Hz)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
57
Espectro de consonantes
sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
58
Espectro de consonantes
fricativas
/s/
/z/
/sh/
/f/
/ss/
/j/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
59
Fonemas no estacionarios
• Fonemas estacionarios:
– vocales: /a/ /e/ /i/ /o/ /u/
– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/
– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/
• Fonemas no estacionarios:
– Plosivas sordas: /p/ /t/ /k/
– Plosivas sonoras: /b/ /d/ /g/
– Otras consonantes: /ch/ /r/
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
60
Espectrograma
(representación tiempo - frecuencia)
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
61
Espectrograma
(representación tiempo - frecuencia)
m b o i a kom p r a R
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
pa n
62
Ventana en el espectrograma: 64ms / 8 ms
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
63
Información relevante
de la señal de voz:
• Para reconocimiento de voz:
– Envolvente espectral (formantes)
– Evolución temporal de los formantes
Información espectral de tiempo corto
• Información complementaria:
– Tono fundamental
– Estructura fina del espectro
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
64
Cómo funciona el oído
• Extrae información de la señal de audio.
• Envía la información al cerebro en
forma de estímulos nerviosos.
• El implante coclear trata de imitar el
mecanismo de conversión del sonido en
potenciales de acción.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
65
Características del oído humano
• Configuración de la cóclea:
6.000 células ciliadas internas
40.000 terminaciones nerviosas
Repolarización: 2 ms (400 - 500 disparos/seg)
Conexión sináptica: sin interacción entre
canales
• Capacidad de un oído entrenado:
– Resolución espectral: 1/9 tono
– Resolución temporal: 400 - 500 Hz
– Resolución de intensidad: 1 dB
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
66
Capacidad del oído humano
• Resolución en frecuencia: 1/9 tono:
– fo - 1.013*fo
450 Hz - 456 Hz
– rango de frecuencia: 20 Hz - 20.000 Hz
• Resolución en el tiempo:
– limitado por tiempo relajación de células ciliadas y
terminaciones nerviosas (~400 disparos por seg.)
• Resolución en intensidad:
– Mejor de 1 dB
• Mecanismos de adaptación.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR
67