Grupo de Tecnología del Habla
Departamento de Ingeniería Electrónica
ETSIT
MODELADO DE LA FRECUENCIA
FUNDAMENTAL MEDIANTE REDES
NEURONALES PARA SÍNTESIS DE
VOZ EN DOMINIO RESTRINGIDO
Autor: Carlos Martín Valle
Tutor: Juan Manuel Montero Martínez
1
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
INTRODUCCIÓN
Proyecto inicial para Natural Vox
Base de datos en dominio restringido
Objetivo: modulación de la frecuencia fundamental
(f0)
Base: tesis doctoral de J. A. Vallejo y J.M. Montero,
PFC de J. Sánchez, software de R. San Segundo
Soporte: Red Neuronal y scripts *.bat y *.per
Carlos Martín Valle
2
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LA RED NEURONAL
Perceptrón multicapa
Función de salida sigmoidea
Algoritmo de aprendizaje mediante retropropagación
Unidad: sílaba
Parámetros:








ZSCORE
MODO_NORM
INI
FIN
ACENT
TERMINAC
TERM_ANT
SILABAS







Carlos Martín Valle
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
CONTEXTO
OCULTA
NUM_FRASE
3
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LA BASE DE DATOS (I)
Dominio restringido con voz femenina
Proyecto de mejora de voz femenina para Natural Vox
Unidad: fonema
Inicialmente 22 frases-patrón
Finalmente 19 frases-patrón
Campos variables:



Nombre propio enunciativa
Sintaxis simple enunciativa
Nombre propio o sintaxis simple interrogativa
Carlos Martín Valle
4
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LA BASE DE DATOS (II)
Grabaciones

Nombres propios y apellidos en oraciones enunciativas (660 frases)


Sintagmas nominales en oraciones enunciativas (307 frases)


Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19
Frases 8, 9, 10, 11, 12 y 14
Sintagmas nominales, movimientos bancarios y apellidos y pueblos
en oraciones interrogativas (600 frases)

Frases 13, 15, 16 y 18
Agrupaciones





1, 2, 3, 4, 5, 10, 11, 17 y 19
8, 9, 12 y 14
13, 16 y 18
15
6y7
Carlos Martín Valle
5
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LOS PROGRAMAS (I)
P R E N E W E X P E R .B A T
Lenguajes: C, Perl y
scripts de MS-DOS
2 grupos
N E W E X P E R .B A T
1
2
A L 3 E X P E R .B A T
S U S T IT U Y .P E R

A L 2 2 E X P E R .B A T
E X P E R IM .B A T
1
2
N E W C O D E 2 2 .P E R
1
W C .P E R
3
W C .B A T
E J E M P L O .E X E
2
S U S T IT U Y .P E R

4
1
E X C E L .P E R
M E D IA .P E R
E X C E L .B A T
2
3
Para generar ficheros
con parámetros de
entrada de la Red
Para realizar los
experimentos y obtener
el modelado de la f0
R E S U L T .P E R
Carlos Martín Valle
6
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LOS PROGRAMAS (II)
Estructura:


“Superprograma”: generación de ficheros *.f0, extracción
difonemas y resíntesis de frases
Generación de experimentos

Selección de parámetros (ficheros *.lis)


Cross validation, leave-one-out :



Por cada experimento se generan 10 subexperimentos
7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test
Red Neuronal: entrenamiento, evaluación y test


Nueva codificación para la Red Neuronal (ficheros *.in)
Obtención y elección de resultados
Procesamiento y presentación de los resultados
Carlos Martín Valle
7
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LOS EXPERIMENTOS Y SUS RESULTADOS
Metodología:


Se parte del experimento “Vallejo19” y se van modificando
los valores de los parámetros
Se buscan resultados con diferencias significativas en sus
parámetros


Se eliminan definitivamente los peores valores de los
parámetros (NUM_FRASE=0, CONTEXTO=0)
Si no hay diferencias significativas se buscan diferencias
consistentes
Diferentes tipos de estrategias


Cuando se pueden eliminar valores de los parámetros
Cuando no se pueden eliminar valores de los parámetros
Carlos Martín Valle
8
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I)
Oraciones enunciativas
Experimento “Vallejo19”
neu1_2
neu1_3
a cent ini fin context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
15
1
1
1
1
1
1
4
1
0
0
0
0 19 12,3131841
2099
15
1
1
1
1
1
1
4
1
0
0
0
0
0 13,5129074
Resultados definitivos para todos los
experimentos:



Se elimina NUM_FRAS=0->NUM_FRAS=19
Se elimina CONTEXTO=0
Se elige ACENT=INI=FIN=1
Carlos Martín Valle
9
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II)
neu1_2
neu1_3
a cent ini
18
1
1
19
1
1
17
1
1
16
1
1
fin
1
1
1
1
1
1
1
1
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
1
2
4
3
0
0
3
0
19
12,09507
2099
1
2
4
3
0
0
3
0
19
12,09792
1
2
4
3
0
1
1
0
19
12,10036
1
0
4
3
0
0
3
0
19
12,10424
Resultados finales:








Tamaño intermedio de la capa oculta
Contextos pequeños
SÍLABAS: diferencias no consistentes
Se marcan las terminaciones: TERMINAC=4
TERM_ANT es innecesario
Codificación fina para PAL_FUNC
FIN_PAL y POS_PAL: diferencias no consistentes
NUM_PAL: no es necesario usar la codificación
Carlos Martín Valle
10
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 13, 16 Y 18 (I)
Oraciones interrogativas
Experimento “Vallejo19”
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
15
1
1
1
1
1
1
4
1
0
0
0
0
19
13,258
2018
15
1
1
1
1
2
1
4
1
0
0
0
0
19
13,264
25
1
1
1
1
2
1
4
1
0
0
0
0
19
13,269
Frases cortas -> Contextos pequeños
neu1_2
neu1_3
a cent ini
10
1
1
20
1
1
10
1
1
10
1
1
fin
1
1
1
1
1
1
1
1
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
2
1
0
1
0
0
0
0
19
13,164
2018
2
1
0
1
0
0
0
0
19
13,221
3
1
0
1
0
0
0
0
19
13,295
4
1
0
1
0
0
0
0
19
13,333
Carlos Martín Valle
11
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 13, 16 Y 18 (II)
neu1_2
neu1_3
a cent ini
12
1
1
11
1
1
9
1
1
11
1
1
fin
1
1
1
1
1
1
1
1
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
2
0
0
1
1
0
0
5
19
13,04374
2018
2
0
0
1
1
0
0
5
19
13,05083
2
1
0
1
1
0
0
0
19
13,05603
2
1
0
3
1
0
1
0
19
13,06819
Resultados finales:








Capa oculta con pocas neuronas
Contextos pequeños
SÍLABAS: diferencias no consistentes
TERMINAC: no hace falta usar la codificación
TERM_ANT: mejora no consistente
PAL_FUNC y NUM_PAL: usar codificación
POS_PAL: no es necesario usar la codificación
FIN_PAL: no usar codificación con ventana
Carlos Martín Valle
12
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 6 Y 7 (I)
Oraciones enunciativas
Causa: marcado diferente al del resto de frases
Objetivo: determinar la conveniencia de esta agrupación
FRASE 6
Resultados:




TERMINAC es indiferente
TERM_ANT es importante.
CONTEXTO=3
Capa oculta de la Red Neuronal con tamaño pequeño
Carlos Martín Valle
13
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 6 Y 7 (II)
FRASE 7
Resultados:




TERMINAC=4
TERM_ANT es indiferente.
CONTEXTO=1
Capa oculta de la Red Neuronal con tamaño pequeño
FRASES 6 Y 7
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
Frase 6
10
1
1
1
1
3
1
0
1
0
0
0
5
19
14,552
437
Frase 7
25
1
1
1
1
1
1
4
1
0
0
0
5
19
17,265
413
Frases 6 y 7
10
1
1
1
1
1
1
4
1
0
0
0
5
19
16,417
850
No es aconsejable mezclar las frases 6 y 7

(14,552*437 + 17,265*413) / (437 + 413) = 15,854 < 16,417
Carlos Martín Valle
14
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 8, 9, 12 Y 14 (I)
Oraciones enunciativas
Frase 8
Frase 9
Frase 12
Frase 14
Frases 8, 9, 12 y 14
neu1_2
neu1_3
a cent ini
5
1
1
5
1
1
5
1
1
15
1
1
15
1
1
fin
1
1
1
1
1
1
1
1
1
1
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
5
1
4
1
0
0
0
0
19
20,831
393
4
1
4
1
0
0
0
0
19
17,913
637
5
1
4
1
0
0
0
5
19
16,119
1503
2
1
0
1
0
0
0
5
19
16,526
186
5
1
4
1
0
0
0
5
19
16,879
2719
Se descarta la frase 8 por su gran error al modelar
Cambio de estrategia en los experimentos
Se fijan inicialmente los valores de las siguientes variables:


TERMINAC=4
TERM_ANT=5
Frases cortas y largas

Se elimina CONTEXTO=1
Carlos Martín Valle
15
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASES 8, 9, 12 Y 14 (II)
neu1_2
neu1_3
a cent ini
16
1
1
16
1
1
17
1
1
16
1
1
fin
1
1
1
1
1
1
1
1
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
2
0
4
3
1
1
3
5
19
16,2233
2326
2
0
4
1
1
1
3
5
19
16,32812
5
0
4
0
1
1
3
5
19
16,34997
5
1
4
1
1
0
3
5
19
16,3564
Resultados finales:








Tamaño intermedio de la capa oculta
CONTEXTO: 2 y 5
SÍLABAS: diferencias no consistentes
Se marcan las terminaciones: TERMINAC=4
TERM_ANT=5: se usa la codificación
PAL_FUNC y POS_PAL: diferencias no consistentes
NUM_PAL: se usa la codificación
FIN_PAL: codificación con ventana
Carlos Martín Valle
16
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASE 15 (I)
Oraciones interrogativas
Los grupos fonéticos marcados no se sitúan al final de las frases
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
32
1
1
1
1
1
0
4
0
0
0
0
5
19
13,25401
946
33
1
1
1
1
1
0
4
0
0
0
0
5
19
13,34472
15
1
1
1
1
1
0
4
1
0
0
0
0
19
14,07103
Resultados finales:






Tamaño grande de la capa oculta
CONTEXTO=1
SÍLABAS=0
Se marcan las terminaciones: TERMINAC=4
TERM_ANT=5: se usa la codificación
PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor
Carlos Martín Valle
17
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASE 15 (II)
FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
30
1
1
1
1
1
0
4
3
0
0
0
0
19
13,0663
3045
La inclusión de la frase 15 empeora el modelo de entonación

13,06630 > 12,09507
FRASE 15 JUNTO CON 9, 12 Y 14
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
15
1
1
1
1
2
0
4
3
1
0
3
5
19
15,59849
3272
La inclusión de la frase 15 empeora el modelo de entonación

(13,254*946 + 16,223*2326) / (946 + 2326) = 15,364 < 15,598
Carlos Martín Valle
18
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASE 15 (III)
FRASE 15 JUNTO CON 13, 16 y 18
neu1_2
neu1_3
a cent ini
fin
context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
25
1
1
1
1
2
0
4
1
1
0
1
5
19
13,65628
2964
La inclusión de la frase 15 empeora el modelo de entonación

13,65628 > 13,04374
Carlos Martín Valle
19
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
ANÁLISIS DE LOS RESULTADOS
FRASE 15 (IV)
FRASE 15 JUNTO CON TODAS LAS DEMÁS
Sin frases 6, 7 y 8
Con frases 6, 7 y 8
neu1_2
neu1_3
a cent ini fin context4_4
silab4_5
terminac
PAL_FUNC
NUM_PAL
POS_PAL
FIN_PAL
TERM_ANT
num_frase
te_Error_absoluto
NumEj
30
1
1
1
1
2
1
4
1
0
1
1
0 19 14,51819
7389
20
1
1
1
1
2
1
4
1
0
1
1
0 19
15,0944
8632
La separación de las frases y su posterior agrupación mejoran
el reconocimiento

Sin frases 6, 7 y 8


(12,095*2099 + 13,043*2018 + 16,222*2326 + 13,254*946) / (2099 + 2018 +
2326 + 946) = 13,802 < 14,518
Con frases 6, 7 y 8

(12,095*2099 + 13,043*0218 + 16,223*2326 + 13,254*946 + 14,521*437 +
17,265*413 + 20,831*393) / (2099 + 2018 + 2326 + 946 + 437 + 413 + 393) =
14,324 < 14,518
Respecto al mejor número de J. Sánchez: 14,324 < 15,975
Carlos Martín Valle
20
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
CONCLUSIONES
Entorno automatizado
Leave-one-out
Parámetros obtenidos directamente del
sintetizador
Utilidad de los parámetros
Reagrupación de las frases
Carlos Martín Valle
21
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para
Síntesis de Voz en Dominio Restringido
LÍNEAS FUTURAS
Completar la reestructuración de los
programas
Usar MUME en lugar del perceptrón usado
Experimentar con otros parámetros de la Red
Aplicar el sistema a fonemas
Evaluación con oyentes
Carlos Martín Valle
22
Descargar

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE