Sintesi vocale concatenativa per
l’italiano tramite modello sinusoidale
Giacomo Sommavilla, Carlo Drioli, Piero Cosi
ISTITUTO DI SCIENZE E
TECNOLOGIE DELLA COGNIZIONE
Viale Marx, 15
00137 Roma (Italy)
www: http://www.istc.cnr.it
SEZIONE DI PADOVA
“FONETICA E DIALETTOLOGIA”
Via G. Anghinoni, 10
35121 Padova (Italy)
e-mail: [email protected]
www: http://www.pd.istc.cnr.it
“ANALISI PROSODICA”
teorie, modelli e sistemi di annotazione
2° Convegno Nazionale AISV – 30/11- 2/12 2005
Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree“
Copyright, 2005 © ISTC-SPFD-CNR
Riassunto
introduzione TTS
SMS
HNM - Harmonic + Noise Model
SMS tools (CLAM)
risultati
conclusioni e sviluppi futuri
Sistema TTS “per concatenazione”
TTS: un sistema hardware/software capace di
riprodurre vocalmente un testo scritto
x concatenazione: la sintesi viene realizzata
per concatenazione di unità di base
unità base, difoni: “segmenti acustici che
includono la transizione fra due fonemi
consecutivi”
sintesi in frequenza: il sistema sviluppato
esegue le trasformazioni sui difoni nel dominio
frequenziale, adottando una rappresentazione
sinusoidi + residuo
TTS (concatenativo ): schema generale
FESTIVAL TTS
text
NLP
+
Prosody
Match
Prosody
Phonetic
.pho file
Elaborazione
dei difoni
Digital
Signal
Processing
speech
Signal
Synthesis
DSP – Digital Signal Processing
Match
Prosody
Codifica dei parametri prosodici
per ogni fonema nelle variabili di
f0 e durata (pitch shifting e time stretching)
Trasformazione e
Elaborazione
concatenazione in frequenza di
dei difoni difoni successivi
Signal
Synthesis
Sintesi del segnale dal dominio
frequenziale a quello temporale
e creazione del file audio vocale
SMS - Spectral Modeling Synthesis
Rappresentazione nel dominio della frequenza
Il modello Spectral Modeling Synthesis (SMS) si
basa sulla rappresentazione armoniche + residuo
R
s ( t )  A r ( t ) cos[  r ( t )]  e ( t )
r 1
armoniche
residuo
(parte armonica, deterministica) (parte stocastica, rumore)
Sinusoidal analysis/synthesis system
HNM - Harmonic + Noise Model
HNM synthesis
si aggiorna dinamicamente Fm[n] sulla base di un ‘test
di armonicità’
il rumore (noise) ha un inviluppo sia nel dominio
temporale e[n] che in quello frequenziale Hn (k)
HNM synthesis
PROCEDURA di SINTESI

NLP  fonemi, durata, pitch
ricerca unità di base (difono) sul database
sintesi HNM

cross-fading di


Ak e w0
La “chiave” per una buona sintesi è la preparazione
accurata del database delle unità di base (difoni)

il modello sinusoidale consente l’allineamento in
fase di tutte le unità

un database ricco migliora la sintesi
CLAM-SMS
CLAM - C++ Library for Audio and Music
http://www.iua.upf.es/mtg/clam/
Analisi del database di difoni
File audio
File SDIF
d0.raw
d1.raw
d2.raw
d3.raw
…
d0.sdif
d1.sdif
d2.sdif
d3.sdif
…
File
SDIF
analyzeDatabase.m
MBROLA
1. frequenze, ampiezze e fasi delle
parziali (comp. armonica)
2. inviluppo spettrale della comp.
residuale
Architettura del sistema
.pho file
.wav file
Parser
Sintesi
(IFFT +
OLA)
Fonemi, prosodia
(pitch e durate)
Match
prosody
Data Base
di difoni
(SDIF)
Time
Stretching
Pitch
Shifting
(formant
preserving)
Concatenazione
C++
Risultati sperimentali
Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo
stato dell’arte (trasf. e conc. dominio temporale, pitch sincrono)
1) Sintesi MBROLA
2) Sintesi SMS
3) Sintesi SMS con trasformazione (1)
4) Sintesi SMS con trasformazione (2)
5) Sintesi MBROLA (T=1.5, F=2)
6) Sintesi SMS (T=1.5, F=2)
Conclusioni
i risultati ottenuti dimostrano come la rappresentazione
scelta sia versatile e potente per elaborazioni di tempo,
pitch e inviluppo spettrale
la qualità della sintesi può essere migliorata applicando
un algoritmo di ricostruzione delle fasi più adatto
Sviluppi Futuri
residuo: concatenazione ad-hoc per fonemi unvoiced;
parte armonica:
I. morphing / voice conversion
II. sintesi vocale emotiva (E-TTS)
III. tecniche di voice quality
Descargar

Facce parlanti emotive ed espressive: sviluppo e prospettive