LABORATORIO DE
PROCESAMIENTO DIGITAL
DE SEÑALES
Dr. Sergio Suárez Guerra [email protected]
Dr. José Luis Oropeza Rodríguez [email protected]
Dr. Oleksiy Pogrebnyak [email protected]
Dr. Alfonso Gutiérrez Aldana [email protected]
M. en. C. Pablo Manrique Ramirez [email protected]
Carlos Daniel Hernández Mena (invitado UNAM)
[email protected]
Laboratorio de Procesamiento
digital de señales
1
Líneas de investigación del
laboratorio (LPDS)
• Sistemas para la recolección, análisis y procesamiento de todo tipo
de señales en el tiempo: acústicas (voz, especies, médicas, ruido,
subacuáticas), biológicas (ECG,EEG, EMG), mecánicas
(vibraciones, sismos, etc.), imágenes (señales bidimensionales).
• Clasificación y reconocimiento (clasificación) de todos los tipos de
señales posibles.
• Sistemas para la aplicación y uso de la clasificación y
reconocimiento de señales e imágenes.
• Procesamiento y reconocimiento de voz (habla, lenguaje, locutores).
• Procesamiento de señales biológicas, aplicaciones médicas.
• Captura, restauración y procesamiento de imágenes digitales.
Laboratorio de Procesamiento
digital de señales
2
La señal voz, expectativas de
uso
Cada día nos encontramos más, con infinidad de
aplicaciones de los sistemas de cómputo, con capacidad
de interactuar con los usuarios mediante el reconocimiento
y síntesis de voz. Estos van desde aplicaciones simples en
el reconocimiento de comandos (palabras) aislados,
traducción automática, hasta el reconocimiento de frases
para ejecutar acciones a manos libres: teléfonos celulares,
control por voz en la instrumental, de ayuda en la cirugía,
acceso a servicios de compra por teléfonos, llenado de
solicitudes, reservaciones de pasaje, entre otros; la
búsqueda en Internet es una de las muestras más
impactantes de estas aplicaciones.
Laboratorio de Procesamiento
digital de señales
3
Líneas de trabajo en
procesamiento de voz
•
•
•
•
•
•
•
•
•
•
•
Procesamiento, reconocimiento y síntesis de voz.
Llenado de solicitudes de servicios por voz: transporte, citas, formas.
Voz y texto emotivo: reconocimiento y síntesis.
Diseño de interfaces y sistemas para acción a distancia mediante
reconocimiento de voz: Teléfonos, Internet, Hogar, industria, etc.
Reconocimiento de voz multi plataformas: PCs, DSPs, Celulares (Sistema
Operativo Androide)
Reconocimiento y certificación de locutores, su separación en
conversaciones y seguimiento. Doblaje de locutor.
Control de acceso multi-biométrico: voz, rostro, huellas.
Traducción automática de voz. Servicios para atención personalizada a
hablantes de diferentes idiomas.
Sistema de ayuda a discapacitados auditivos. Implantes cocleares.
Aplicaciones de reconocimiento de voz para control de manipuladores en
condiciones no apropiadas para el hombre.
Estudio de idiomas, corrección del lenguaje hablado.
Laboratorio de Procesamiento
digital de señales
4
Procesamiento de voz.
La señal de voz
La voz es una señal que lleva información
consciente, inteligente, producida por los
humanos para que las personas que la
escuchan obtengan información directa, sin la
necesidad de otra fuente adicional como
imágenes o texto. Es la forma universal de
comunicación entre las personas. El lenguaje es
la frontera que limita el captar la información
que se emite de una persona a otra.
Laboratorio de Procesamiento
digital de señales
5
Ventajas del habla como
interfaz
•
•
•
•
Natural: no requiere capacitación
Rápido: 160 palabras por minuto
Flexible: ojos y manos quedan libres
Accesible: a distancia por vía telefónica
(Internet)
Laboratorio de Procesamiento
digital de señales
6
Complejidad en las aplicaciones de
procesamiento de voz
Complejidad
•
•
•
•
•
“Comandos y Control”
“Llenado de formas”
“Dictado automático”
“Recuperación de información”
“Realización de tareas en
colaboración”
• “Traducción automática y
servicios de información”
Laboratorio de Procesamiento
digital de señales
Reconocimiento
Entendimiento
7
Proyectos
•
•
•
•
•
•
•
•
•
•
•
•
•
Reconocimiento de voz para frases acotadas en español. Uso en traducción de
lenguas autóctonas de México y el español.
Reconocimiento de voz para frases acotadas en español utilizando la red
telefónica. Uso de la gramática del lenguaje.
Separación y seguimiento de locutores en una conversación.
Voz forense, identificación y certificación de locutores.
Acceso a Internet por voz. Búsqueda de información interactiva.
Reconocimiento del idioma hablado. Reglas de producción de voz.
Síntesis de voz emotiva. Doblaje.
Sistema para generación de aplicaciones de reconocimiento de voz. Módulos
del sistema.
Sistema automático de respuesta a solicitudes y control por voz.
ESCUCHA, ayuda a personas con discapacidad. Reconocimiento de lo que se
habla. ¿bien o incorrecto? Enseñanza de idiomas.
Modelos de la fisiología de la cóclea, extracción de características.
Análisis de música y creación de partituras a partir de un registro de audio
musical, reconocimiento de melodías, plagio, etc.
Análisis y reconocimiento de clases de ruido, usando técnicas de
procesamiento de voz.
Laboratorio de Procesamiento
digital de señales
8
¿Cómo es el procedimiento
para reconocer voz?
• La voz es una señal que posee información temporal dinámica, es una
señal isocrónica. La perdida de sincronía es perdida de información.
• El mensaje está contenido en la dinámica de concatenación de los
fonemas. Que a su vez forman las palabras y éstas conforman frases.
• La voz tiene información redundante y porta ruido.
• Hay que eliminar el ruido, extraer la información importante.
• La información importante está contenida en características
paramétricas, patrones bien definidos. Hay que extraer esas
características o patrones.
• Los patrones característicos se usan para reconocer, clasificar, la
información contenida.
• Hay que utilizar modelos para reconocer, clasificar los patrones.
• Hay que entrenar los modelos de reconocimiento, clasificación.
Laboratorio de Procesamiento
digital de señales
9
Procesamiento de voz
SEÑAL
DE
ENTRADA
PREPROCESAMIENTO
EXTRACCIÓN
DE CARACTERÍSTICAS.
PATRONES
Front – End
-Adecuación,
-Filtrado,
-Extracción de
parámetros en el
dominio del tiempo
y la frecuencia
ENTRENAMIENTO
DEL SISTEMA
COMPARACIÓN
DE PATRONES
DECISIÓN.
SALIDA
ESPERADA
RESPUESTA
Back – End
-Selección de
parámetros.
-Modelos.
-Reconocimiento
-Clasificación
Laboratorio de Procesamiento
digital de señales
10
Modelo de Reconocimiento de voz
y traducción acotada
Señal Voz
Procesamiento
y extracción
de parámetros
Texto en idioma nativo
Del locutor que habla
Texto traducido
Locutor que habla
Modelo de
fonemas, difonemas,
trifonemas, sílabas,
palabras y oración
Resultado
del
reconocimiento
Traducción
acotada
Corrección
léxica
Laboratorio de Procesamiento
digital de señales
11
Sistema para el desarrollo de ampliaciones del
reconocimiento automático de voz. MÓDULOS
Captura
de datos
de voz
Etiquetado automático
por segmento, según
parámetros escogidos
Extracción de
parámetros
característicos por
segmentos
Elección,
diseño y
entrenamiento
del modelo
Reconocimiento de
voz (locutores)
usando el modelo
escogido y
entrenado
Síntesis de
voz
APLICACIÓN
Es un módulo que se diseña a solicitud del usuario y su única entrada
es el resultado del reconocimiento de voz (locutor): palabra o frase.
Puede interactuar con el módulo de síntesis de voz
Laboratorio de Procesamiento
digital de señales
12
Un sistema para la implantación del lenguaje
‘EXPARAM’
Laboratorio de Procesamiento
digital de señales
13
Alumnos en A15
Alumnos activos 2015
Maestría: alumnos
• Cesar Edgard Montano (B13). Doblaje, conversión de voz y separación de locutores.
• Avelino Hernández Hugo Alberto (B13). Sistema mecatrónico para la fabricación de
modelos CAD 3D por medio de manufactura aditiva.
• Erik Daniel Ornelas Ledesma (B13). Mejoramiento en la administración de la red
eléctrica de distribución con uso de computo no convencional. LPDS y LRNCNC
• Pablo Tovar Castañón (A14). Análisis y creación de partituras musicales a partir de
la música interpretada.
• Fernando Rubén González Hernández (A14). Modelo computacional para el análisis
de patrones acústicos subacuáticos.
• Omar Velázquez López (B14). Implementación de técnicas de procesamiento para un
transcriptor de música en tiempo real.
• Alejandro Ivan Callejas Ramos (B14). Algoritmos de reconstrucción de imágenes de
escala de grises mediante GPU.
Doctorado: alumnos
• Luis Alejandro Sánchez Pérez (A12) Modelo computacional para clasificación de
aeronaves y su trayectoria, a partir del ruido en el despegue. LPDS y LSIA.
Servicio Social: NO SE TIENEN
Laboratorio de Procesamiento
digital de señales
14
Gracias por su atención
[email protected]
Laboratorio de Procesamiento
digital de señales
15
Descargar

procesamiento digital de voz y señales