Procesamiento y técnicas de análisis de la señal de voz

Profesor	PEDRO GÓMEZ VILDA
Categoría	Catedrático de Universidad
Institución	Universidad Politécnica de Madrid
Contacto	pedro@pino.datsi.fi.upm.es
Créditos
Horario

Sobre el profesor

Descripción

Carácter instrumental
Descripción:
- Producción y percepción de la voz
- Modelado de la producción: tracto vocal y fuente glótica
- Parametrización
- Espacios de representación
Se requiere un tipo de puesto específico para cada dos alumnos, consistente en un ordenador con entrada y salida de audio y plataforma MATLAB.

Requisitos

Son recomendables conocimientos básicos de física de ondas, matemática discreta y rudimentos de programación

Objetivos

Se pretende que el alumno se familiarice con conceptos básicos de acústica y el procesado de señal, para realizar representaciones visuales, análisis espectral y caracterización de sonidos, desde un punto de vista eminentemente práctico mediante interfaces de usuario de aplicaciones estándar en tratamiento de sonido.

Programa

Temario
- Fisiología de la voz
- Modelo generador de Fant
- Voz sonora: generación de la onda glótica
- Voz sorda: tipos de espectros
- Modelado del sistema glótico
- Modelado del tracto vocal
- Predicción lineal
- Codificación de la voz
- Síntesis de voz
- Reconocimiento de voz
- Identificación del locutor
- Identificación del lenguaje
- Formantes y triángulo vocálico
- Acústica forense

Metodología

Se desarrollarán clases introductorias en que se expondrán los conceptos básicos de un modo teórico, aunque apoyados en ejemplos prácticos sobre la plataforma de ordenador, para pasar progresivamente a aumentar el componente de trabajo práctico en modalidad “learning by doing” reduciendo paulatinamente la componente teórica explicativa e incorporando módulos de autoaprendizaje, desde un balance de 1/2T+1/2P hasta 1P.
Las clases se desarrollarán en aula-laboratorio.
Requiere trabajo individual.

Bibliografía y documentación complementaria

Reconocimiento de Voz y Fonética Acústica, J. Bernal, Rama, 2000.
Discrete-Time Processing of Speech Signals, J. R. Deller et al., John Wiley, 2000.
Spoken Language Processing, X. Huang, Prentice-Hall, 2001.