Síntesis del habla

Profesor	MIGUEL ÁNGEL RODRÍGUEZ CRESPO
Categoría	Jefe de Proyecto
Institución	Telefónica I+D
Contacto	miguel@tid.es
Créditos
Horario

Sobre el profesor

Descripción

Carácter teórico, aunque se incluirán demostraciones y prácticas para ilustrar los contenidos impartidos.
Descripción: Se ofrecerá una visión panorámica de la tecnología de conversión texto-voz. (CTV), los diferentes problemas que debe abordar, y las soluciones que actualmente se dan.
Será preciso que los alumnos dispongan de ordenadores individuales para hacer algunas prácticas. Los ordenadores deberán contar con micrófono y auriculares, y conexión a Internet.

Requisitos

Es recomendable (aunque no indispensable) tener conocimientos generales de gramática, fonología, fonética, tratamiento digital de señal y estadística.

Se precisa un nivel básico en el manejo de ordenadores.

En las prácticas se usarán los siguientes programas (aunque no es preciso tener experiencia previa en su uso):

- PRAAT

- formant

- VTDemo

Objetivos

Comprender lo que es un sistema de conversión texto-voz (CTV), y los módulos que lo constituyen.
Reconocer la relativa complejidad de los problemas interdisciplinares que es necesario abordar, y las soluciones que se dan.
Conocer la utilidad de los CTV, familiarizarse con su uso adecuado, y saber lo que pueden y lo que no pueden hacer.

Programa

Definición de conversión texto-voz (CTV)
Relación de la CTV con otras tecnologías
Antecedentes históricos
Algunas aplicaciones
Planteamiento general y arquitectura de un sistema CTV
Descripción de los módulos componentes
- Normalizador
- Preproceso
- Categorizador
- Estructurador / pausador
- Conversor grafema-alófono
- Generador de parámetros prosódicos
- Sintetizador de voz
Clasificación de los sistemas CTV
Panorámica de sistemas actuales
Evaluación de la calidad
Construcción de nuevas voces (“locutores”)
Tendencias de futuro

Metodología

Clases teóricas: 20 horas. Para amenizar e ilustrar los contenidos teóricos se harán algunas demostraciones y prácticas.

Bibliografía y documentación complementaria

Conversor Texto-Voz multilingüe para español, catalán, gallego y euskera”, M.Á. Rodríguez, J.G. Escalada y D. Torre, Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), revista nº 23, 1998.
An Introduction to Text-to-Speech Synthesis” Thierry Dutoit, Kluwer Academic Publishers 1997.
Text-to-Speech: The MITalk System” J. Allen, M. Hunnicut y D. Klatt, Cambridge University Press 1987.
Multilingual Text-to-Speech Synthesis: The Bell Labs Approach” ed. Richard Sproat.
Talking Machines” ed. G. Bailly and C. Benoit, Hort Holland 1992.
Progress in Speech Synthesis” ed. J. van Santen, R. Sproat, J. Olive y J. Hirschberg. Springer Verlag 1996.
Text-to-Speech Synthesis. New Paradigms and Advances” ed. S. Narayanan y A. Alwan, Prentice Hall 2004.