Síntesis del habla
Profesor | MIGUEL ÁNGEL RODRÍGUEZ CRESPO |
Categoría | Jefe de Proyecto |
Institución | Telefónica I+D |
Contacto | miguel@tid.es |
Créditos | |
Horario | |
Sobre el profesor
Descripción
- Carácter teórico, aunque se incluirán demostraciones y prácticas para ilustrar los contenidos impartidos.
- Descripción: Se ofrecerá una visión panorámica de la tecnología de conversión texto-voz. (CTV), los diferentes problemas que debe abordar, y las soluciones que actualmente se dan.
- Será preciso que los alumnos dispongan de ordenadores individuales para hacer algunas prácticas. Los ordenadores deberán contar con micrófono y auriculares, y conexión a Internet.
Requisitos
Es recomendable (aunque no indispensable) tener conocimientos generales de gramática, fonología, fonética, tratamiento digital de señal y estadística.
Se precisa un nivel básico en el manejo de ordenadores.
En las prácticas se usarán los siguientes programas (aunque no es preciso tener experiencia previa en su uso):
- PRAAT
- formant
- VTDemo
Objetivos
- Comprender lo que es un sistema de conversión texto-voz (CTV), y los módulos que lo constituyen.
- Reconocer la relativa complejidad de los problemas interdisciplinares que es necesario abordar, y las soluciones que se dan.
- Conocer la utilidad de los CTV, familiarizarse con su uso adecuado, y saber lo que pueden y lo que no pueden hacer.
Programa
- Definición de conversión texto-voz (CTV)
- Relación de la CTV con otras tecnologías
- Antecedentes históricos
- Algunas aplicaciones
- Planteamiento general y arquitectura de un sistema CTV
- Descripción de los módulos componentes
- Normalizador
- Preproceso
- Categorizador
- Estructurador / pausador
- Conversor grafema-alófono
- Generador de parámetros prosódicos
- Sintetizador de voz
- Clasificación de los sistemas CTV
- Panorámica de sistemas actuales
- Evaluación de la calidad
- Construcción de nuevas voces (“locutores”)
- Tendencias de futuro
Metodología
Clases teóricas: 20 horas. Para amenizar e ilustrar los contenidos teóricos se harán algunas demostraciones y prácticas.
Bibliografía y documentación complementaria
- Conversor Texto-Voz multilingüe para español, catalán, gallego y euskera”, M.Á. Rodríguez, J.G. Escalada y D. Torre, Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), revista nº 23, 1998.
- An Introduction to Text-to-Speech Synthesis” Thierry Dutoit, Kluwer Academic Publishers 1997.
- Text-to-Speech: The MITalk System” J. Allen, M. Hunnicut y D. Klatt, Cambridge University Press 1987.
- Multilingual Text-to-Speech Synthesis: The Bell Labs Approach” ed. Richard Sproat.
- Talking Machines” ed. G. Bailly and C. Benoit, Hort Holland 1992.
- Progress in Speech Synthesis” ed. J. van Santen, R. Sproat, J. Olive y J. Hirschberg. Springer Verlag 1996.
- Text-to-Speech Synthesis. New Paradigms and Advances” ed. S. Narayanan y A. Alwan, Prentice Hall 2004.