Recursos lingüísticos para el desarrollo de las tecnologías del habla
Profesor | ANTONIO MORENO, ASUNCION y BONAFONTE |
Categoría | Catedrática de Universidad |
Institución | Universidad Politécnica de Cataluña |
Contacto | asuncion@gps.tsc.upc.edu |
Créditos | |
Horario | |
Sobre el profesor
Descripción
- El curso es de carácter introductorio y teórico.
- Descripción: El objetivo de la asignatura es dar una visión general de los recursos lingüísticos (RL) requeridos en el desarrollo de las tecnologías del habla. Durante el curso se discutirán especificaciones, implementación y resultados de recursos orales orientados al reconocimiento del habla y a la síntesis de voz, así como recursos textuales (corpora y lexicones) orientados a esas tecnologías y a traducción de voz a voz.
- Sería deseable que los estudiantes tuvieran acceso a ordenadores.
Requisitos
Es recomendable que el estudiante tenga conocimientos fonéticos básicos y una visión general de las tecnologías del habla: reconocimiento, síntesis y traducción.
Objetivos
Los estudiantes aprenderán qué son los recursos lingüísticos y porqué son importantes en las tecnologías del habla. El curso incluye las técnicas existentes para el diseño e implementación de RL, entre otras, diseño de corpus, selección de locutores, etiquetado ortográfico y fonético, segmentación, etc., siempre orientado a las distintas tecnologías del habla. No todas estas características son necesarias en todas las aplicaciones y muchas de ellas son extremadamente costosas tanto en tiempo para su desarrollo como en costes de ejecución. El estudiante, al final del curso, deberá ser capaz de evaluar, para cada tecnología, y aplicación, los recursos precisos para entrenar o mejorar un sistema con un compromiso calidad/coste. El estudio se realizará fundamentalmente para el español y sus variantes, y se ilustrará con ejemplos de otras lenguas.
Programa
- Introducción
- Recursos lingüísticos orales para reconocimiento del habla
- Diseño del corpus
- Grabación
- Etiquetado
- Validación
- Recursos lingüísticos orales para síntesis de voz
- Diseño del corpus
- Selección de locutores basada en síntesis de voz.
- Etiquetado y segmentación
- Validación
- Recursos textuales:
- Modelo de lenguaje
- Lexicon para reconocimiento y síntesis
- Recursos orales y textuales para traducción
- Discusión
Metodología
Clases teóricas: 8 horas
Bibliografía y documentación complementaria
Estos son algunos libros y artículos de lectura recomendada. Los artículos estarán accesibles desde Internet.
- Gibbon, D., Moore, R., and Winsky, R., eds.: Handbook of Standards and Resources for Spoken Language Systems. Berlin and New York: Mouton de Gruyter, 1997
- Krauwer, S., Maegaard, B., Choukri, K., Lise Damsgaard Jørgensen .(1994) . Report on Blark for Arabic. Internal report for NEMLAR project.
- Winski R. (1997) SD1.1.1 Definition of corpus, scripts and standards for Fixed Networks Deliverable of the SpeechDat project.
- Kiessling, A. et al.(2001) D21 - Specification of Databases Speecon project . Deliverable of the Speecon project.
- Moreno, A., Senia, F. (2002) The complete SALA II project specifications. Deliverable of the SALA II project Nov 2002
- Heuvel, V.d.H. (1997) SD1.3.3 - Validation criteria for databases Deliverable of the SpeechDat project.
- A. Bonafonte y otros. ”TTS Baselines and specifications” Deliverable D8.1 for the EU project "Technology and Corpora for Speech-to-Speech Translation Technologies" TC-STAR Project N. FP6-506738. Abril 2005
- Ziegenhain, U (2003). Specification of corpora and word lists in 12 languages. LC-STAR Technical report D1.1.
- Maltese, G. (2004). General and Language-specific-independent specification of contents of lexica. in 13 languages. LC-STAR Technical report D2.1.
- Shammass, S. (2004). Specification of validation criteria for lexicons for recognition and synthesis. LC-STAR Technical report D6.1.