Identificación y verificación automáticas del locutor

Profesor	DANIEL RAMOS
Categoría	Profesor Asociado
Institución	Universidad Autónoma de Madrid
Contacto	daniel.ramos@uam.es
Créditos
Horario

Sobre el profesor

Daniel Ramos Castro finalizó sus estudios de Ingeniería de Telecomunicación en 2001 en la ETSI Telecomunicación de la Universidad Politécnica de Madrid. Ha trabajado en varias empresas antes de decidir, en enero de 2003, comenzar sus estudios de doctorado en el Grupo de Reconocimiento Biométrico ATVS, donde finaliza su Tesis Doctoral en diciembre de 2007. Se ha incorporado como Profesor Ayudante Doctor en la Escuela Politécnica Superior de la Universidad Autónoma de Madrid en octubre de 2009. Sus intereses científicos se centran en la evaluación de la evidencia forense utilizando técnicas bayesianas, el reconocimiento de locutor e idioma, los sistemas biométricos, y más generalmente el procesado de señal y el reconocimiento de patrones.

El Dr. Ramos ha recibido varias distinciones por su trabajo de investigación, entre las que destacan el premio al mejor artículo de estudiante en la conferencia IEEE Odyssey 2006 de reconocimiento de locutor e idioma y el premio a la mejor tesis doctoral del Colegio Oficial de Ingenieros de Telecomunicación (COIT). También ha participado en evaluaciones internacionales competitivas de tecnología de reconocimiento de locutor e idioma, como las evaluaciones NIST SRE desde 2004 (liderando el trabajo científico en 2008), la evaluación forense NFI/TNO 2003 y las evaluaciones NIST LRE desde 2009. El Dr. Ramos participa regularmente en comités científicos de múltiples congresos nacionales e internacionales, es revisor habitual en revistas con índice de impacto, dirige y participa en poyectos públicos y contratos nacionales e internacionales en el ámbito de la ciencia forense y es invitado con regularidad a realizar ponencias por diversos organismos.

Descripción

Descripción: tras los conocimientos adquiridos en caracterización del sistema de producción humana de voz, y de fundamentos de técnicas de procesado digital y reconocimiento de patrones, la asignatura aborda los distintos métodos automáticos para la identificación y/ó verificación de la identidad del hablante a partir de su voz. En concreto, se abordarán en detalle las problemáticas de la dependencia/independencia de texto, los diferentes niveles de identificación (acústico, prosódico, fonotáctico, idiolectal, etc.), la variabilidad multisesión (efecto del paso del tiempo en la voz del locutor y desajuste de canal entre las muestras acústicas a comparar), la búsqueda del punto de trabajo óptimo de un sistema, y el diseño y metodología de validación de sistemas. Asimismo, se introducirá la problemática del uso de sistemas automáticos en la casuística forense, centrándonos en una metodología forense adecuada como es la basada en relaciones de verosimilitud (LR), y en la transparencia y testabilidad de los sistemas, como ingredientes fundamentales ambos de una metodología científica para informar al juez sobre la posible autoría del sospechoso en las grabaciones del caso en cuestión.

Requisitos

Ninguno adicional a los estándares del programa en que se inscribe la asignatura.

Objetivos

Conocer las técnicas básicas de reconocimiento automático de locutor
Distinguir entre sistemas dependientes e independientes de texto y sus implicaciones
Saber validar un sistema de reconocimiento automático
Conocer la metodología adecuada para abordar casos forenses con sistemas automáticos

Programa

Técnicas básicas de reconocimiento automático de locutor:
- DTW (alineamiento temporal dinámico),
- VQ (cuantificación vectorial),
- HMM (modelos ocultos de Markov),
- SVM (máquinas de vectores soporte)
- LM (modelos estadísticos de lenguaje)
Identificación y verificación:
- Tipos de sistemas
- Establecimiento de umbrales
- Validación de sistemas
Sistemas dependientes e independientes de texto
Sistemas a distintos niveles de identificación:
- Acústicos
- Prosódicos
- Fonotácticos
- idiolectales
Compensación de variabilidad multisesión
Metodología bayesiana basada en LR para identificación forense
Requisitos forenses: transparencia y testabilidad

Metodología

Clase magistral y lectura crítica de artículos de la bibliografía recomendada

Bibliografía y documentación complementaria

Benesty, Sondhi y Huang (eds.), Handbook of Speech Processing, Capítulos 36, 37 y 38, Springer, 2008.
D. A. Reynolds, “An overview of speaker recognition technology”, Proc. of ICASSP’2003 (IEEE International Conference on Acoustics Speech and Signal Processing), pp. 4072-4075, 2003.
H.J. Künzell, “Current Approaches to Forensic Speaker Recognition”, Proc. ESCA Workshop on Automatic Speaker Recognition, pp 135-141, Martigny (Switzerland), 1994.
C. G. G. Aitken and F. Taroni, Statistics and the Evaluation of Evidence for Forensic Scientists, John Wiley & Sons, Chichester, 2004.
C. Champod, “Identification/individualization: Overview and meaning of ID”, Encyclopedia of Forensic Science, J. Siegel, P. Saukko and G. Knupfer, Editors. Academic Press, London, pp. 1077-1083, 2000.
C. Champod and D. Meuwly, “The inference of identity in forensic speaker recognition”, Speech Communication, vol. 31, pp. 193-203, 2000.
D. Meuwly, Reconaissance de locuteurs en sciences forensiques: l'apport d'une approche automatique, Ph.D. thesis, IPSC-Université de Lausanne, 2001.
P. Rose, Forensic Speaker Identification, Taylor & Francis, 2002.
M. J. Saks and J. J. Koehler, “The coming paradigm shift in forensic identification science”, Science, vol. 309, no. 5736, pp. 892--895, 2005.
N. Brummer and J. du Preez, “Application independent evaluation of speaker detection”, Computer Speech and Language, vol. 20, no. 2-3, pp. 230-275, 2006.
J. Gonzalez-Rodriguez, P. Rose, D. Ramos, D. T. Toledano y J. Ortega-Garcia, “Emulating DNA: Rigorous Quantification of Evidential Weight in Transparent and Testable Forensic Speaker Recognition”, IEEE Trans. on Audio, Speech and Language Processing, Vol. 15, No. 7, pp. 2104-2115, September 2007.