Análisis y evaluación de parámetros para identificación automática de emociones en el habla

  1. LUENGO GIL, IKER
Dirigida por:
  1. Eva Navas Cordón Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 01 de junio de 2010

Tribunal:
  1. José Bernardo Mariño Acebal Presidente/a
  2. Inmaculada Hernáez Rioja Secretario/a
  3. Laura Docío Fernández Vocal
  4. Carmen García Mateo Vocal
  5. Valentín Cardeñoso Payo Vocal
Departamento:
  1. Ingeniería de Comunicaciones

Tipo: Tesis

Teseo: 297350 DIALNET lock_openTESEO editor

Resumen

El número y tipo de parámetros utilizados son uno de los elementos clave a la hora de diseñar un sistema de identificación automática de emociones en la voz. Sin embargo, no existe un consenso sobre qué parámetros son los mejores para la identificación de emociones. Este fenómeno se agrava por la falta de un estudio sistemático que analice la efectividad de cada parametrización con el objetivo de determinar la más favorable. Mediante el trabajo desarrollado en esta tesis se pretende cubrir este vacío del campo del habla emocionada. Se presenta un análisis sistemático de las parametrizaciones acústicas más comúnmente utilizadas en la identificación automática de emociones, determinando así su capacidad para distinguir los diferentes estilos de habla y su efectividad en los sistemas de identificación. Se ha tenido especial cuidado en utilizar bases de datos y arquitecturas comunes durante todo el proceso, de forma que los resultados obtenidos para las diferentes parametrizaciones puedan ser comparables. En una primera fase, se ha realizado el análisis sobre emociones actuadas, utilizando la base de datos de habla emocional Berlin. Las conclusiones resultantes han sido posteriormente validadas en emociones naturales y habla espontánea, mediante la base de datos AIBO. En ambos casos se ha llegado a conclusiones similares, mostrando que aquellas parametrizaciones que destacan por su capacidad de discriminar emociones actuadas también obtienen los mejores resultados en situaciones más reales. Los resultados desvelan que los parámetros prosódicos o de calidad de voz más habitualmente utilizados no son los más adecuados para la identificación automática de emociones, ya que las características espectrales presentan mayor capacidad de discriminación. Este efecto es más acusado cuando se consideran emociones naturales en habla espontánea.