Técnicas de mejora del rendimiento de los sistemas de diarización de locutores

  1. TAVAREZ ARRIBA, DAVID
Dirigida por:
  1. Eva Navas Cordón Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 19 de diciembre de 2016

Tribunal:
  1. Inmaculada Hernáez Rioja Presidente/a
  2. Daniel Erro Eslava Secretario/a
  3. Alfonso Ortega Giménez Vocal
Departamento:
  1. Ingeniería de Comunicaciones

Tipo: Tesis

Teseo: 121456 DIALNET lock_openADDI editor

Resumen

El objetivo de la diarización es detectar los cambios de locutor en una grabación e identificar qué segmentos de voz corresponden a un mismo locutor, respondiendo a la pregunta ¿quién habló cuándo¿.El trabajo realizado en esta tesis abarca diferentes aspectos relacionados con el proceso de diarización de locutores, centrando el esfuerzo en los problemas comunes a los diferentes campos de aplicación.En primer lugar, se han recopilado dos nuevas bases de datos que permitirán el desarrollo y la implementación de nuevos sistemas de diarización en los dos principales ámbitos de aplicación. Además, se han diseñado dos nuevas técnicas de segmentación de audio, refrendadas con éxito en distintas campañas de evaluación organizadas por la Red Temática en Tecnologías del Habla. Se ha desarrollado un método de fusión de etiquetas que tiene en cuenta el desequilibrio entre clases, habitual en distintas áreas del procesado de la voz, como son la segmentación de audio, el reconocimiento de emociones o el reconocimiento y verificación de locutores. En cuanto a la tarea de segmentación de locutores, se ha introducido en esta tesis una técnica de detección de cambios de turno basada en el análisis trama a trama, que permite extender el funcionamiento online a los sistemas de diarización. Por último, se ha propuesto una técnica de mejora de la diarización basada en la identificación y reagrupamiento de clusters pertenecientes a un mismo locutor.