La fase en los modelos armónicos de la señal de vozestrategias de representación, tratamiento y aplicaciones
- Inmaculada Hernáez Rioja Director
Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 05 March 2012
- José Manuel Pardo Muñoz Chair
- Eva Navas Cordón Secretary
- Daniel Erro Eslava Committee member
- María Asunción Moreno Bilbao Committee member
- Eduardo Rodríguez Banga Committee member
Type: Thesis
Abstract
En esta tesis hemos desarrollado, en el marco de los modelos armónicos de la voz, una nueva representación de la información de fase denominada RPS (Relative Phase Shift). Esta transformación permite obtener una magnitud directamente relacionada con la forma de onda de la señal, independiente del instante de análisis y, sobre todo, muestra de forma evidente la estructura de fases de la señal.Una vez desarrollada la representación RPS, se estudian las características de la misma, la influencia de la señal de excitación y del tracto vocal sobre los RPSs, y su relación con la polaridad de la señal. La polaridad influye notablemente sobre los RPSs y esta propiedad se utiliza con éxito para implementar un algoritmo de detección de polaridad.Una parte de la tesis se dedica a buscar un modelado adecuado de la estructura de fase que muestran los RPSs. Así se define primero una parametrización de los RPSs apropiada para su modelado estadístico, lo que nos permite usar los RPSs en aplicaciones de reconocimiento de habla y de locutor. Además, utilizamos los RPSs para afrontar el problema de los impostores sintéticos: señales de voz generadas por síntesis imitando la voz de un locutor con el fin de burlar a un sistema de verificación.Finalmente, estudiamos la importancia perceptual de las fases, para responder a la pregunta de si merece la pena incluir la fase, en forma de RPSs, en los sistemas de síntesis de voz. Así, evaluamos perceptualmente las distorsiones de diferentes señales resintetizadas con fase modificada aprovechando las posibilidades de manipulación de las RPSs. Con todo esto, la tesis pone de manifiesto la utilidad de esta nueva representación de las fases para su aplicación en diferentes ámbitos del procesado de la voz.