Intra-lingual and cross-lingual voice conversion using harmonic plus stochastic models

  1. ERRO ESLAVA, DANIEL
Dirigida por:
  1. María Asunción Moreno Bilbao Director/a

Universidad de defensa: Universitat Politècnica de Catalunya (UPC)

Fecha de defensa: 16 de junio de 2008

Tribunal:
  1. Antonio Bonafonte Cávez Presidente/a
  2. Helenca Duxans Barrobes Secretario/a
  3. Inmaculada Hernáez Rioja Vocal
  4. Xavier Serra Casals Vocal
  5. Eduardo Rodríguez Banga Vocal

Tipo: Tesis

Teseo: 272502 DIALNET

Resumen

Dentro de las tecnologías del habla, la conversión de voz consiste en transformar la voz de un hablante, llamado hablante origen, de tal modo que los oyentes la perciban como si fuera la de otro hablante, llamado hablante objetivo. Aunque los rasgos de la voz dependientes del hablante son diversos, la conversión de voz se aplica especialmente a los de naturaleza acústica, es decir, los rasgos espectrales y los de frecuencia fundamental. Las aplicaciones de la conversión de voz son múltiples, siendo la más destacada permitir a los sistemas de síntesis de voz generar habla con diferentes voces sin necesidad de disponer de grandes bases de datos asociadas a cada una de ellas. El propósito de la presente tesis es dotar a los sistemas de conversión de voz de una mayor calidad y versatilidad que la que actualmente tienen. Como primer paso para la realización del presente trabajo de investigación, se ha desarrollado un sistema de análisis, modificación y síntesis de voz basado en el modelo armónico-estocástico de señal. La primera de las contribuciones contenidas en esta tesis son nuevos métodos que operan sobre los parámetros de dicho modelo y que sirven para la modificación prosódica de la señal de voz y para la concatenación de fragmentos. A diferencia de otras alternativas existentes, estos métodos no requieren tomar como referencia puntos de señal sincronizados con su período fundamental. Por lo tanto, permiten un análisis inicial más flexible y resuelven eficazmente los problemas de fase que se derivan de él. Con el fin de demostrar la validez del nuevo modelo y sus algoritmos asociados para síntesis de voz, requisito previo para proceder a convertir voces, se compara con TD-PSOLA, que a lo largo de los años se ha consolidado como la técnica más recurrida en el mundo de la síntesis de voz, en condiciones de modificación prosódica fuerte, resultando que los oyentes prefieren mayoritariamente el primero. La primera limitación encontrada en los sistemas de conversión de voz actuales es el hecho de que convertir una voz en otra significa manipular la señal en una cierta medida, lo cual acarrea un deterioro en su calidad. De este modo, los diferentes métodos de conversión existentes presentan un compromiso entre el grado de conversión alcanzado y la calidad de las señales convertidas. En esta tesis, partiendo de un sistema propio del estado del arte actual basado en transformaciones lineales y modelos estadísticos de mezclas gaussianas, se propone un nuevo método de conversión llamado Weighted Frequency Warping, que consiste en combinar el método anterior con la técnica conocida como frequency warping, que se caracteriza por ser respetuosa con la calidad de la señal. El nuevo método es sometido a la evaluación subjetiva de varios oyentes, encargados de puntuar tanto el parecido entre voces convertidas y voces objetivo como la calidad de las señales convertidas resultantes, en una escala de 5 posibles valores. Se concluye que el nuevo método es capaz de incrementar la calidad en más de 0.5 puntos con respecto al sistema de partida, mientras que los resultados de conversión experimentan un leve descenso de menos de 0.1 puntos. La puntuación en calidad supera los 3.5 puntos, lo cual es altamente destacable. Tras participar en una evaluación pública a nivel internacional, se observa que los resultados obtenidos gracias al nuevo método son muy buenos con respecto al resto de competidores. La versatilidad de los sistemas de conversión actuales viene limitada por los requerimientos para poder estimar funciones de transformación adecuadas a partir de los datos de entrenamiento. Muchos de los sistemas existentes necesitan ser entrenados con frases iguales pronunciadas por los dos locutores implicados. Aunque durante los últimos años se han propuesto técnicas que permiten entrenar los sistemas en ausencia de frases paralelas, algunas de ellas compatibles con contextos multilingües, el rendimiento del sistema resultante se ve perjudicado. Se propone aquí una nueva técnica iterativa para alinear tramas sonoras de frases pronunciadas por distintos hablantes, que tiene como ventaja principal el hecho de considerar solamente aspectos acústicos de la señal y no información extra de tipo lingüístico o fonético. Los experimentos presentados confirman que la nueva técnica de alineamiento permite obtener unos resultados de conversión y calidad muy similares a los del sistema entrenado en condiciones ideales. Asimismo, se prueba que la misma técnica puede ser aplicada cuando los idiomas origen y objetivo son distintos, con un ligero deterioro en el rendimiento del sistema. Se incluyen los excelentes resultados alcanzados en una evaluación pública internacional por un sistema de conversión de voz basado en Weighted Frequency Warping que incorpora la nueva técnica de alineamiento. Finalmente, el sistema de conversión de voz desarrollado es aplicado a la creación de un sistema de síntesis de voz multi-hablante. Se realizan experimentos perceptuales para la evaluación de dicho sistema en cuanto a conversión y calidad.