Estudio y modelización acústica del habla espontanea en diálogos hombre/máquina y entre personas

RODRIGUEZ FUENTES, LUIS JAVIER

Estudio y modelización acústica del habla espontanea en diálogos hombre/máquina y entre personas

RODRIGUEZ FUENTES, LUIS JAVIER

unter der Leitung von:

María Inés Torres Barañano Doktorvater/Doktormutter

Universität der Verteidigung: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 07 von Juli von 2004

Gericht:

José Bernardo Mariño Acebal Präsident/in
Amparo Varona Fernández Sekretär/in
Eduardo Lleida Solano Vocal
Francisco Casacuberta Nolla Vocal
Antonio Moreno Sandoval Vocal

Fachbereiche:

Electricidad y Electrónica

Art: Dissertation

Teseo: 103583 DIALNET

Zusammenfassung

En esta tesis se describe, en primer lugar, un nuevo esquema de anotación de fenómenos de habla espontánea, así como su aplicación a dos bases de datos, una de ellas ligada a una tarea y formada por diálogos hombre-máquina, y la otra completamente genérica y formada por diálogos naturales entre personas. Se ha estudiado y comparado la distribución de fenómenos en ambas bases de datos, su dependencia de la duración y de la identidad del hablante, así como la posibilidad de utilizar fenómenos acústicos, léxicos y pragmáticos para predecir la presencia de reformulaciones. A continuación se describen las características principales del sistema de reconocimiento del GRFyTH, dedicando una mayor extensión a los modelos acústicos y las alternativas de estimación. Se presentan resultados de decodificación acústico-fonética (DAF) y de reconocimiento que muestran la degradación que experimentan los sistemas de reconocimiento frente al habla espontánea. Para reducir dicha degradación, en primer lugar se propone modelar explícitamente los fenómenos de tipo acústico. Esto conduce a reducciones sustanciales del error, de entre el 11 y el 13% en DAF y de hasta el 20% en reconocimiento. Por último se propone un algoritmo de clustering que trata de identificar automáticamente conjuntos de hablantes con características similares, de manera que sea posible, para cada señal de entrada, elegir el grupo de hablantes más afín, lo cual debería mejorar el rendimiento. Tanto el algortimo de clustering como la función de selección están basadas en un modelo acústico muy simple que, sin embargo, muestra una gran precisión y coherencia. Aunque los modelos de grupos de hablantes no mejoran el rendimiento de los modelos de género, tienen muchas posibilidades de éxito si se aplican sobre bases de datos lo bastante grandes, que permitan obtener estimaciones robustas de los modelos acústicos.