Estudio y modelización acústica del habla espontanea en diálogos hombre/máquina y entre personas

RODRIGUEZ FUENTES, LUIS JAVIER

Estudio y modelización acústica del habla espontanea en diálogos hombre/máquina y entre personas

RODRIGUEZ FUENTES, LUIS JAVIER

Zuzendaria:

María Inés Torres Barañano Zuzendaria

Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 2004(e)ko uztaila-(a)k 07

Epaimahaia:

José Bernardo Mariño Acebal Presidentea
Amparo Varona Fernández Idazkaria
Eduardo Lleida Solano Kidea
Francisco Casacuberta Nolla Kidea
Antonio Moreno Sandoval Kidea

Saila:

Elektrizitatea eta Elektronika

Mota: Tesia

Teseo: 103583 DIALNET

Laburpena

En esta tesis se describe, en primer lugar, un nuevo esquema de anotación de fenómenos de habla espontánea, así como su aplicación a dos bases de datos, una de ellas ligada a una tarea y formada por diálogos hombre-máquina, y la otra completamente genérica y formada por diálogos naturales entre personas. Se ha estudiado y comparado la distribución de fenómenos en ambas bases de datos, su dependencia de la duración y de la identidad del hablante, así como la posibilidad de utilizar fenómenos acústicos, léxicos y pragmáticos para predecir la presencia de reformulaciones. A continuación se describen las características principales del sistema de reconocimiento del GRFyTH, dedicando una mayor extensión a los modelos acústicos y las alternativas de estimación. Se presentan resultados de decodificación acústico-fonética (DAF) y de reconocimiento que muestran la degradación que experimentan los sistemas de reconocimiento frente al habla espontánea. Para reducir dicha degradación, en primer lugar se propone modelar explícitamente los fenómenos de tipo acústico. Esto conduce a reducciones sustanciales del error, de entre el 11 y el 13% en DAF y de hasta el 20% en reconocimiento. Por último se propone un algoritmo de clustering que trata de identificar automáticamente conjuntos de hablantes con características similares, de manera que sea posible, para cada señal de entrada, elegir el grupo de hablantes más afín, lo cual debería mejorar el rendimiento. Tanto el algortimo de clustering como la función de selección están basadas en un modelo acústico muy simple que, sin embargo, muestra una gran precisión y coherencia. Aunque los modelos de grupos de hablantes no mejoran el rendimiento de los modelos de género, tienen muchas posibilidades de éxito si se aplican sobre bases de datos lo bastante grandes, que permitan obtener estimaciones robustas de los modelos acústicos.