Tecnologías del habla en euskerareconocimiento, identificación y traducción de voz
- María Inés Torres Barañano Director/a
Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 14 de diciembre de 2010
- José Manuel Pardo Muñoz Presidente/a
- Kepa Sarasola Gabiola Secretario/a
- María José Castro Bleda Vocal
- Eduardo Lleida Solano Vocal
- Emilio Sanchís Arnal Vocal
Tipo: Tesis
Resumen
El presente trabajo gira en torno al estudio de la aplicación de las tecnologías del habla al euskera, principalmente alrededor del reconocimiento automático del habla. Partiendo de cero, hemos tenido que crear los componentes de un sistema de reconocimiento, como los modelos acústicos y grabar corpus como aplicación del sistema. Más adelante hemos estudiado el uso y la integración de distintos tipos de unidades léxicas en procesos de reconocimiento, pensando principalmente en su utilidad para idiomas morfológicamente ricos como el euskera. En concreto hemos probado el uso de lemas, morfemas y secuencias de palabras. El primero ha resultado no ser efectivo debido a la pérdida de la relación entre las palabras. El segundo tipo he resultado ser más adecuado, ya que proporciona mejoras de resultados, tiempo de cálculo y/o cobertura de palabras. Para el tercer caso, hemos observado como es posible mejorar los resultados con una selección adecuada. Aunque el reconocimiento ha sido el apartado fundamental, tecnologías y modelos desarrollados para ello han servido para otros campos de las tecnologías del habla, como la traducción o la identificación del idioma. En concreto, hemos probado el uso de las secuencias de palabras al caso de traducción, obteniéndose mejoras respecto al sistema base basado en palabras. Respecto a la identificación, nos hemos concentrado en el análisis de métodos basados en la fonotáctica, estudiando el caso de modelos fonotácticos entrenados a partir de muestras de voz, así como de texto, y el uso de secuencias en ambos casos. Los resultados han mostrado que los modelos basados en texto pueden rendir de manera similar a los basados en voz. Respecto al uso de secuencias, su uso tiende en general a empeorar los resultados, siendo únicamente de utilidad cuando el conocimiento fonotáctico se aplica durante el proceso de decodificación.