Euskarazko hizketa jarraituaren ezagutza automatikoa eredu estokastikoen bidez

LOPEZ DE IPIÑA PEÑA, MIREN KARMELE

Euskarazko hizketa jarraituaren ezagutza automatikoa eredu estokastikoen bidez

LOPEZ DE IPIÑA PEÑA, MIREN KARMELE

Dirigida por:

Manuel Graña Romay Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 25 de junio de 2003

Tribunal:

José Bernardo Mariño Acebal Presidente/a
Carmen Hernández Gómez Secretario/a
Nerea Ezeiza Ramos Vocal
Francisco Javier Torrealdea Folgado Vocal
Itziar Aduriz Vocal

Departamento:

Ciencia de la Computación e Inteligencia Artificial

Tipo: Tesis

Teseo: 96817 DIALNET

Resumen

La presente memoria culmina un proces de 10 años dedicados al desarrollo de recursos y sistemas de reconocimiento del habla continua (CSR) en euskera, que constituyen un trabajo pionero en esta lengua. En este trabajo hemos tenido que reproducir esfuerzos, trabajos y resultados que ya existían para otras lenguas, y también nos hemos beneficiado del estado del arte actual en muchos aspectos del desarrollo de los sistemas de reconocimiento automático del habla (ASR). Una parte fundamental del trabajo es el desarrollo de recursos para el análisis estadístico de la lengua y para la construcción de los sistemas de reconocimiento. Estos recursos abarcan textos de diversas fuentes, en un intento de realizar un muestreo exhaustivo de la lengua, así como una base de datos fonética de voz en la que se ha tratado de obtener una representación adecuada para las diversas variedades dialectales. También se incluyen tareas de complejidad controlada para la evaluación de sistemas de reconocimiento. Este trabajo, que normalmente se realiza con grandes equipos humanos y fuertes financiaciones, ha sido realizado por un grupo escaso de voluntarios que colaboraron de modo desinteresado en las diversas fases de la tesis, y con limitados recursos teóricos. Los trabajos se inician con la construcción de un decodificador acústico fonético para el euskera. El conjunto base de unidades subléxicas de tipo fonético independientes del contexto se escogieron de acuerdo a criterios lingüísticos y estadísticas fonéticas y fonológicas de la lengua. Posteriormente se realizo una selección de las unidades de mínima confusión para todas las variedades dialectales de la zona sur. Este sistema es la base y piedra angular de los posteriores desarrollados. Los trabajo se orientan a continuación a la selección de unidades léxicas para CSR. En muchas lenguas (ingles, francés o español) las unidades léxicas se identifican habitualmente co