Selección de unidades léxicas para reconocimiento antomático del habla continua en euskera

Lopez de Ipiña Peña, Miren Karmele; Ezeiza Ramos, Aitzol; Graña, Fernando Manuel; Zulueta Guerrero, Ekaitz

Selección de unidades léxicas para reconocimiento antomático del habla continua en euskera

Journal:

Procesamiento del lenguaje natural

ISSN: 1135-5948

Year of publication: 2003

Issue: 31

Pages: 115-122

Type: Article

DIALNET GOOGLE SCHOLAR RUA editor

More publications in: Procesamiento del lenguaje natural

Abstract

El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta Osos de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento. El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta Osos de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento.

Data source: Dialnet