Selección de unidades léxicas para reconocimiento antomático del habla continua en euskera
- Lopez de Ipiña Peña, Miren Karmele
- Ezeiza Ramos, Aitzol
- Graña, Fernando Manuel
- Zulueta Guerrero, Ekaitz
ISSN: 1135-5948
Year of publication: 2003
Issue: 31
Pages: 115-122
Type: Article
More publications in: Procesamiento del lenguaje natural
Abstract
El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta Osos de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento. El euskera es una lengua aglutinante, lo que implica que el vocabulario de un corpus no puede definirse mediante palabras porque crece combinatorialmente y se hace intratable para tareas de medio y gran vocabulario. Los seudo-morfemas, generados mediante una herramienta de segmentación automatizada pueden ser una buena alternativa para la construcción del lexicón y de un modelo del lenguaje, puesto que reducen notablemente el tamaño del vocabulario. En euskera el número de morfemas cortos y acústicamente muy parecidos es muy alto. Este es un fenómeno que debe de tenerse en cuenta ya que el proceso de decodificación acústico fonética puede influir en el CSR, al aumentar la posibilidad de confusión e inserción de ciertas unidades léxicas (unidades muy cortas y con alta Osos de confusión acústica). Una posible forma de abordar el problema es no segmentar estas unidades. El siguiente paso en la mejora del sistema de CSR en euskera es la utilización de un modelo de lenguaje para guiar el proceso de reconocimiento.