Suavizado de autómatas y traductores finitos estocásticos

Llorens Piñana, David

Suavizado de autómatas y traductores finitos estocásticos

Llorens Piñana, David

unter der Leitung von:

Juan Miguel Vilar Torres Doktorvater/Doktormutter
Francisco Casacuberta Nolla Doktorvater/Doktormutter

Universität der Verteidigung: Universitat Politècnica de València

Fecha de defensa: 21 von Juli von 2000

Gericht:

Enrique Vidal Ruiz Präsident/in
José Miguel Benedí Ruiz Sekretär/in
José Bernardo Mariño Acebal Vocal
María Inés Torres Barañano Vocal
Antonio Bonafonte Cávez Vocal

Art: Dissertation

Teseo: 79387 DIALNET

Zusammenfassung

Una parte fundamental de los sitemas de reconocimiento del habla es el modelo de lenguaje, Éste tiene la tarea de decidir los aceptable que es una frase. En reconocimiento del habla, los modelos de lenguaje más habituales son los modelos de n-gramas, por tres razones: pueden aprederse automáticamente a partir de ejemplos, existen multitud de técnicas de suavizado que resuelven (al menos parcialmente) el problema de disponer de un número insuficiente de muestras, y además, como modelos de estados finitos que son, se integran fácilmente en un sistema de reconocimiento. Actualmente, se conocen varias técnicas para aprender automáticamente modelos de estados finitos mas generales que los n-gramas. Sin embargo, debido a la falta de técnicas de suavizado, estos modelos se han relegado aplicaciones muy específicas y con vocabularios pequeños. En esta tesis nos planteamos el problema del suvizado de modelos de estados finitos (autómatas y traductores). La aproximación adoptada consiste en extender las técnicas de suavizado de n-grmas. Para ello, en primer lugar formalizamos el modelo de n-gramas suavizados como un autómata finito determinista estocástico (esta formalización nos permite obtener un nuevo tipo de suvizado de n-gramas). A continuación, presentamos dos algoritmos para el suavizado de autómatas: uno para suavizar con un n-grama y el otro para suavizar con otro autómata. Finalmente, extendemos los dos algoritmos anteriores para suavizar traductores tanto con modelos de n-grmas como con otros traductores.