Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido

LINARES OSPINA DIEGO LUIS

Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido

LINARES OSPINA DIEGO LUIS

Dirigée par:

José Miguel Benedí Ruiz Directeur/trice
Joan Andreu Sánchez Peiró Co-directeur/trice

Université de défendre: Universitat Politècnica de València

Fecha de defensa: 19 décembre 2003

Jury:

Francisco Casacuberta Nolla President
Ferrán Pla Secrétaire
Andrés Marzal Varó Rapporteur
María Inés Torres Barañano Rapporteur
Jorge Calera Rubio Rapporteur

Type: Thèses

Teseo: 105634 DIALNET

Résumé

Esta tesis se centra en el estudio de las Gramáticas Incontextuales Estocásticas (GIE) generales. Pricipalmente se centra en los problemas de la estimación a partir de un corpus y de su integración como modelo de lenguaje en tareas reales. En lo que se refiere a la estimación, se unifica en un solo marco todos los algoritmos de estimación para las GIE en formato general. Para ello se utiliza un conjunto de derivaciones que al ser restringido, utilizando información estadística y estructural de la muestra, permite definir tanto los algoritmos clásicos de estimación como algunos que proponemos. Con respecto a la integración de las GIE en tareas reales, se utiliza un modelo de lenguaje híbrido. Este modelo se define como una combinación lineal de un modelo de n-gramas basado en palabras que se utiliza para capturar las relaciones locales entre palabras; y una gramática estocástica de categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Igualmente se describe la manera como se estiman e integran todos estos modelo, de manera que el modelo de lenguaje híbrido sea útil en tareas reales con grandes vocabularios. Finalmente, se han realizado experimentos de evaluación tanto de los modelos estimados como del modelo de lenguaje híbrido definido a partir de éllos. Estos experimentos se han realizado principalmente con el corpus de "Upenn Trebank". Los resultados obtenidos se han medido en términos de la perplejidad de un conjunto de test y la tasa de error por palabra. Estos resultados se han comparado con toros modelos propuestos por otros autores.