Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido

LINARES OSPINA DIEGO LUIS

Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido

LINARES OSPINA DIEGO LUIS

Dirigida por:

José Miguel Benedí Ruiz Director/a
Joan Andreu Sánchez Peiró Codirector/a

Universidad de defensa: Universitat Politècnica de València

Fecha de defensa: 19 de diciembre de 2003

Tribunal:

Francisco Casacuberta Nolla Presidente/a
Ferrán Pla Secretario/a
Andrés Marzal Varó Vocal
María Inés Torres Barañano Vocal
Jorge Calera Rubio Vocal

Tipo: Tesis

Teseo: 105634 DIALNET

Resumen

Esta tesis se centra en el estudio de las Gramáticas Incontextuales Estocásticas (GIE) generales. Pricipalmente se centra en los problemas de la estimación a partir de un corpus y de su integración como modelo de lenguaje en tareas reales. En lo que se refiere a la estimación, se unifica en un solo marco todos los algoritmos de estimación para las GIE en formato general. Para ello se utiliza un conjunto de derivaciones que al ser restringido, utilizando información estadística y estructural de la muestra, permite definir tanto los algoritmos clásicos de estimación como algunos que proponemos. Con respecto a la integración de las GIE en tareas reales, se utiliza un modelo de lenguaje híbrido. Este modelo se define como una combinación lineal de un modelo de n-gramas basado en palabras que se utiliza para capturar las relaciones locales entre palabras; y una gramática estocástica de categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Igualmente se describe la manera como se estiman e integran todos estos modelo, de manera que el modelo de lenguaje híbrido sea útil en tareas reales con grandes vocabularios. Finalmente, se han realizado experimentos de evaluación tanto de los modelos estimados como del modelo de lenguaje híbrido definido a partir de éllos. Estos experimentos se han realizado principalmente con el corpus de "Upenn Trebank". Los resultados obtenidos se han medido en términos de la perplejidad de un conjunto de test y la tasa de error por palabra. Estos resultados se han comparado con toros modelos propuestos por otros autores.