Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido
- LINARES OSPINA DIEGO LUIS
- José Miguel Benedí Ruiz Directeur/trice
- Joan Andreu Sánchez Peiró Co-directeur/trice
Université de défendre: Universitat Politècnica de València
Fecha de defensa: 19 décembre 2003
- Francisco Casacuberta Nolla President
- Ferrán Pla Secrétaire
- Andrés Marzal Varó Rapporteur
- María Inés Torres Barañano Rapporteur
- Jorge Calera Rubio Rapporteur
Type: Thèses
Résumé
Esta tesis se centra en el estudio de las Gramáticas Incontextuales Estocásticas (GIE) generales. Pricipalmente se centra en los problemas de la estimación a partir de un corpus y de su integración como modelo de lenguaje en tareas reales. En lo que se refiere a la estimación, se unifica en un solo marco todos los algoritmos de estimación para las GIE en formato general. Para ello se utiliza un conjunto de derivaciones que al ser restringido, utilizando información estadística y estructural de la muestra, permite definir tanto los algoritmos clásicos de estimación como algunos que proponemos. Con respecto a la integración de las GIE en tareas reales, se utiliza un modelo de lenguaje híbrido. Este modelo se define como una combinación lineal de un modelo de n-gramas basado en palabras que se utiliza para capturar las relaciones locales entre palabras; y una gramática estocástica de categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Igualmente se describe la manera como se estiman e integran todos estos modelo, de manera que el modelo de lenguaje híbrido sea útil en tareas reales con grandes vocabularios. Finalmente, se han realizado experimentos de evaluación tanto de los modelos estimados como del modelo de lenguaje híbrido definido a partir de éllos. Estos experimentos se han realizado principalmente con el corpus de "Upenn Trebank". Los resultados obtenidos se han medido en términos de la perplejidad de un conjunto de test y la tasa de error por palabra. Estos resultados se han comparado con toros modelos propuestos por otros autores.