Gramáticas probabilísticas para la desambiguación sintáctica

Verdú Mas, Jose Luis

Gramáticas probabilísticas para la desambiguación sintáctica

Verdú Mas, Jose Luis

Supervised by:

Jorge Calera Rubio Director
Rafael C. Carrasco Jiménez Co-director

Defence university: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 05 October 2010

Committee:

José Oncina Carratalá Chair
Luisa Micó Andrés Secretary
Marc Sebban Committee member
Damián López Rodríguez Committee member
María Inés Torres Barañano Committee member

Type: Thesis

Teseo: 297732 DIALNET

Abstract

Las gramáticas independientes del contexto son una forma utilizada habitualmente para representar la estructura sintáctica de las oraciones. Muchas tareas dedicadas al procesamiento del lenguaje natural necesitan de dicha estructura para poder interpretar cada frase. Sin embargo, el problema de la ambigüedad sintáctica es muy común (sobre todo en frases con más de 15 palabras) y dificulta enormemente la labor. Algunos autores establecen que la mayoría de ambigüedades sintácticas se pueden resolver sin utilizar información semántica alguna, esto es, sólo seleccionando el análisis sintáctico más probable de entre todos los candidatos. Esto establece las bases de una familia de técnicas que utilizan las probabilidades para decidir cuál es el análisis sintáctico que mejor se adapta a cada frase. Las probabilidades de cada estructura se estiman a partir de corpus de frases analizadas sintácticamente (treebanks). El Penn Tree-bank es un ejemplo de este tipo de corpus. La técnica más conocida que construye gramáticas independientes del contexto probabilísticas (GICP) a partir de treebanks es aquella en la que las reglas se extraen directamente de los árboles de análisis sintácticos. Las probabilidades se estiman contando el número de veces que cada producción aparece. Como resultado se obtienen las denominadas treebank grammars. Este es el esquema más sencillo y no está libre de problemas, por una parte, porque las treebank grammars sobre-generalizan en exceso lo que evidencia la necesidad del uso de mecanismos adicionales para relajar la independencia de la GICP y, por otra, porque los análisis sintácticos resultan ser extremadamente planos y por tanto con escasa utilidad semántica. Con este espíritu se ha trabajado en esta tesis doctoral con una generalización de los clásicos k-gramas pero aplicados a árboles en lugar de cadenas. Las GICP obtenidas consisten en reglas que incluyen información contextual acerca de cuándo pueden ser aplicadas. Los resultados han sido fructíferos: se ha reducido drásticamente la ambigüedad de las gramáticas y por tanto también el tiempo de proceso de los analizadores sintácticos cuyas respuestas resultan ser, además, más refinadas y mejor estructuradas de manera que son provechosas para otros fines lingüísticos. En contrapartida y como cabía esperar, se ha producido el efecto contrario a la sobre-generalización: la asignación de probabilidad nula, y por tanto rechazo, de ciertas frases sintácticamente correctas. Este es el hecho que ha motivado la investigación sobre mecanismos de suavizado de las funciones de probabilidad que se adaptaran de forma eficiente a las nuevas gramáticas introducidas. Las aportaciones fundamentales son: 1.Una descripción de cómo los lenguajes k-testables probabilísticos de árboles se pueden aproximar a cualquier lenguaje de árboles racional estocástico. 2. Un método para aprender eficientes gramáticas independientes del contexto probabilísticas a partir de lenguajes de árboles. 3. Un análisis de distintas técnicas de suavizado de las funciones de probabilidad. 4. Un método de construcción de gramáticas k-testables con suavizado implícito. 5. Experimentos con fructíferos resultados: se ha reducido drásticamente la ambigüedad de las gramáticas y por tanto también el tiempo de proceso de los analizadores sintácticos cuyas respuestas resultan ser, además, más refinadas y mejor estructuradas de manera que son provechosas para otros fines lingüísticos.