Desambiguación en procesamiento del lenguaje natural mediante técnicas de aprendizaje automático

MOLINA MARCO, ANTONIO

Desambiguación en procesamiento del lenguaje natural mediante técnicas de aprendizaje automático

MOLINA MARCO, ANTONIO

Dirigida por:

Lidia Moreno Boronat Director/a
Encarna Segarra Soriano Codirector/a

Universidad de defensa: Universitat Politècnica de València

Fecha de defensa: 16 de enero de 2004

Tribunal:

Manuel Palomar Sanz Presidente/a
Ferrán Pla Secretario/a
Lluís Márquez Villodre Vocal
Natividad Prieto Sáez Vocal
Iñaki Alegría Loinaz Vocal

Tipo: Tesis

Teseo: 105633 DIALNET

Resumen

Este trabajo aborda la resolución de diversos problemas de ambigüedad en Procesamiento del Lenguaje Natural mediante un méotodo de aprendizaje estadístico: los Modelos de Markov Espacializados (MME). Se ha propuesto una formulación unificada que permite abordar distintas tareas de desambiguación mediante el formalismo de modelos de Markov (MM). La técnica propuesta permite incorporar en un MM información relevante disponible en los datos de entrenamiento de una forma sistemática e independiente de la tarea de desambiguación. Estos modelos se han denominado Modelos de Markov Especializados. Esta técnica se fundamenta en la definición del alfabeto de símbolos utilizado en un MM, mediante la selección de las características de entrada relevantes y la redefinición de los estados del modelo a partir de la información disponible en los datos de entrenamiento. Éste es un proceso totalmente independiente de la fase de aprendizaje del modelo y de la fase de análisis o etiquetando. Por ello, es posible aplicar los eficientes alforitmos desarrollados para trabajar con MM básicos. Para determinar las características relevantes que maximizan las prestaciones del modelo se ha definido una estrategia de búsqueda que guía el proceso de aprendizaje del mismo. Los MME se han evaluado y contrastado experimentalmente sobre distintas tareas de desambiguación, alcanzando en todas ellas prestaciones similares a las ofrecidas por las aproximaciones más relevantes descritas en la literatura. Las tareas abordadas han sido el etiquetado morfosintáctico, el análisis sintáctico superficial, la identificación de cláusulas y la desambiguación de los sentidos de las palabras. La evaluación respecto a otros sistemas han sido en todos los casos rigurosa: utilizando los mismos conjuntos de entrenamiento y de prueba que el resto de sistemas y, cuando ha sido posible, realizando la evaluación con datos proporcionados en competiciones interna