Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos

Pla, Ferrán

Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos

Pla, Ferrán

Dirigida por:

Natividad Prieto Sáez Director/a
Lluís Padró Cirera Director/a

Universidad de defensa: Universitat Politècnica de València

Fecha de defensa: 27 de noviembre de 2000

Tribunal:

Enrique Vidal Ruiz Presidente/a
Encarna Segarra Soriano Secretario/a
Iñaki Alegría Loinaz Vocal
Horacio Horacio Rodríguez Vocal
Lluís Márquez Villodre Vocal

Tipo: Tesis

Teseo: 85190 DIALNET RiuNet editor

Resumen

En esta tesis se abordan dos problemas que simplifican substancialmente la tarea de procesamiento de oraciones escritas en Lenguaje Natural: la desambiguación léxica y el análisis sintáctico superficial de textos no restringidos, Se ha desarrollado un sistema de desambiguación que es capaz de obtener de manera conjunta o separada, el etiquetado léxico (POS tagging) --o proceso mediante el cual se elige la categoría léxica correcta para las palabras de una frase-- y el análisis sintáctico superficial (Shallow Parsing o Chunking) --consistente en la detección de ciertos grupos no solapados de palabras relacionadas sintácticamente como, sintagmas nominales (SN), verbales (SV), preposicionales (SP), ...--, para textos no restringidos. La aproximación propuesta se basa en modelos de lenguaje (ML) obtenidos automáticamente a partir de corpora etiquetados con información lingüistica.Para ello, se utilizan técnicas de aprendizaje automático derivadas del campo de la inferencia gramatical y de los modelos estadísticos. Los modelos inferidos de representan utilizando un formalismo homogéneo: máquimas de estados finitos. Éstos incluyen desde modelos de n-gramas, hasta cualquier modelo regular estocástico aprendido por medio de técncias de indiferencia gramatical obtendio mediante cualquier otro método. Para estos últimos se introducen nuevos métodos de suavizado para ampliar la cobertura del lenguaje. Además, el sistema ha sido ampliado para enriquecer los ML con información de las palabras, además de las categorías léxicas, mediante lo que hemos denominado modelos contextuales especializados o lexicalizados. Éstos permiten reflejar dependencias léxico-contextuales, que en muchos casos, ayudan de manera notable a resolver ciertas ambigüedades estructurales. El sistema propuesto se ha evaluado experimentalmente sobre diferentes corpora en inglés (Wall Street Journal) y en castellano (LexEsp, BDGEO), establec