Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

Vàzquez Garcia, Mercè

Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

Vàzquez Garcia, Mercè

Dirigida por:

Antonio Oliver González Director/a

Universidad de defensa: Universitat Pompeu Fabra

Fecha de defensa: 10 de julio de 2014

Tribunal:

Jorge Vivaldi Palatresi Presidente/a
Pilar Sánchez-Gijón Secretario/a
Iñaki Alegría Loinaz Vocal

Tipo: Tesis

Teseo: 366855 DIALNET TDX editor

Resumen

La tesis doctoral se estructura en seis capítulos. En primer lugar, se presenta una introducción del trabajo de investigación, seguida de dos capítulos que centran el marco teórico del trabajo, en los que se describen los modelos teóricos existentes entorno a terminología y la concepción de término, y también los trabajos que se han llevado a cabo en los últimos años sobre extracción automática de terminología. A continuación, se desarrolla un capítulo experimental en el que se presenta una propuesta de extracción automática de terminología basada en estrategias estadísticas. Seguidamente, se presenta un capítulo descriptivo sobre medidas estadísticas aplicadas a la extracción automática de terminología, como preludio de un capítulo experimental en el que se describen los resultados obtenidos al aplicar medidas estadísticas en el proceso de extracción automática de terminología a fin de mejorar la validación final de candidatos a término. El trabajo de investigación finaliza con unas conclusiones y el planteamiento de las líneas futuras de investigación. La terminología se encuentra presente en todas las áreas de conocimiento. Con el uso de la tecnología en los diferentes ámbitos de la sociedad, la creación y difusión de nuevos términos es muy rápida y efectiva. En las últimas décadas se han desarrollado métodos de extracción automática de termas basados en análisis lingüístico, estrategias estadísticas y una combinación de las dos modalidades para facilitar el vaciado manual de estas unidades, pero estos métodos tienden a extraer un alto número de candidatos a término, y este hecho dificulta la validación manual de los candidatos. En esta tesis hemos diseñado un algoritmo que aprovecha los términos presentes en un ámbito de especialidad para detectar nuevos términos (método token slot recognition) y hace uso de medidas de asociación léxica para poder resolver esta limitación. El trabajo presenta el nivel de productividad que ofrece la combinación de estrategias estadísticas analizadas. Hemos observado que el método token slot recognition extrae los candidatos que tienen más probabilidad de ser terminológicos y tiene capacidad para procesar corpus en diferentes lenguas y ámbitos de especialidad. Nuestra investigación también confirma que las medidas de asociación léxica sitúan los términos en las posiciones iniciales de una lista de candidatos y, en consecuencia, facilitan la tarea de validación manual final de los candidatos. Como conclusión, la combinación de estrategias analizadas ofrece flexibilidad a la hora de identificar y validar los términos presentes en corpus de especialidad, lo que permite plantear su integración en una herramienta de extracción de terminología.