Detección y extracción de neologismos semánticos especializadosun acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo

  1. Torres Rivera, Andrés
Dirigida por:
  1. Rosa Estopà Bagot Director/a
  2. Juan Manuel Torres Moreno Codirector/a

Universidad de defensa: Universitat Pompeu Fabra

Fecha de defensa: 31 de octubre de 2019

Tribunal:
  1. Judit Freixa Aymerich Presidente/a
  2. Mikel Iruskieta Quintian Secretario/a
  3. Rosa Estopà Bagot Vocal
  4. Juan Manuel Torres Vocal
  5. Eric Sanjuan Vocal

Tipo: Tesis

Teseo: 606722 DIALNET

Resumen

En el campo de la neología, se han desarrollado diferentes acercamientos metodológicos para la detección y extracción de neologismos semánticos empleando estrategias como la desambiguación semántica y el modelado de temas, pero todavía no existe una pro- puesta de un sistema para la detección de estas unidades. A partir de un estudio detallado sobre los supuestos teóricos necesarios para delimitar y describir los neologismos semán- ticos, en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciar dichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizaje automático. La metodología planteada se basa en el tratamiento del proceso de detección y extracción como un problema de clasificación, que consiste en analizar la concordancia de temas entre el campo semántico del significado principal de una palabra y el texto en el que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cin- co métodos de clasificación automática supervisada y tres modelos para la generación de representaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpus de análisis está compuesto por los neologismos semánticos del ámbito de la informática pertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fa- bra, que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluar los distintos métodos que implementa el sistema: clasificación automática, extracción de palabras a partir de contextos cortos y generación de listas de palabras similares. Este primer acercamiento metodológico busca establecer un marco de referencia en materia de detección y extracción de neologismos semánticos. La presente tesis se encuentra distribuida en nueve capítulos, incluyendo este primer capítulo de introducción. La finalidad de este primer capítulo ha consistido en presentar, de forma general, los antecedentes teóricos y aplicados que fundamentan la presente tesis, de forma que el lector pueda situarse en el contexto de trabajo en que se desarrolla el proyecto. El capítulo 2 presenta el estado de la cuestión en materia de detección de neologismos semánticos, en este capítulo analizamos las propuestas contemporáneas para comprender las metodologías, métodos de evaluación y resultados de cada enfoque. Este apartado, además de mostrar un panorama general de la materia, sirve como punto de referencia para nuestra propuesta metodológica, ya que el diseño de nuestra aplicación parte de supuestos metodológicos comunes. En el capítulo 3 (marco teórico) presentamos una cronología sobre el concepto de neologismo semántico desde diversas escuelas de pensamiento. El propósito de esta cronología es analizar los puntos comunes entre cada posición, así como los mecanismos de creación de neologismos semánticos. En segundo término mostramos dos corrientes teóricas contemporáneas sobre la definición y clasificación de los neologismos semánticos. Este contraste nos ha permitido justificar la selección de nuestro enfoque teórico. Finalmente, dado que esta tesis se acota a neologismos semánticos terminológicos, analizamos los conceptos claves de la teoría comunicativa de la terminología: la definición de unidad terminológica y el principio de adecuación. En la metodología (capítulo 4) describimos nuestro enfoque de trabajo, que consiste en el uso de técnicas de clasificación de tema basadas, principalmente, en modelos de aprendizaje automático supervisado, algoritmos de extracción de palabras basados en grafos y el uso de representaciones vectoriales de palabras. En este apartado también presentamos un breve resumen sobre conceptos de aprendizaje automático, así como los componentes básicos de nuestro sistema en conjunto con la descripción del flujo de trabajo de la aplicación. Posteriormente, en la descripción del sistema (capítulo 5) presentamos un acercamiento preliminar que ha servido como línea base y, posteriormente, analizamos en profundidad los componentes que se requieren para el desarrollo de nuestra aplicación final. Describimos los recursos que han sido necesarios para el entrenamiento y evaluación de los diferentes modelos implementados en cada etapa de análisis de nuestro sistema y, en los capítulos siguientes, describimos los algoritmos y métodos que fueron evaluados para justificar la selección de nuestra metodología definitiva. A continuación, en el capítulo 6 llevamos a cabo experimentos de clasificación y extracción de palabras a partir de contextos que contienen neologismos semánticos previamente detectados. Evaluamos la efectividad de las implementaciones para detección de lengua (Langdetect) de trabajo y extracción de palabras (TextRank) empleando dichos contextos. Por otra parte, en el apartado relativo a la detección de temas, comparamos cinco arquitecturas de modelos de clasificación para seleccionar un modelo basado en la función de regresión logística. Dentro del mismo capítulo, evaluamos tres modelos diferentes para la generación de embeddings: Word2Vec, FastText y Sense2Vec. Con cada modelo generamos listados de palabras similares, para emplearlos como campos semánticos que dan cuenta de la temática principal y el significado básico de una palabra. Analizamos la efectividad de esta metodología como un problema de clasificación binaria, de forma que a cada campo semántico se debería asignar la temática correspondiente. En el capítulo 7 describimos la implementación web de nuestro sistema, describimos la interacción con el usuario, el tipo de datos de entrada que emplea y el reporte de resultados que genera. En conjunto con esta descripción, mostramos casos de uso en cada lengua de trabajo utilizando textos obtenidos de fuentes de prensa. Estos casos de uso sirven para ilustrar la operación del sistema, el proceso de detección de neologismos semánticos y la selección final de candidatos. Finalmente, en las conclusiones (capítulos 8 y 9, en francés) resumimos los resultados obtenidos durante el análisis y comprobamos el cumplimiento de los objetivos de la tesis. También analizamos las limitaciones, posibles mejoras de nuestro enfoque y las líneas futuras investigación que pueden ser de interés.