Recent advances on sentence similarity methods, software and resources for the biomedical domain

LARA CLARES, ALICIA

Recent advances on sentence similarity methods, software and resources for the biomedical domain

LARA CLARES, ALICIA

Dirigée par:

Juan José Lastra Díaz Directeur/trice
Ana M. García Serrano Directeur/trice

Université de défendre: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 21 juin 2023

Jury:

Lourdes Araujo Serna President
Carlos Ángel Iglesias Fernández Secrétaire
Eneko Agirre Bengoa Rapporteur

Type: Thèses

Teseo: 818426 DIALNET TESEO editor

Résumé

Medir la similitud semántica entre oraciones es una tarea importante en los campos del Procesamiento del Lenguaje Natural (PLN), la Recuperación de Información (RI) y la minería de textos biomédicos. Por este motivo, la propuesta de métodos de similitud de frases para el ámbito biomédico ha atraído mucha atención en los últimos años. Sin embargo, la mayoría de los métodos de similitud de frases y resultados experimentales reportados en el dominio biomédico no pueden ser reproducidos por múltiples razones como las siguientes: la copia de resultados previos sin confirmación, la falta de código fuente y datos para replicar tanto los métodos como los experimentos, y la falta de una definición detallada de la configuración experimental, entre otras. Como consecuencia de este vacío de reproducibilidad, no se puede dilucidar el estado del problema ni establecer sólidamente nuevas líneas de investigación. Por otro lado, existen otras lagunas significativas en la literatura sobre similitud de frases biomédicas, como son: (1) las limitaciones de rendimiento y escalabilidad de las actuales bibliotecas de medidas semánticas de última generación para el ámbito biomédico; (2) la falta de un algoritmo eficiente de camino más corto para el cálculo en tiempo real de medidas de similitud semántica basadas en caminos; (3) la evaluación de varios métodos de similitud de oraciones inexplorados que merecen ser estudiados; (4) la evaluación de un conjunto de datos inexplorado sobre similitud de oraciones biomédicas, denominado Corpus-Transcriptional-Regulation (CTR); (5) el estudio sobre el impacto de la etapa de preprocesamiento y las herramientas de Reconocimiento de Entidades Nombradas (NER) sobre el rendimiento de los métodos de similitud de oraciones; y, por último, (6) la falta de recursos de software y datos para la reproducibilidad de métodos y experimentos en esta línea de investigación. A pesar del esfuerzo investigador realizado en este campo, creemos que hay margen de mejora en el desarrollo de métodos específicos, ya que los actuales son adaptaciones de métodos de dominio general. Además, la comunidad investigadora se ha centrado en métodos de Deep Learning sin una evaluación previa de diferentes alternativas. Esta tesis introduce el mayor, y por primera vez, estudio experimental reproducible sobre similitud de frases biomédicas, así como la propuesta y evaluación de nuevos métodos para estimar el grado de similitud entre oraciones. Además, esta tesis introduce varias contribuciones significativas a la reproducibilidad de las medidas de similitud entre oraciones, a saber (1) un protocolo detallado de reproducibilidad junto con una colección de herramientas de software y un conjunto de datos; (2) una versión actualizada y ampliada de la Half-Edge Semantic Measures Library (HESML) para el dominio biomédico, llamada HESML V1R5; (3) una aproximación rápida del algoritmo de Dijkstra para taxonomías basado en grafos, llamado Ancestors-based Shortest-Path Length (AncSPL); (5) la evaluación de un conjunto de métodos hasta ahora inexplorados, como un nuevo método de similitud de oraciones basado en cadenas, denominado LiBlock, ocho variantes de los métodos actuales basados en ontologías y un nuevo modelo de word embeddings (Word Embedding, WE) preentrenado basado en FastText y entrenado con el texto completo de los artículos del corpus PMC-BioC; (6) la evaluación por primera vez de un conjunto de datos, denominado Corpus-Transcriptional-Regulation (CTR); (7) el estudio del impacto de la etapa de preprocesamiento y de las herramientas de reconocimiento de entidades con nombre (NER) en el rendimiento de los métodos de similitud de frases; (8) la integración por primera vez de la mayoría de los métodos de similitud de oraciones para el ámbito biomédico en la misma biblioteca de software, denominada HESML for Semantic Textual Similarity (HESML-STS); y, por último, (9) un análisis de los inconvenientes y limitaciones de los métodos actuales de vanguardia. Nuestros experimentos demuestran que nuestra novedosa medida basada en cadenas establece el nuevo estado del arte en la tarea de similitud de oraciones en el ámbito biomédico y supera significativamente a todos los métodos aquí evaluados, con la única excepción de un método basado en ontologías. Asimismo, nuestros experimentos confirman que las etapas de preprocesamiento, y la elección de la herramienta NER para los métodos basados en ontologías, tienen un impacto muy significativo en el rendimiento de los métodos de similitud de frases. También detallamos algunos inconvenientes y limitaciones de los métodos actuales, y advertimos de la necesidad de perfeccionar las pruebas de referencia actuales. Por último, un hallazgo notable es que nuestro nuevo método basado en cadenas supera significativamente a todos los modelos de Aprendizaje Automático (Machine Learning, ML) de última generación aquí evaluados.