Traductor de consultas SPARQL, formuladas sobre fuentes de datos incompletamente alineadas, que aporta una estimación de la calidad de la traducción

  1. TORRE BASTIDA, ANA ISABEL
Supervised by:
  1. Arantza Illarramendi Echave Director
  2. Jesús Bermúdez de Andrés Director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 09 April 2019

Committee:
  1. Alfredo Goñi Sarriguren Chair
  2. Esperanza Marcos Martínez Secretary
  3. Víctor Rodríguez Doncel Committee member
Department:
  1. Lenguajes y Sistemas Informáticos

Type: Thesis

Teseo: 149645 DIALNET lock_openADDI editor

Abstract

EXTRACTO/RESUMENHoy en día existe en la Web un número cada vez mayor de conjuntos de datos enlazados de distinta procedencia, referentes a diferentes dominios y que se encuentran accesibles al público en general para ser libremente explotados. Esta tesis doctoral centra su estudio en el ámbito del procesamiento de consultas sobre dicha nube de conjuntos de datos enlazados, abordando las dificultades en su acceso por aspectos relacionados con su heterogeneidad. La principal contribución reside en el planteamiento de una nueva propuesta que permite traducir la consulta realizada sobre un conjunto de datos enlazado a otro sin que estos se encuentren completamente alineados y sin que el usuario tenga que conocer las características técnicas inherentes a cada fuente de datos. Esta propuesta se materializa en un traductor que transforma una consulta SPARQL, adecuadamente expresada en términos de los vocabularios utilizados en un conjunto de datos de origen, en otra consulta SPARQL adecuadamente expresada para un conjunto de datos objetivo que involucra diferentes vocabularios. La traducción se basa en alineaciones existentes entre términos en diferentes conjuntos de datos. Cuando el traductor no puede producir una consulta semánticamente equivalente debido a la escasez de alineaciones de términos, elsistema produce una aproximación semántica de la consulta para evitar devolver una respuesta vacía al usuario. La traducción a través de los distintos conjuntos de datos se logra gracias a la aplicación de un variado grupo de reglas de transformación. En esta tesis se han definido cinco tipos de reglas, dependiendo de la motivación de la transformación, que son: equivalencia, jerarquía, basadas en las respuestas de la consulta, basadas en el perfil de los recursos que aparecen en la consulta y basadas en las características asociadas a los recursos que aparecen en la consulta.Además, al no garantizar el traductor la preservación semántica debido a la heterogeneidad de los vocabularios se vuelve crucial el obtener una estimación de la calidad de la traducción producida. Por ello otra de las contribuciones relevantes de la tesis consiste en la definición del modo en que informar al usuario sobre la calidad de la consulta traducida, a través de dos indicadores: un factor de similaridad que se basa en el proceso de traducción en sí, y un indicador de calidad de los resultados, estimado gracias a un modelo predictivo.Finalmente, esta tesis aporta una demostración de la viabilidad estableciendo un marco de evaluación sobre el que se ha validado un prototipo del sistema. // EXTRACTO/RESUMENHoy en día existe en la Web un número cada vez mayor de conjuntos de datos enlazados de distinta procedencia, referentes a diferentes dominios y que se encuentran accesibles al público en general para ser libremente explotados. Esta tesis doctoral centra su estudio en el ámbito del procesamiento de consultas sobre dicha nube de conjuntos de datos enlazados, abordando las dificultades en su acceso por aspectos relacionados con su heterogeneidad. La principal contribución reside en el planteamiento de una nueva propuesta que permite traducir la consulta realizada sobre un conjunto de datos enlazado a otro sin que estos se encuentren completamente alineados y sin que el usuario tenga que conocer las características técnicas inherentes a cada fuente de datos. Esta propuesta se materializa en un traductor que transforma una consulta SPARQL, adecuadamente expresada en términos de los vocabularios utilizados en un conjunto de datos de origen, en otra consulta SPARQL adecuadamente expresada para un conjunto de datos objetivo que involucra diferentes vocabularios. La traducción se basa en alineaciones existentes entre términos en diferentes conjuntos de datos. Cuando el traductor no puede producir una consulta semánticamente equivalente debido a la escasez de alineaciones de términos, elsistema produce una aproximación semántica de la consulta para evitar devolver una respuesta vacía al usuario. La traducción a través de los distintos conjuntos de datos se logra gracias a la aplicación de un variado grupo de reglas de transformación. En esta tesis se han definido cinco tipos de reglas, dependiendo de la motivación de la transformación, que son: equivalencia, jerarquía, basadas en las respuestas de la consulta, basadas en el perfil de los recursos que aparecen en la consulta y basadas en las características asociadas a los recursos que aparecen en la consulta.Además, al no garantizar el traductor la preservación semántica debido a la heterogeneidad de los vocabularios se vuelve crucial el obtener una estimación de la calidad de la traducción producida. Por ello otra de las contribuciones relevantes de la tesis consiste en la definición del modo en que informar al usuario sobre la calidad de la consulta traducida, a través de dos indicadores: un factor de similaridad que se basa en el proceso de traducción en sí, y un indicador de calidad de los resultados, estimado gracias a un modelo predictivo.Finalmente, esta tesis aporta una demostración de la viabilidad estableciendo un marco de evaluación sobre el que se ha validado un prototipo del sistema.