Técnicas de mantenimiento automático de programas envoltorio para fuentes de datos web semiestructuradas

  1. Raposo, Juan
Dirigida por:
  1. Fernando Bellas Permuy Director/a
  2. Carlos Alberto Pan Bermúdez Director/a

Universidad de defensa: Universidade da Coruña

Fecha de defensa: 20 de julio de 2007

Tribunal:
  1. Joseba Iñaki Goirizelaia Ordorika Presidente/a
  2. Víctor Carneiro Secretario/a
  3. Carmen Costilla Rodríguez Vocal
  4. Óscar Díaz García Vocal
  5. Vicente Luque Centeno Vocal

Tipo: Tesis

Teseo: 138777 DIALNET

Resumen

Una gran parte de la informática contenida en la web tiene una estructura latente, Por ejemplo, muchas fuentes web ofrecen formularios que permiten ejecutar consultas sobre una base de datos subyacente y devuelven los resultados obtenidos, codificándolos en HTML para su visualización en un navegador de Internet. A este tipo de fuentes suele denominárseles fuentes Web semi-estructuradas. Una tarea de gran interés para multitud de aplicaciones consiste en construir programas envoltorio o interfaz (wrappers) sobre este tipo de fuentes. Un programa envoltorio para una determinada fuente Web recibe como entrada una consulta emitida por una aplicación software sobre los datos de la fuente, expresada en algún lenguaje de consulta de información estructurada (e.g. algún subconjunto de SQL) El envoltorio es capaz de ejecutar automáticamente la consulta recibida en la fuente Web a través de una serie de secuencias de navegación automatizada y de extraer los resultados deseados de las páginas HTML para devolver a la aplicación llamante una lista de resultados estructurados como respuesta. En los últimos años se han desarrollado diversas técnicas para generar semi-automáticamente programas envoltorio. Sin embargo, las fuentes Web semi-estructuradas presentan un elevado nivel de autonomía, y tanto las interfaces de consulta como la manera de representar los resultados pueden cambiar sin previo aviso. Por lo tanto, sería de gran utilidad que el programa envoltorio fuese capaz de mantenerse automáticamente, detectando el cambio y regenerándose, sin intervención humana. El objetivo principal de esta tesis doctoral es abordar todos los aspectos involucrados en el mantenimiento automático de envoltorios sobre fuentes Web semi-estructuradas. Las cuatro contribuciones principales de este trabajo son las siguientes: (1) una arquitectura para la generación y el mantenimiento automático de programas envoltorio para fuentes Web, que tiene en cuenta todos los pa