Explotación de corpus paralelos alineados para el desarrollo de entornos de composición de documentos estructurados bilingües

  1. Casillas Rubio, Arantza
Supervised by:
  1. Iñaki Alegría Loinaz Director
  2. Joseba Abaitua Director

Defence university: Universidad de Deusto

Fecha de defensa: 21 December 2000

Committee:
  1. Horacio Rodríguez Hontoria Chair
  2. Verónica Canivell Castillo Secretary
  3. Lidia Moreno Boronat Committee member
  4. José Gabriel Amores Carredano Committee member
  5. Anselmo del Moral Bueno Committee member

Type: Thesis

Teseo: 85574 DIALNET

Abstract

La IA(Inteligencia Artificial) es un area que abarca conocimiento de muy diverso tipo y en la que, por su naturaleza interdisciplinar, se produce la convergencia de tecnicas muy diferentes, Entre las muchas aplicaciones de la IA existe una antigua y destacada, pero que se resiste a su resolucion, es el PLN (Procesamiento del Lenguaje Natural) y dentro de ese particularmente la traduccion entre textos en diferentes idiomas. Esta tesis se enfrenta de una manera realista a este problema abordandolo en su vertiente mas viable. Tiene como principal caracteristica la convergencia de diferentes tecnicas y la puesta es practica de una manera novedosa. Concretamente esta tesis aborada el tema de la composicion de documentacion especializada multilingue. Se propone una metodologia de composicion que combina diversas areas de gran actualidad dentro del PLN como son: el tratamiento de corpus, el procesamiento de documentos estructurados, los lenguajes de etiquetado, la traduccion automatica y la generacion multilingue. Con esta metodologia se crean, a partir de un corpus alineado, recursos linguisticos, memorias de traduccion y estructuras de tipo de documento, para posteriormente utilizarlos en la composicion de documentacion similar. Para llevar a la practica la metodologia propuesta es necesario desarrollar diferentes algoritmos, algunos de ellos innovadores, tanto para el tratamiento de documentos estructurados SGML,-Standard Generalize markup Languaje- como para la manipulacion y creacion de memorias de traduccion a partir de corpus alineados. A lo largo de esta memoria se justifica que SGML, es el lenguaje de etiquetado mas apropiado para anotar documentos estructurados pertenecientes a un dominio especifico que posteriormente se vayan a utilizar como base para la composicion de documentacion similar. Para demostrar la eficacia de la metodologia propuesta se ha desarrollado un prototipo de editor bilingüe que hemos llamado BiGentor. En este edit