Dependentzia-ereduan oinarritutako baliabide sintaktikoakzuhaitz-bankua eta gramatika konputazionala

  1. ARANZABE URRUZOLA, MARIA JESUS
Supervised by:
  1. José María Arriola Egurrola Director
  2. Arantza Díaz de Ilarraza Sánchez Co-director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 30 October 2008

Committee:
  1. Miren Karmele Azkarate Villar Chair
  2. Koldo Gojenola Galletebeitia Secretary
  3. Lauren Etxepare Igiñiz Committee member
  4. Andoni Sagarna Izaguirre Committee member
  5. Itziar Aduriz Committee member
Department:
  1. Lengua Vasca y Comunicación

Type: Thesis

Teseo: 186782 DIALNET lock_openTESEO editor

Abstract

La construcción y obtención de un Treebank o banco de árboles sintácticos es un paso muy importante dentro de las aplicaciones en el área del Procesamiento del Lenguaje Natural, ya que constituye un recurso indispensable para el desarrollo de herramientas. Así, en esta tesis se han descrito los criterios de anotación seguidos en la construcción del banco de árboles sintácticos del euskera Eus3LB (Palomar et al. 2004). Después de examinar los dos principales formalismos de anotación sintáctica de corpus, por una parte la anotación basada en constituyentes (o parentización) y por otra, la basada en dependencias, se ha optado por el formalismo de la Gramática de Dependencia (Tesnière, 1959), por ser el más adecuado para una lengua como el euskera de orden libre en la oración. Las dependencias representan las relaciones de núcleo-modificador entre los elementos terminales de las oraciones; es decir, entre las hojas de los árboles o palabras de las oraciones. El desarrollo de este Treebank ha permitido la elaboración de una gramática computacional de dependencias que lleva a cabo un análisis sintáctico total del euskera. Esta gramática se incluye en el mismo marco que la gramática de restricciones, Constraint Grammar (Karlsson et al.;Tapanainen, 1996), ya que muchas de sus características se derivan de esta última. El trabajo realizado supone la primera formalización de las estructuras sintácticas representativas del euskera basada en la Gramática de Dependencia, y el paso de un análisis sintáctico parcial a un análisis sintáctico total en el tratamiento automático de textos reales, realizado mediante el analizador sintáctico o parser.