Base de conocimiento léxico para el euskeraeuskal wordnet

  1. POCIELLO IRIGOYEN, ELISABETE
Supervised by:
  1. Eneko Agirre Bengoa Director
  2. Izaskun Aldezabal Roteta Co-director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 28 February 2008

Committee:
  1. Miren Karmele Azkarate Villar Chair
  2. Kepa Korta Carrión Secretary
  3. Xabier Artola Zubillaga Committee member
  4. Beatriz Fernández Fernández Committee member
  5. Ricardo Etxepare Committee member
Department:
  1. Lenguajes y Sistemas Informáticos

Type: Thesis

Teseo: 215042 DIALNET

Abstract

Las bases de conocimiento léxico (BCL) son imprescindibles para avanzar en el estudio de la semántica computacional. En esta tesis se hace una propuesta de una BCL para euskera. Para ello nos hemos basado en una BCL para el inglés -WordNet (Miller 1985)-, y hemos creado su equivalente el euskera (Euskal WordNet). En esta tesis describimos el proceso que hemos seguido para desarrollar Euskal WordNet. Primero, hemos especificado las características que queremos que tenga nuestra BCL. Luego, hemos hecho un estudio comparativo de varios formalismos de BCLs, buscando el más adecuado para la BCL del euskera. Así, tras ese estudio, hemos decidido basar nuestra BCL en el formalismo de WordNet y en las BCLs que lo han seguido -EuroWordNet y The Multilingual Central Repository (MCR). En cuanto a la metodología adoptada en la construcción de Euskal WordNet, hemos tomado como punto de partida los conceptos del inglés de WordNet, y les hemos añadido sus equivalentes del euskera. Para ello, al principio, priorizamos la cobertura -introduciendo en todos los conceptos ingleses sus equivalentes vascos automáticamente., y más tarde, nos centramos en la calidad de los equivalentes del euskera- primero, mediante la revisión manual tomando como punto de partida los conceptos; posteriormente, mediante la revisión manual tomando como punto de partida los lemas; y finalmente, basándonos en la información de un corpus vasco que estamos etiquetando paralelamente: EuSemcor (agirre et al., 2006). En estas revisiones de Euskal WordNet -y teniendo en cuenta que nuestro Wordnet se está construyendo sobre un wordnet inglés- han emergido varios rasgos distintivos entre el inglés y el euskera, así como, los relacionados con la lexicalización y la organización jerárquica. Hemos examinado estos rasgos, y hemos definido unas directrices a seguir en estos casos. Finalmente, con la intención de enriquecer Euskal WordNet con más información sintáctico-semántica, hemos analizado las restricciones de selección de unos verbos correspondientes al ámbito del deporte y que han sido adquiridas automáticamente. Los objetivos de este estudio son, por una parte, el estudio,comparación y evaluación de las restricciones de selección adquiridas de corpus diferentes; y por otra, demostrar que las restricciones de selección pueden ser multilingües.