Base de conocimiento léxico para el euskeraeuskal wordnet

  1. POCIELLO IRIGOYEN, ELISABETE
unter der Leitung von:
  1. Eneko Agirre Bengoa Doktorvater/Doktormutter
  2. Izaskun Aldezabal Roteta Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 28 von Februar von 2008

Gericht:
  1. Miren Karmele Azkarate Villar Präsident/in
  2. Kepa Korta Carrión Sekretär/in
  3. Xabier Artola Zubillaga Vocal
  4. Beatriz Fernández Fernández Vocal
  5. Ricardo Etxepare Vocal
Fachbereiche:
  1. Lenguajes y Sistemas Informáticos

Art: Dissertation

Teseo: 215042 DIALNET

Zusammenfassung

Las bases de conocimiento léxico (BCL) son imprescindibles para avanzar en el estudio de la semántica computacional. En esta tesis se hace una propuesta de una BCL para euskera. Para ello nos hemos basado en una BCL para el inglés -WordNet (Miller 1985)-, y hemos creado su equivalente el euskera (Euskal WordNet). En esta tesis describimos el proceso que hemos seguido para desarrollar Euskal WordNet. Primero, hemos especificado las características que queremos que tenga nuestra BCL. Luego, hemos hecho un estudio comparativo de varios formalismos de BCLs, buscando el más adecuado para la BCL del euskera. Así, tras ese estudio, hemos decidido basar nuestra BCL en el formalismo de WordNet y en las BCLs que lo han seguido -EuroWordNet y The Multilingual Central Repository (MCR). En cuanto a la metodología adoptada en la construcción de Euskal WordNet, hemos tomado como punto de partida los conceptos del inglés de WordNet, y les hemos añadido sus equivalentes del euskera. Para ello, al principio, priorizamos la cobertura -introduciendo en todos los conceptos ingleses sus equivalentes vascos automáticamente., y más tarde, nos centramos en la calidad de los equivalentes del euskera- primero, mediante la revisión manual tomando como punto de partida los conceptos; posteriormente, mediante la revisión manual tomando como punto de partida los lemas; y finalmente, basándonos en la información de un corpus vasco que estamos etiquetando paralelamente: EuSemcor (agirre et al., 2006). En estas revisiones de Euskal WordNet -y teniendo en cuenta que nuestro Wordnet se está construyendo sobre un wordnet inglés- han emergido varios rasgos distintivos entre el inglés y el euskera, así como, los relacionados con la lexicalización y la organización jerárquica. Hemos examinado estos rasgos, y hemos definido unas directrices a seguir en estos casos. Finalmente, con la intención de enriquecer Euskal WordNet con más información sintáctico-semántica, hemos analizado las restricciones de selección de unos verbos correspondientes al ámbito del deporte y que han sido adquiridas automáticamente. Los objetivos de este estudio son, por una parte, el estudio,comparación y evaluación de las restricciones de selección adquiridas de corpus diferentes; y por otra, demostrar que las restricciones de selección pueden ser multilingües.