Chunk and clause identification for basque by filtering and ranking with perceptrons

  1. Alegría Loinaz, Iñaki
  2. Arrieta Kortajarena, Bertol
  3. Carreras, Xavier
  4. Díaz de Ilarraza Sánchez, Arantza
  5. Uria Garin, Larraitz
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2008

Número: 41

Páginas: 5-12

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Este artículo presenta sistemas de identificación de chunks y cláusulas para el euskera, combinando gramáticas basadas en reglas con técnicas de aprendizaje automático. Más concretamente, se utiliza el modelo de Filtrado y Ranking con el Perceptron (Carreras, Màrquez y Castro, 2005): un modelo de aprendizaje que permite identificar estructuras sintácticas parciales en la oración, con resultados óptimos para estas tareas en inglés. Este modelo permite incorporar nuevos atributos, y posibilita así el uso de información de diferentes fuentes. De esta manera, hemos añadido información lingüística en los algoritmos de aprendizaje. Así, los resultados del identificador de chunks han mejorado considerablemente y se ha compensado la influencia del relativamente pequeño corpus de entrenamiento que disponemos para el euskera. En cuanto a la identificación de cláusulas, los primeros resultados no son demasiado buenos, debido probablemente al orden libre del euskera y al pequeño corpus del que disponemos actualmente.