Integrazioa hizkuntzaren prozesamenduan. Anotazio-eskemak eta elkarreragingarritasuna.Testuen prozesatze masiboa, datu handien teknikak erabiliz

  1. BELOKI LEIZA, ZUHAITZ
Dirigida por:
  1. Aitor Soroa Etxabe Director/a
  2. Xabier Artola Zubillaga Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 10 de julio de 2017

Tribunal:
  1. Kepa Sarasola Gabiola Presidente/a
  2. Arkaitz Zubiaga Secretario/a
  3. David Martínez Iraola Vocal
Departamento:
  1. Ciencia de la Computación e Inteligencia Artificial

Tipo: Tesis

Teseo: 142839 DIALNET lock_openADDI editor

Resumen

Tesi-lan honetan hizkuntzaren prozesamenduko tresnen integrazioa landudugu, datu handien teknikei arreta berezia eskainiz. Tresnenintegrazioa, izatez, bi mailatan landu dugu: anotazio-eskemen mailaneta prozesuen mailan.Anotazio-eskemen mailako integrazioan tresnen artekoelkarreragingarritasuna lortzeko lehenbiziko pausoak aurkeztea izandugu helburu. Horrekin lotuta, bi anotazio-eskema aurkeztu ditugu:Anotazio-Amaraunen Arkitektura (AWA, Annotation Web Architecture) etaNLP Annotation Format (NAF). AWA tesi-lan honekin hasi aurretik sortuaizan zen, eta orain formalizazio-lan bat egin dugu berarekin,elkarreragingarritasunari arreta berezia jarriz. NAF, bere aldetik,eskema praktikoa eta sinplea izateko helburuekin sortu dugu. Bianotazio-eskema horietatik abiatuz, eskemarekiko independentea deneredu abstraktu bat diseinatu dugu. Abstrakzio horri esker,elkarreragingarritasunerantz jotzeko bidea zabaldu nahi izan dugu,eredu abstraktua edozein eskemarekin bateragarria dela argudiatuz.Bestalde, tresnen prozesu mailako integrazioa ere landudugu. Horretarako, analisi-kateak modu malguan eta deklaratiboaneraikitzeko azpiegitura bat diseinatu eta inplementatu dugu. Gainera,azpiegitura horretan oinarrituz eta datu handien teknikak aplikatuz,testu-dokumentuen bilduma erraldoiak modu banatuan eta eskalagarrianprozesatzeko arkitektura bat diseinatu eta inplementatu dugu. Sistemahori hainbat nodoz osatutako terminal talde batean ezarriz, baianalisi-kateko tresnak eta bai prozesatu beharreko dokumentuak,automatikoki, eskura dauden nodoetan zehar banatuko dira, sistemaosoaren ahalmenari ahalik eta etekin handiena ateraz.