Hitzen arteko antzekotasuna: ezagutza-baseetan oinarritutako tekniken ekarpenak

GOIKOETXEA SALUTREGI, JOSU

Hitzen arteko antzekotasunaezagutza-baseetan oinarritutako tekniken ekarpenak

GOIKOETXEA SALUTREGI, JOSU

Supervised by:

Aitor Soroa Etxabe Director
Eneko Agirre Bengoa Director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 13 July 2018

Committee:

Arantza Díaz de Ilarraza Sánchez Chair
Diego López de Ipiña González de Artaza Secretary
Itziar Aduriz Committee member

Department:

Ciencia de la Computación e Inteligencia Artificial

Type: Thesis

Teseo: 147128 DIALNET ADDI editor

Abstract

Eredu konputazionalekin sortutako hitzen errepresentazio semantikoak gakoa dira hizkuntzarenprozesamenduko hainbat atazatan, eta errepresentazio horien kalitatea ebaluatzeko hitzen artekoantzekotasuna erabiltzen da. Antzekotasun-ataza hizkuntzaren prozesamenduaren alorrean kokatzen da,lexiko-semantikan, eta, hurrengo urratsak ditu: lehenik, hitzen arteko antzekotasuna hitzenerrepresentazioen bidez kalkulatzen da; ondoren, antzekotasun hori gizakien antzekotasun-irizpideekinkonparatzen da. Eredu konputazionalaren emaitzak zenbat eta gizakion irizpideetatik hurbilago egon, orduaneta kalitate hobea izango dute hitzen errepresentazioek. Lan honetan antzekotasunaren kasuorokorragoarekin ere lan egin dugu, ahaidetasunarekin.Hitzen errepresentazioan testu-corpusetan oinarritutako metodoak eta ezagutza-baseetan oinarritutakoakdaude. Aurreneko familian hainbat eredu daude, baina, lan honetan neurona-sareetan oinarritutakoak erabiliditugu. Metodo horiek hitzen esanahiak testuetako hitz-testuinguru agerkidetzen bidez inferitzen dituzte etabektore-espazio trinko batean kodetzen. Bigarren familiakoen artean, ezagutza-baseak grafoak balira bezalatratatzen dituztenez baliatu gara, azken horien informazio estrukturala bere osotasuenan ustiatuz. Aldebatetik, testu corpusetatik erauzitako errepresentazio trinkoek arrakasta handia izan dute hainbat atazatan,baina, antzekotasun- eta ahaidetasun-erlazioak nahastuta daude hitzen errepresentazioetan. Bestetik,ezagutza-baseetako errepresentazioak kalkulatzea konputazionalki garestia da, baina, ezagutza-baseetanantzekotasun- eta ahaidetasun-erlazioak esplizituak dira.Tesi-lan honen xedea antzekotasun-atazako emaitzak hobetzea da, eta, azken hori hitzen errepresentaziosemantiko hobeak erdiesteko teknikez burutuko dugu. Gure hipotesi nagusia testu-corpusetako etaezagutza-baseetako informazioa desberdina eta osagarria dela da. Gure aburuz, bi iturri horiek konbinatuzgero hitzen errepresentazioen arteko antzekotasun-emaitzak hobetuko dira, eta, ondorioz, errepresentaziohobeak izango ditugu. Hipotesi hori, gainera, elearteko erlazioetara hedatu dugu. elearteko antzekotasunaeta ahaidetasuna ere esploratuz. Izan ere, bi baliabide horiek antzekotasunaren edota ahaidetasunarennabardura desberdinak jasotzen dituzte, eta, konbinatuz gero, antzekotasuna eta ahaidetasuna hobetomodelatuko dute.Tesi-lan honen bitartez aurreko paragrafoko hipotesiak frogatu ditugu, eta egindako ekarpenak hurrengohirurak dira: (1) ausazko ibilbideen metodo batekin ezagutza-baseetako informazio estrukturala corpusbatean kodetzea, eta azken horren hitzen errepresentazio semantikoak kalkulatzea; (2) testuko etaezagutza-baseetako informazio semantikoa konbinatzeko hainbat metodo eta errepresentazio hibridoproposatzea; (3) aurretik proposatutako guztiak elearteko erlazioetan aplikatzea.Aipatuako metodo eta konbinaketa oro antzekotasun-atazan ebaluatu ditugu, beren emaitzak artearenegoerako metodo baliokideekin konparatuz. Gure proposamenek antzekotasun-atazako artearen egoeraberdindu edo gainditu dute, eta gure hipotesiak betetzen direla ondorioztatu dugu.