Hedapena informazioaren berreskurapeneanhitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak

  1. OTEGI USANDIZAGA, ARANTZA
Supervised by:
  1. Xabier Arregi Iparragirre Director
  2. Eneko Agirre Bengoa Director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 16 March 2012

Committee:
  1. Basilio Sierra Araujo Chair
  2. Aitor Soroa Etxabe Secretary
  3. Piek Vossen Committee member
  4. Carlos Lamsfus Franco Committee member
  5. Lluís Márquez Villodre Committee member
Department:
  1. Lenguajes y Sistemas Informáticos

Type: Thesis

Teseo: 115256 DIALNET

Abstract

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web- bilatzaileak IB sistemen adibide garbiak dira.IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez- adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek(anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ezegotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.IBaren hastapenetatik gaur arte parekatze-arazoaren inguruan ikerketalan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Tesi-lan honetan hizkuntzaren prozesamenduaren (HP) bidez arazo hau arintzerik ba ote den aztertu da.Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egiten dugu HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen- prozesu bat proposatzen dugu, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko ditugun. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen dugu kasu bakoitzerako. Are gehiago, erabiliko dugun hedapen-teknikak kontsulta eta dokumentuak itzultzeko balio duenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen direla erakutsiko dugu.Hiru datu-multzotan egindako esperimentu eta analisiek erakusten dute tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio dutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.