Entitate-izenak euskarazidentifikazioa, sailkapena, itzulpena eta desanbiguazioa
- FERNANDEZ GONZALEZ, IZASKUN
- Nerea Ezeiza Ramos Director/a
- Iñaki Alegría Loinaz Director/a
Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 21 de marzo de 2012
- Arantza Díaz de Ilarraza Sánchez Presidente/a
- Olatz Arregi Uriarte Secretario/a
- Jordi Atserias Batalla Vocal
- Lluís Padró Cirera Vocal
- Raquel Martínez Unanue Vocal
Tipo: Tesis
Resumen
Euskarazko entitate-izenak (pertsona-, toki- eta erakunde-izenak) automatikoki lantzea izan da tesi-lan honen helburua. Lan horretan bereziki hiru alor jorratu ditugu:¿ Euskarazko entitate-izenen identifikazio eta sailkapena: Euskarazko testuetan agertzen diren entitate-izenak automatikoki identifikatu eta sailkatzeko tresnaren garapenerako bidean, hizkuntza-ezagutzan zein ikasketa automatikoko teknikak erabiliz eta konbinatuz, ingelesarentzat garatutako tresnen pareko tresna garatzea izan da ataza honen helburu nagusia. Zeregin horretan, teknika egokienak aztertu dira eta horien konbinazioen portaerak aztertzeko tarteko helburua ere landu da. Euskararen kasuan baliabide mugatuekin problemei aurre egiteko bidea bilatu da ahal izan denean. ¿ Euskarazko entitate-izenen itzulpena: Itzulpen-automatikoko zein galdera-erantzun eleanitzen aplikazioetarako lagungarri gertatzen diren entitate-izenen aipamen eleanitzak automatikoki sortzeko estrategiaren definizioa eta garapena izan da eginkizun honen funtsa. Euskarazko entitate-izenak izanik abiapuntua eta gaztelera helburu-hizkuntza, hizkuntza-ezagutzan oinarritutako eta teknika erdi-gainbegiratuekin hurbilpen desberdinak egin eta horien portaerak aztertu dira. Hurbilpen bakoitzerako beharrezkoak diren baliabideak eta emaitzak aztergai izan ditugu. Azkenik, teknika erdi-gainbegiratuekin egindako ekarpena beste hizkuntza bikote batzuetara hedatzeko ahalmena ere aztertu da. ¿ Euskarazko entitate-izenen desanbiguazioa: Euskarazko testuetan agertzen diren entitate-izenen agerpen anbiguoak automatikoki desanbiguatzea izan da eginkizun zehatz honetan ebatzi beharrekoa. Edozein desanbiguazio-atazatan bezala, desanbiguazioa automatikoki burutu ahal izateko agerpenaren testuinguruaz gain ezagutza-base bat sortzea beharrezkoa izan da, non espresio anbiguo baten adiera posibleak deskribatzen diren. Euskarazko entitate-izenen desanbiguaziorako ezagutza-base horren definizioan, euskarazko Wikipediaren erabilgarritasuna aztertu da. Eta baliabide horren ezaugarriak ahalik eta hobekien baliatuz, euskarazko entitate-izenak automatikoki desanbiguatzeko agerpen bat eta Wikipedia sarrera bat lotzen duen prozesua definitu da. Prozesu horren automatizaziorako, ingelesa bezalako beste hizkuntza batzuetarako erabilitako teknika onenak erabili, eta euskara bezalako baliabide urriko hizkuntzan baliabide mugatuekin lan egitean horien portaera aztertu da. Eginkizun horietan guztietan baliabideen berrerabilpenari, metodo sinple eta horien konbinazioen azterketari, eta oro har euskararen ezaugarri morfosintaktikoek entitate-izenen atazetan duten eraginaren azterketari lehentasuna eman diegu.