Aldaera linguistikoen normalizazioa inferentzia fonologikoa eta morfologikoa erabiliz

  1. ETXEBERRIA UZTARROZ, MARIA IZASKUN
Zuzendaria:
  1. Montse Maritxalar Anglada Zuzendaria
  2. Iñaki Alegría Loinaz Zuzendaria

Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 2016(e)ko uztaila-(a)k 11

Epaimahaia:
  1. Arantza Díaz de Ilarraza Sánchez Presidentea
  2. Antonio Gurruchaga Hernaiz Idazkaria
  3. Jordi Porta Zamorano Kidea
Saila:
  1. Hizkuntza eta Sistema Informatikoak

Mota: Tesia

Teseo: 120814 DIALNET lock_openADDI editor

Laburpena

Tesi-lan hau hizkuntzaren azterketa eta prozesamenduaren arlokoa da eta testu ez-estandarren ikertze-lerroan garatu da, euskarazko testu ez-estandarren normalizazioa izanik lanaren gai nagusiTestu estandarrekin alderatuta, testu ez-estandarrek ezaugarri bereziak dituzte maila lexikoan, morfologikoan edota fonologikoan, eta haien prozesaketa erronka berri bat da. Testu horiek, oro har, ezin dira ohiko moduan prozesatu hizkuntza prozesatzeko tresna gehienak (NLP, Natural Language Processing tresnak) hizkuntza estandarretan idatzitako testuak prozesatzeko garatu direlako, eta testu ez-estandarrekin erabiltzen direnean asko jaisten da haien errendimendua. Halako testuak prozesatzeko interesa, ordea, asko zabaldu da azken urteetan: liburutegi digitalak, humanitate digitalak, soziolinguistika konputazionala, iritzien analisia eta abar. Testu ez-estandarrak normalizatuz gero, aukera dago NLP tresnak aplikatzeko testu horietan eta horretarako funtsezkoa da prozesu hori ahalik eta modurik eraginkorrenean betetzea. Tesi-lan honetan ikasketa automatikoan oinarritzen diren metodoak proposatzen dira euskarazko testu ez-estandarretan normalizazioaren ataza ebazteko. Horrekin batera, metodoek lortzen dituzten emaitzak konparatzen dira beste ikerketa batzuek lortzen dituztenekin, horrela metodoen egokitasuna aztertzeko. Konparazio hori egiteko gaztelaniazko zein eslovenierazko corpusak erabili dira, beste zenbait ikerlariren lankidetza baliatuz.