Adquisició d'informació lèxica i morfosintàctica a partir de corpus sense anotar: aplicació al rus i al croat

OLIVER GONZÁLEZ, ANTONIO

Adquisició d'informació lèxica i morfosintàctica a partir de corpus sense anotaraplicació al rus i al croat

OLIVER GONZÁLEZ, ANTONIO

Dirigida por:

Irene Castellón Masalles Director/a
Lluís Márquez Villodre Codirector/a

Universidad de defensa: Universitat de Barcelona

Fecha de defensa: 27 de julio de 2004

Tribunal:

Horacio Rodríguez Hontoria Presidente/a
Ana María Fernández Montraveta Secretario/a
Joan Castellví Vives Vocal
Iñaki Alegría Loinaz Vocal
Toni Badia Cardús Vocal

Tipo: Tesis

Teseo: 100367 DIALNET

Resumen

En esta tesis se presentan deversas metodologías de adquisición automática de información léxica y morfosintáctica y de aprendizaje no supervisado de la morfología a partir de corpus sin anotar.Las metoddología que presentamos se han probado para dos lenguas eslavas:el ruso y el croata;lenguas que se caracterizan por tener una morfología rica y de tipo predominantemente concatenativo.Esta caracteristica se ha aprovechado en el diseño de los algoritmos, que se pueden adaptar fácilmente para funcionar para otras lenguas que presenten una morfología relativamente rica y cuyos principales procesos morfologícos, ya sean sufijales o prefijales, se puedan describir de una manera concatenativa. Se ha realizado una evaluación exhaustiva de las metodologías presentadas y se ha demostrado que funcionan muy satisfactoriamente para estas lesguas.El hecho que funcionen de corpus sin anotar hace que sean muy interesantes para la creación de nuevos recursos léxicos o para la ampliación de recursos existentes. Los algoritmos presentados en este trabajo pueden utilizar Internet para buscar información no presente en el corpus, lo que supone que se puedan aplicar los procesos sin la necesidad de recopilar corpus de gran tamaño.