Unidad discursiva y relaciones retóricasun estudio acerca de las unidades de discurso en el etiquetado de un corpus en euskera

  1. Iruskieta Quintian, Mikel
  2. Díaz de Ilarraza Sánchez, Arantza
  3. Lersundi Ayestaran, Mikel
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2011

Número: 47

Páginas: 137-144

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este artículo se describe el estudio realizado sobre las características del etiquetado de la estructura de discurso, según la Teoría de la Estructura Retórica, en los niveles inter-oracional e intra-oracional. El corpus etiquetado está compuesto por textos médicos escritos en euskera y extraídos de la Gaceta Médica de Bilbao siendo nuestro objetivo final establecer una metodología general para la anotación de corpus a nivel discursivo. En este trabajo se analizan los acuerdos y desacuerdos de la anotación realizada por dos anotadores en cada nivel. Los resultados obtenidos sugieren que la segmentación en unidades de discurso es más compleja en el nivel intra-oracional mientras que la asignación de relaciones retóricas lo es en el nivel inter-oracional. Además hemos detectado que hay relaciones que aparecen con mayor frecuencia en cada nivel y otras se dan indistintamente en ambos niveles inter- e intra-oracional. Este estudio sienta las bases para el futuro desarrollo de un anotador automático de relaciones.

Referencias bibliográficas

  • Afantenos, S., P. Denis, P. Muller y L. Danlos, 2010. Learning Recursive Segments for Discourse Parsing. En Proceedings of the Seventh conference on International Language Resources and Evaluation, 3578-3584.
  • Asher, N. y A. Lascarides, 2003. Logics of conversation. Cambridge Univ Pr, Cambridge. Carletta, J., 1996. Assessing agreement on classification tasks: the kappa statistic. Computational linguistics, 22 (2): 249-254.
  • Carlson, L., D. Marcu y M.E. Okurowski, 2001. Building a discourse-tagged corpus in the framework of rhetorical structure theory. En Proceedings of the Second SIGdial Workshop on Discourse and Dialogue, 85-112.
  • Carlson, Lynn, M.E. Okurowski, D. Marcu, 2002. RST Discourse Treebank. LDC. Cristea, D., N. Ide y L. Romary, 1998. Veins theory: A model of global discourse cohesion and coherence. En Proceedings of the 17th international conference on Computational linguistics-Volume 1, 281-285.
  • da Cunha, I. y M. Iruskieta, 2010. Comparing rhetorical structures in different languages: The influence of translation strategies. Discourse Studies, 12 (5): 563-598.
  • Danlos, L., 2008. Strong generative capacity of RST, SDRT and discourse dependency DAGSs. Constraints in discourse, 69–95.
  • Girill, T., 1991. Information chunking as an interface design issue for full-text databases. Interfaces for Information Retrieval and Online Systems: The State of the Art, 149-158.
  • Hearst, M.A., 1997. TextTiling: Segmenting text into multi-paragraph subtopic passages. Computational linguistics, 23 (1): 33-64.
  • Lehmann, C., 1985. Towards a typology of clause linkage. En Conference on Clause Combining, 181-248.
  • Mann, W.C. y M. Taboada, 2010. RST website. http://www.sfu.ca/rst/.
  • Mann, W.C.y S.A. Thompson, 1987. Rhetorical Structure Theory: A Theory of Text Organization. Marina del Rey. CA: Information Sciences Institute.
  • Marcu, D., 1999. Discourse trees are good indicators of importance in text. Advances in automatic text summarization, 123-136.
  • Marcu, D. y A. Echihabi, 2002. An unsupervised approach to recognizing discourse relations. En Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 368-375.
  • Miltsakaki, E., R. Prasad, A. Joshi y B. Webber, 2004. Annotating discourse connectives and their arguments. En Proceedings of the HLT/NAACL Workshop on F rontiers in Corpus Annotation, 9–16.
  • O'Donnell, M., 2000. RSTTool 2.4: a markup tool for Rhetorical Structure Theory. En Proceedings of the F irst International Conference on Natural Language Generation INLG '00, 253-256.
  • Pardo, T.A.S. y M.G.V. Nunes, 2008. On the development and evaluation of a Brazilian Portuguese discourse parser. Journal of Theoretical and Applied Computing, 15 (2): 43-64.
  • Passonneau, R.J. y D.J. Litman, 1993. Intention-based segmentation: Human reliability and correlation with linguistic cues. En Proceedings of the 31st annual meeting on Association for Computational Linguistics, 148-155.
  • Polanyi, L., 1988. A formal model of the structure of discourse. Journal of Pragmatics, 12 (5-6): 601-638.
  • Soricut, R. y D. Marcu, 2003. Sentence level discourse parsing using syntactic and lexical information. En Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1, 149-156.
  • Stede, M., 2008. Disambiguating rhetorical structure. Research on Language & Computation, 6 (3): 311-332.
  • Taboada, M. y W.C. Mann, 2006a. Applications of rhetorical structure theory. Discourse studies, 8 (4): 567.
  • Taboada, M. y W.C. Mann, 2006b. Rhetorical Structure Theory: looking back and moving ahead. Discourse Studies, 8 (3): 423.
  • Thompson, S.A., R. Longacre y S.J.J. Hwang, 1985. Adverbial clauses. En: Shopen,T. (Ed.), Language Typology and Syntactic Description: Complex Constructions. Cambridge University Press, New York : 171-234.
  • Tofiloski, M., J. Brooke y M. Taboada, 2009. A syntactic and lexical-based discourse segmenter. En Proceedings of the ACL-IJCNLP 2009, 77-80.
  • Webber, B., 2009. Genre distinctions for discourse in the Penn TreeBank. En Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2- Volume 2, 674-682.
  • Webber, B., M. Stone, A. Joshi y A. Knott, 2003. Anaphora and discourse structure. Computational Linguistics, 29 (4): 545-587.
  • Wolf, F. y E. Gibson, 2004. Representing discourse coherence: A corpus-based analysis. En Proceedings of the 20th international conference on Computational Linguistics, 134-140.