Bi-modal annoyance level detection from speech and text

  1. Irastorza, Jon
  2. Torres Barañano, María Inés
  3. Pérez, Saioa
  4. Justo Blanco, Raquel
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2018

Número: 61

Páginas: 83-89

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

El principal objetivo de este trabajo es la detección de cambios emocionales a partir del habla. Diferentes trabajos basados en aprendizaje automático han analizado conjuntos de parámetros acústicos como potenciales indicadores en la identificación de categorías emocionales discretas o en la identificación dimensional de las emociones. Sin embargo, la información semántica recogida en el mensaje textual asociado a cada intervención, puede proporcionar información valiosa para la detección de emociones. En este trabajo se combina la información textual y acústica dando lugar a mejoras en el rendimiento del sistema. Es importante recalcar por otra parte, el uso de un corpus que incluye emociones espontáneas recogidas en un entorno realista. Es bien sabido que la expresión de la emoción depende no solo de factores culturales sino también de factores individuales y de situaciones particulares. Por lo tanto, las conclusiones extraídas en este trabajo se pueden extrapolar más fácilmente a un sistema real que aquellas obtenidas a partir de un corpus clásico en el que se simula el estado emocional.

Referencias bibliográficas

  • Ben-David, B. M., N. Multani, V. Shakuf, F. Rudzicz, y P. H. H. M. van Lieshout. 2016. Prosody and semantics are separate but not separable channels in the perception of emotional speech: Test for rating of emotions in speech. Journal of Speech, Language, and Hearing Research, 59(1):72–89.
  • Boersma, P. y D. Weenink. 2016. Praat: doing phonetics by computer. Software tool, University of Amsterdam. version 6. 0.15.
  • Cambria, E. 2016. Affective computing and sentiment analysis. IEEE Intelligent Systems, 31(2):102–107, Mar.
  • Clavel, C. y Z. Callejas. 2016. Sentiment analysis: From opinion mining to human agent interaction. IEEE Transactions on Affective Computing, 7(1):74–93, Jan.
  • Devillers, L., L. Vidrascu, y L. Lamel. 2005. Challenges in real-life emotion annotation and machine learning based detection. Neural Networks, 18(4):407 – 422. Emotion and Brain.
  • Eskimez, S. E., K. Imade, N. Yang, M. Sturge-Apple, Z. Duan, y W. Heinzelman. 2016. Emotion classification: how does an automated system compare to naive human coders? En Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), páginas 2274–2278, March.
  • Esposito, A., A. M. Esposito, L. LikformanSulem, M. N. Maldonato, y A. Vinciarelli, 2016. Recent Advances in Nonlinear Speech Processing, caṕıtulo On the Significance of Speech Pauses in Depressive Disorders: Results on Read and Spontaneous Narratives, páginas 73–82. Springer International Publishing, Cham.
  • Eyben, F., M. Wöllmer, A. Graves, B. Schuller, E. Douglas-Cowie, y R. Cowie. 2010. On-line emotion recognition in a 3-d activation-valence-time continuum using acoustic and linguistic cues. Journal on Multimodal User Interfaces, 3(1):7–19, Mar.
  • Gilbert, E. y K. Karahalios. 2010. Widespread worry and the stock market. En ICWSM 2010 Proceedings of the 4th International AAAI Conference on Weblogs and Social Media, páginas 58–65.
  • Girard, J. M. y J. F. Cohn. 2016. Automated audiovisual depression analysis. Current Opinion in Psychology, 4:75 – 79.
  • Irastorza, J. y M. I. Torres. 2016. Analyzing the expression of annoyance during phone calls to complaint services. En 2016 7th IEEE International Conference on Cognitive Infocommunications (CogInfoCom), páginas 000103–000106, Oct.
  • Justo, R., O. Horno, M. Serras, y M. I. Torres. 2014. Tracking emotional hints in spoken interaction. En Proc. of VIII Jornadas en Tecnoloǵıa del Habla and IV Iberian SLTech Workshop (IberSpeech 2014), páginas 216–226. 88
  • Kim, J. C. y M. A. Clements. 2015. Multimodal affect classification at various temporal lengths. IEEE Transactions on Affective Computing, 6(4):371–384, Oct.
  • Marsden, P. V. y K. E. Campbell. 2012. Reflections on conceptualizing and measuring tie strength. Social Forces, 91(1):17– 23.
  • Medeiros, L. y C. N. van der Wal. 2017. An agent-based model predicting group emotion and misbehaviours in stranded passengers. En E. Oliveira J. Gama Z. Vale, y H. Lopes Cardoso, editores, Progress in Artificial Intelligence, páginas 28–40, Cham. Springer International Publishing.
  • Meilán, J. J. G., F. Mart́ınez-Sácnhez, J. Carro, D. E. López, L. Millian-Morell, y J. M. Arana. 2014. Speech in alzheimer?s disease: Can temporal and acoustic parameters discriminate dementia? Dementia and Geriatric Cognitive Disorders, 37(56):327–334.
  • Mencattini, A., E. Martinelli, F. Ringeval, B. Schuller, y C. D. Natlae. 2016. Continuous estimation of emotions in speech by dynamic cooperative speaker models. IEEE Transactions on Affective Computing, PP(99):1–1.
  • Poria, S., I. Chaturvedi, E. Cambria, y A. Hussain. 2016. Convolutional mkl based multimodal emotion recognition and sentiment analysis. En 2016 IEEE 16th International Conference on Data Mining (ICDM), páginas 439–448, Dec.
  • Ringeval, F., F. Eyben, E. Kroupi, A. Yuce, J.-P. Thiran, T. Ebrahimi, D. Lalanne, y B. Schuller. 2015. Prediction of asynchronous dimensional emotion ratings from audiovisual and physiological data. Pattern Recognition Letters, 66:22 – 30.
  • Valstar, M., B. Schuller, K. Smith, T. Almaev, F. Eyben, J. Krajewski, R. Cowie, y M. Pantic. 2014. Avec 2014: 3d dimensional affect and depression recognition challenge. En Proceedings of the 4th International Workshop on Audio/Visual Emotion Challenge, AVEC ’14, páginas 3– 10, New York, NY, USA. ACM.
  • Ververidis, D. y C. Kotropoulos. 2006. Emotional speech recognition: Resources, features, and methods. Speech Communication, 48(9):1162 – 1181.
  • Vidrascu, L. y L. Devillers. 2005. Detection of Real-Life Emotions in Call Centers. En Proceedings of INTERSPEECH’05: the 6th Annual Conference of the International Speech Communication Association, páginas 1841–1844, Lisbon, Portugal. ISCA.
  • Wang, K., N. An, B. N. Li, Y. Zhang, y L. Li. 2015. Speech emotion recognition using fourier parameters. IEEE Transactions on Affective Computing, 6(1):69–75, Jan.
  • Wollmer, M., F. Eyben, S. Reiter, B. Schuller, C. Cox, E. Douglas-Cowie, y R. Cowie. 2008. Abandoning emotion classes towards continuous emotion recognition with modelling of long-range dependencies. páginas 597–600, 9.