HMM 与深度学习的语音情感识别 (SER)

HMM vs Deep Learning for Speech Emotion Recognition (SER)

对于构建语音情感检测和识别系统,哪种方法会更好?隐马尔可夫模型或深度学习 (RNN-LSTM) 方法?我必须建立一个 SER 系统,我对两者感到困惑。如果有比这两个更好的模型,请告诉。

基于

HMM 和 RNN-LSTM 的解决方案对于 SER 而言不被认为是高度准确的。我相信迄今为止的排名算法是基于 Deep Retinal 的 卷积神经网络 (DRCNN)。参见Speech emotion recognition using Deep Retinal Convolution Neural Networks,作者:牛亚峰;邹东升;牛亚东;他,中石; Tan, Hua 于 2017 年 7 月发表。作者在以下数据库上取得了超过 99% 的平均准确率:IEMOCAP、EMO-DB 和 SAVEE。

在实践中,它受到多种条件的影响,例如:

  • 算法复杂性(在训练或测试模式下)、准确性或其他混淆矩阵度量?
  • 注释的准确性如何(神经网络需要标记数据)?
  • 您正在使用低资源语言,例如波斯语、阿拉伯语,...或者该项目是包含英语的 ASR大量标记数据?
  • 是否有必要确切地知道您正在建模什么?

如果你愿意使用像深度学习神经网络这样鲜为人知的结构,你可以执行它,它有数百层、数千个参数,并且可能需要更多资源 (计算和标记数据) 比隐马尔可夫模型 (HMM) 进行训练。

HMM 以前被认为是最前沿的,但深度学习现在要准确得多。

最后我可以这样总结:HMM 更易于理解和使用。深度学习可能需要更长的时间来计算,但结果可能更有希望。