HMM 与深度学习的语音情感识别 (SER)

HMM vs Deep Learning for Speech Emotion Recognition (SER)

对于构建语音情感检测和识别系统，哪种方法会更好？隐马尔可夫模型或深度学习 (RNN-LSTM) 方法？我必须建立一个 SER 系统，我对两者感到困惑。如果有比这两个更好的模型，请告诉。

基于

HMM 和 RNN-LSTM 的解决方案对于 SER 而言不被认为是高度准确的。我相信迄今为止的排名算法是基于 Deep Retinal 的卷积神经网络 (DRCNN)。参见Speech emotion recognition using Deep Retinal Convolution Neural Networks，作者：牛亚峰；邹东升;牛亚东；他，中石； Tan, Hua 于 2017 年 7 月发表。作者在以下数据库上取得了超过 99% 的平均准确率：IEMOCAP、EMO-DB 和 SAVEE。

在实践中，它受到多种条件的影响，例如：

算法复杂性（在训练或测试模式下）、准确性或其他混淆矩阵度量？
注释的准确性如何（神经网络需要标记数据）？
您正在使用低资源语言，例如波斯语、阿拉伯语，...或者该项目是包含英语的 ASR大量标记数据？
是否有必要确切地知道您正在建模什么？

如果你愿意使用像深度学习神经网络这样鲜为人知的结构，你可以执行它，它有数百层、数千个参数，并且可能需要更多资源 (计算和标记数据) 比隐马尔可夫模型 (HMM) 进行训练。

HMM 以前被认为是最前沿的，但深度学习现在要准确得多。

最后我可以这样总结：HMM 更易于理解和使用。深度学习可能需要更长的时间来计算，但结果可能更有希望。

HMM 与深度学习的语音情感识别 (SER)

HMM vs Deep Learning for Speech Emotion Recognition (SER)

speech-recognition

machine-learning

hidden-markov-models

deep-learning

recurrent-neural-network