MFCC in speech emotion recognition(Effect of average of Mel Frequency coefficients on performance)
MFCC in speech emotion recognition (Effect of average of Mel Frequency coefficients on performance)
我正在为我正在使用 MFCC 的功能开发一个项目(从语音或语音音调进行情感检测),我在某种程度上理解这些功能,并且知道它们在语音方面非常重要。
这是我从 librosa 使用的代码,用于从我的音频文件中提取特征,然后我在神经网络中使用它进行训练:
dat, sample_rate = librosa.load(audio_path,res_type='kaiser_fast')
mfccs = np.mean(librosa.feature.mfcc(y=dat, sr=sample_rate,n_mfcc=13).T, axis=0)
我想知道转置后的梅尔频率系数的平均值如何影响性能?我是否从我的音频文件中丢失了有价值的信息?或者我应该使用整个 Mel 频率系数进行训练并进行一些填充技术以确保训练特征的大小在所有训练音频文件中保持相同,因为它们的长度不同。
我还研究了其他技术,例如采用 mfccs 的导数并将它们连接在一起,但我仍然不确定哪种技术可以提供更好的功能集并最终提供更好的分类结果。
如果这两种技术不是那么有用,那么也许我应该坚持我目前的方法,如代码所示,即取平均值并可能将我的梅尔频率系数从 13 增加到更高的数字。
我认为在这种情况下求平均不是个好主意。因为,是的——你失去了宝贵的时间信息。但在情绪识别的背景下,通过与背景平均来抑制信号中有价值的部分更为重要。众所周知,情绪是一种微妙的现象,可能只在短时间内出现,其余时间都隐藏起来。
由于您的动机是准备音频信号以使用 ML 方法进行处理,我应该说有很多方法可以正确地做到这一点。简而言之,您独立处理每个 MFCC 帧(例如使用 DNN),然后以某种方式表示整个序列。有关详细信息和链接,请参阅此答案:
为了将静态 DNN 包含到动态上下文中,DNN 与隐马尔可夫模型的组合非常流行。描述该方法的经典论文可以追溯到 2013 年:https://www.researchgate.net/publication/261500879_Hybrid_Deep_Neural_Network_-_Hidden_Markov_Model_DNN-HMM_based_speech_emotion_recognition
如今,开发了新方法,例如:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/IS140441.pdf
给定足够的数据(和技能)进行训练,您可以使用某种或递归神经网络,通过设计解决序列分类任务。
我正在为我正在使用 MFCC 的功能开发一个项目(从语音或语音音调进行情感检测),我在某种程度上理解这些功能,并且知道它们在语音方面非常重要。
这是我从 librosa 使用的代码,用于从我的音频文件中提取特征,然后我在神经网络中使用它进行训练:
dat, sample_rate = librosa.load(audio_path,res_type='kaiser_fast')
mfccs = np.mean(librosa.feature.mfcc(y=dat, sr=sample_rate,n_mfcc=13).T, axis=0)
我想知道转置后的梅尔频率系数的平均值如何影响性能?我是否从我的音频文件中丢失了有价值的信息?或者我应该使用整个 Mel 频率系数进行训练并进行一些填充技术以确保训练特征的大小在所有训练音频文件中保持相同,因为它们的长度不同。
我还研究了其他技术,例如采用 mfccs 的导数并将它们连接在一起,但我仍然不确定哪种技术可以提供更好的功能集并最终提供更好的分类结果。
如果这两种技术不是那么有用,那么也许我应该坚持我目前的方法,如代码所示,即取平均值并可能将我的梅尔频率系数从 13 增加到更高的数字。
我认为在这种情况下求平均不是个好主意。因为,是的——你失去了宝贵的时间信息。但在情绪识别的背景下,通过与背景平均来抑制信号中有价值的部分更为重要。众所周知,情绪是一种微妙的现象,可能只在短时间内出现,其余时间都隐藏起来。
由于您的动机是准备音频信号以使用 ML 方法进行处理,我应该说有很多方法可以正确地做到这一点。简而言之,您独立处理每个 MFCC 帧(例如使用 DNN),然后以某种方式表示整个序列。有关详细信息和链接,请参阅此答案:
为了将静态 DNN 包含到动态上下文中,DNN 与隐马尔可夫模型的组合非常流行。描述该方法的经典论文可以追溯到 2013 年:https://www.researchgate.net/publication/261500879_Hybrid_Deep_Neural_Network_-_Hidden_Markov_Model_DNN-HMM_based_speech_emotion_recognition
如今,开发了新方法,例如:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/IS140441.pdf
给定足够的数据(和技能)进行训练,您可以使用某种或递归神经网络,通过设计解决序列分类任务。