在 CNN 中使用 MFCC 和 Mel 频谱图

Using MFCCs and Mel-Spectrograms with CNN

我想得到一些反馈，为什么在很多研究论文中，研究人员通过卷积神经网络 (CNN) 传递 MFCC？本质上，CNN本身就是一个特征提取过程。

关于为何常用此过程的任何提示和建议。

谢谢！

MFCC 模仿人耳对声音的非线性感知，它近似于人类听觉系统的响应。因此，MFCC被广泛应用于语音识别。

虽然 CNN 被用于特征提取，但原始音频信号并不常用作 CNN 的输入。这样做的原因是音频信号本身就容易产生噪声，并且经常被对预期应用无用的频带污染。因此，通常的做法是通过带通滤波器对信号进行预处理，去除噪声和去除不相关的频带，然后从中提取相关特征。这些特征可以是时域特征；例如振幅包络、均方根能量或过零率或频域特征；例如带能量比、光谱质心和光谱通量，或时频表示；例如频谱图和梅尔频谱图。

然后使用 CNN 在这些提取的特征中提取局部模式。特别是，对于时频表示，二维 CNN 用于提取特征，类似于图像识别应用中的特征提取过程。

在 CNN 中使用 MFCC 和 Mel 频谱图

Using MFCCs and Mel-Spectrograms with CNN

mfcc

conv-neural-network