在 CNN 中使用 MFCC 和 Mel 频谱图
Using MFCCs and Mel-Spectrograms with CNN
我想得到一些反馈,为什么在很多研究论文中,研究人员通过卷积神经网络 (CNN) 传递 MFCC?本质上,CNN本身就是一个特征提取过程。
关于为何常用此过程的任何提示和建议。
谢谢!
MFCC 模仿人耳对声音的非线性感知,它近似于人类听觉系统的响应。
因此,MFCC被广泛应用于语音识别。
虽然 CNN 被用于特征提取,但原始音频信号并不常用作 CNN 的输入。
这样做的原因是音频信号本身就容易产生噪声,并且经常被对预期应用无用的频带污染。
因此,通常的做法是通过带通滤波器对信号进行预处理,去除噪声和去除不相关的频带,然后从中提取相关特征。
这些特征可以是时域特征;例如振幅包络、均方根能量或过零率或频域特征;例如带能量比、光谱质心和光谱通量,或时频表示;例如频谱图和梅尔频谱图。
然后使用 CNN 在这些提取的特征中提取局部模式。
特别是,对于时频表示,二维 CNN 用于提取特征,类似于图像识别应用中的特征提取过程。
我想得到一些反馈,为什么在很多研究论文中,研究人员通过卷积神经网络 (CNN) 传递 MFCC?本质上,CNN本身就是一个特征提取过程。
关于为何常用此过程的任何提示和建议。
谢谢!
MFCC 模仿人耳对声音的非线性感知,它近似于人类听觉系统的响应。 因此,MFCC被广泛应用于语音识别。
虽然 CNN 被用于特征提取,但原始音频信号并不常用作 CNN 的输入。 这样做的原因是音频信号本身就容易产生噪声,并且经常被对预期应用无用的频带污染。 因此,通常的做法是通过带通滤波器对信号进行预处理,去除噪声和去除不相关的频带,然后从中提取相关特征。 这些特征可以是时域特征;例如振幅包络、均方根能量或过零率或频域特征;例如带能量比、光谱质心和光谱通量,或时频表示;例如频谱图和梅尔频谱图。
然后使用 CNN 在这些提取的特征中提取局部模式。 特别是,对于时频表示,二维 CNN 用于提取特征,类似于图像识别应用中的特征提取过程。