语音识别是否需要 MFCC 功能
Are MFCC features required for speech recognition
我目前正在开发一个语音识别项目,我正在尝试 select 最有意义的功能。
大多数相关论文建议使用过零率、F0 和 MFCC 功能,因此我使用了这些功能。
我的问题是,持续时间为 00:03 的训练样本有 268 个特征。考虑到我正在做一个多 class classification 项目,每个 class 训练有 50 多个样本,包括所有 MFCC 特征可能会使项目遭受维数灾难或 'reduce the importance'其他特性。
所以我的问题是,我是否应该包括所有 MFCC 功能,如果不能,您能推荐一个替代方案吗?
你不应该使用 f0 和过零,它们太不稳定了。您可以简单地增加训练数据并使用 mfcc,它们具有良好的表示能力。但记得对它们进行均值标准化。
得到每一帧的MFCC系数后,可以表示为MFCC特征的组合:
1) First 12 MFCC
2) 1 energy feature
3) 12 delta MFCC feature
4) 12 double-delta MFCC feature
5) 1 delta energy feature
6) 1 double delta energy feature
Delta MFCC 功能的内容在此描述
link.
39 维 MFCC 特征被输入 HMM or Recurrent Neural Network。
我想说明的一点是 MFCC 不是必需的。您可以使用 MFCC,也可以使用能量、delta 和 delta-delta 特性,正如@Mahendra Thapa 所提到的,但它不是 "required"。一些研究人员使用 40 个 CC,一些研究人员从 MFCC 计算中删除 DCT,使其成为 MFSC(频谱而非倒谱)。有些添加了额外的功能。有些用得少。对维度灾难的敏感性取决于你的分类器,不是吗?有些人最近甚至声称在 "holy grail" 语音识别方面取得了进展,使用原始信号进行训练,使用深度学习,学习最佳特征而不是手工制作它们。
MFCC应用广泛,效果相对较好。
我目前正在开发一个语音识别项目,我正在尝试 select 最有意义的功能。 大多数相关论文建议使用过零率、F0 和 MFCC 功能,因此我使用了这些功能。 我的问题是,持续时间为 00:03 的训练样本有 268 个特征。考虑到我正在做一个多 class classification 项目,每个 class 训练有 50 多个样本,包括所有 MFCC 特征可能会使项目遭受维数灾难或 'reduce the importance'其他特性。 所以我的问题是,我是否应该包括所有 MFCC 功能,如果不能,您能推荐一个替代方案吗?
你不应该使用 f0 和过零,它们太不稳定了。您可以简单地增加训练数据并使用 mfcc,它们具有良好的表示能力。但记得对它们进行均值标准化。
得到每一帧的MFCC系数后,可以表示为MFCC特征的组合:
1) First 12 MFCC 2) 1 energy feature 3) 12 delta MFCC feature 4) 12 double-delta MFCC feature 5) 1 delta energy feature 6) 1 double delta energy feature
Delta MFCC 功能的内容在此描述 link.
39 维 MFCC 特征被输入 HMM or Recurrent Neural Network。
我想说明的一点是 MFCC 不是必需的。您可以使用 MFCC,也可以使用能量、delta 和 delta-delta 特性,正如@Mahendra Thapa 所提到的,但它不是 "required"。一些研究人员使用 40 个 CC,一些研究人员从 MFCC 计算中删除 DCT,使其成为 MFSC(频谱而非倒谱)。有些添加了额外的功能。有些用得少。对维度灾难的敏感性取决于你的分类器,不是吗?有些人最近甚至声称在 "holy grail" 语音识别方面取得了进展,使用原始信号进行训练,使用深度学习,学习最佳特征而不是手工制作它们。
MFCC应用广泛,效果相对较好。