使用 CNN 对长格式音频进行关键字识别的特征提取

Feature extraction for keyword spotting on long form audio using a CNN

我构建了一个简单的 CNN 单词检测器,当使用 1 秒 .wav 作为输入时,它能够准确地预测给定的单词。按照标准,我使用音频文件的 MFCC 作为 CNN 的输入。

但是,我的目标是能够将其应用于包含多个单词的较长音频文件,并让模型能够预测是否以及何时说出给定单词。我一直在网上搜索最佳方法,但似乎碰壁了,如果可以通过 google 轻松找到答案,我深表歉意。

我的第一个想法是将音频文件剪切成几个 windows 的 1 秒长度,彼此相交 -

然后将每个 window 转换为 MFCC,并将其用作模型预测的输入。

我的第二个想法是改为使用起始检测来尝试隔离每个单词,如果单词小于 1 秒则添加填充,然后将它们作为模型预测的输入。

我离这里远吗?任何参考或建议将不胜感激。谢谢。

将音频剪辑成分析 windows 是可行的方法。使用一些重叠是很常见的。可以先计算 MFCC 特征,然后使用整数帧进行拆分,使您最接近所需的 window 长度(1s)。

参见 示例代码