准备 MFCC 音频功能 - 所有 WAV 文件的长度都应该相同吗?
Preparing MFCC audio feature- Should all WAV files be at same length?
我想为机器学习模型准备音频数据集。
每个 .wav 文件都应表示为 MFCC 图像。
虽然所有图像都具有相同的 MFCC 数量 (= 20),但 .wav 的长度
文件在 3-5 秒之间。
我是否应该将所有 .wav 文件设置为相同的长度?
我应该在绘图之前标准化 MFCC 值(在 0 和 1 之间)吗?
在将此类数据传递给机器学习模型之前,是否有任何重要的步骤可以处理这些数据?
进一步阅读链接也将不胜感激。
大多数分类器都需要固定大小的输入,是的。您可以在计算完 MFCC 后通过剪切或填充它们来完成此操作。本身不需要操纵 WAV/waveform。
另一种方法是将您的音频文件分成多个分析 windows,比如每个分析 1 秒。一个 3 秒的文件可以用 3 个预测(如果使用重叠则更多)来完成,而一个 5 秒的文件需要 5 个预测(或更多)。然后为了获得剪辑范围的预测,可以合并剪辑中所有 windows 的预测。以这种方式进行训练的简单方法需要假设为剪辑指定的标签对于每个单独的分析都是有效的window。
我想为机器学习模型准备音频数据集。
每个 .wav 文件都应表示为 MFCC 图像。
虽然所有图像都具有相同的 MFCC 数量 (= 20),但 .wav 的长度 文件在 3-5 秒之间。
我是否应该将所有 .wav 文件设置为相同的长度? 我应该在绘图之前标准化 MFCC 值(在 0 和 1 之间)吗?
在将此类数据传递给机器学习模型之前,是否有任何重要的步骤可以处理这些数据?
进一步阅读链接也将不胜感激。
大多数分类器都需要固定大小的输入,是的。您可以在计算完 MFCC 后通过剪切或填充它们来完成此操作。本身不需要操纵 WAV/waveform。
另一种方法是将您的音频文件分成多个分析 windows,比如每个分析 1 秒。一个 3 秒的文件可以用 3 个预测(如果使用重叠则更多)来完成,而一个 5 秒的文件需要 5 个预测(或更多)。然后为了获得剪辑范围的预测,可以合并剪辑中所有 windows 的预测。以这种方式进行训练的简单方法需要假设为剪辑指定的标签对于每个单独的分析都是有效的window。