平衡数据集的含义

Meaning of Balanced datasets

我正在研究有关音频 class化的一些信息,更具体地说:平衡与不平衡音频数据集。 因此,假设这里我有两个数据集的两个文件夹 classes:汽车声音和摩托车声音,汽车 class 文件夹有 1000 个 .wav,摩托车文件夹也有 1000 个 .wav。这是否意味着我有一个平衡的数据集只是因为数字相等?如果 car class 中的 .wav 文件的总大小是 500 Mb 而另一个是 200 Mb 怎么办?好的,假设它们的文件夹大小相同,但是如果汽车录音的单个音频剪辑的持续时间比摩托车中的其他音频剪辑的持续时间长怎么办class?

平衡数据集意味着来自两个 类 的相同数字。通常会填充较短的数据以使其具有相同的长度以适合分类器。我没有音频背景,所以我不能说填充是否是常态,但如果你的网络有某种方式来协调不同的输入长度而不涉及创建更多输入,它将平衡 1000-1000。