那个偶像是为了让每个数据在数量上完全相等,以便更好地进行机器学习吗?

Is that idol to make each data exactly equal in number to make better machine learning?

您好,我正在 cnn 中进行图像分类,我使用的数据是 7 类,它们分别是 235、211、251,.... 总数是 1573。我听说这很重要增加数据平等,但我不知道如何平等。我的意思是我应该让每个数据几乎相等,比如它们之间的差异在 1 以内吗?或者像在我的例子中,class1 和 class2 之间最大的区别是 46,但它仍然可以吗? 那么使用ImageGenerator截取数据还是添加数据哪种方式更好?

有人可以给我一些建议吗?

您在这里指的是我们在 ML 术语中所说的 “数据不平衡” 问题。这是指一个 class 中的观测值数量远高于另一个 class 中的观测值的事实。您可以考虑 2 classes 之间的比率类似于 1:100 的情况。尽管对于比率应该如何不平衡没有严格的规定。

在你的情况下,2 classes 之间的最大不平衡是 46,这在 绝对项[=30 中似乎没有太大差异=],据说在相对术语.[=10中样本量似乎也不是很大=]

数据不平衡的问题是您可以将其视为零和游戏,其中 2 classes 不断推动决策边界,因此当您有 2 classes完全相同数量的样本(不必严格相等)然后决策边界有点处于“纳什均衡”状态,意味着 2 classes 以相同的力推动边界,因此边界在中间并成功区分了 2 classes,但是当这些力变得非常不相等时,大多数 class 会推动边界,这样少数 class 就不能' t back it off, 所以决策边界无法区分 2 classes...

(注意:上面提到的场景是非常肤浅的,富有想象力的(没有太多的理论来支持它)并且只是为了建立一个perspective/intuition关于这个问题的描述)

因此,我建议您按原样使用当前数据训练模型,并查看其性能。从理论的角度来看,它不应该那么糟糕,因为你的情况不是很糟糕。尽管如此,ML 是一门经验科学,因此您还可以看到应用某些数据不平衡技术时会发生什么。有欠采样,过采样等技术。您可以为少数 class 创建数据(过采样),也可以减少多数 class 的数据样本(欠采样)。 SMOTE 是一种流行的过采样技术,RUSBoost 是一种流行的欠采样技术。