那个偶像是为了让每个数据在数量上完全相等，以便更好地进行机器学习吗？

Is that idol to make each data exactly equal in number to make better machine learning?

您好，我正在 cnn 中进行图像分类，我使用的数据是 7 类，它们分别是 235、211、251，.... 总数是 1573。我听说这很重要增加数据平等，但我不知道如何平等。我的意思是我应该让每个数据几乎相等，比如它们之间的差异在 1 以内吗？或者像在我的例子中，class1 和 class2 之间最大的区别是 46，但它仍然可以吗？那么使用ImageGenerator截取数据还是添加数据哪种方式更好？

有人可以给我一些建议吗？

您在这里指的是我们在 ML 术语中所说的 “数据不平衡” 问题。这是指一个 class 中的观测值数量远高于另一个 class 中的观测值的事实。您可以考虑 2 classes 之间的比率类似于 1:100 的情况。尽管对于比率应该如何不平衡没有严格的规定。

在你的情况下，2 classes 之间的最大不平衡是 46，这在 绝对项[=30 中似乎没有太大差异=]，据说在相对术语.[=10中样本量似乎也不是很大=]

数据不平衡的问题是您可以将其视为零和游戏，其中 2 classes 不断推动决策边界，因此当您有 2 classes完全相同数量的样本（不必严格相等）然后决策边界有点处于“纳什均衡”状态，意味着 2 classes 以相同的力推动边界，因此边界在中间并成功区分了 2 classes，但是当这些力变得非常不相等时，大多数 class 会推动边界，这样少数 class 就不能' t back it off, 所以决策边界无法区分 2 classes...

（注意：上面提到的场景是非常肤浅的，富有想象力的（没有太多的理论来支持它）并且只是为了建立一个perspective/intuition关于这个问题的描述)

因此，我建议您按原样使用当前数据训练模型，并查看其性能。从理论的角度来看，它不应该那么糟糕，因为你的情况不是很糟糕。尽管如此，ML 是一门经验科学，因此您还可以看到应用某些数据不平衡技术时会发生什么。有欠采样，过采样等技术。您可以为少数 class 创建数据（过采样），也可以减少多数 class 的数据样本（欠采样）。 SMOTE 是一种流行的过采样技术，RUSBoost 是一种流行的欠采样技术。

那个偶像是为了让每个数据在数量上完全相等，以便更好地进行机器学习吗？

Is that idol to make each data exactly equal in number to make better machine learning?

machine-learning

image-classification