机器学习——自变量数据也需要平衡吗?

Machine learning - does the independent variable data need to be balanced as well?

我知道我们需要 y 中的数据平衡才能拥有更好的模型。但是,我想知道我们是否也需要在自变量中有平衡数据。

在下面的数据框中,X3是类别类型自变量。

X1     X2    X3     y

22     67    1      0
33     87    1      0
55     66    1      0
77     12    1      0
28     68    1      1
12     64    2      0
19     17    2      1
10     62    2      1
88     19    2      1
99     20    2      1

虽然 y 中的数据是平衡的(1:1 分布),但 X3 在每个类别中都有不平衡的数据(4:1 分布)。

我是否也需要在 X3 中进行均等分配?

没关系,真正重要的是标签。

在你的模型化过程中,你的模型在这里是一个决策树,它将在 X 中搜索信息(所以你的特征)。你要找的是,这个功能是否带来信息,如果没有就放弃,如果是就保留。

不平衡数据是指目标 class 观测值分布不均匀的数据集类型,因此我们不关心特征的重新划分