机器学习——自变量数据也需要平衡吗?
Machine learning - does the independent variable data need to be balanced as well?
我知道我们需要 y
中的数据平衡才能拥有更好的模型。但是,我想知道我们是否也需要在自变量中有平衡数据。
在下面的数据框中,X3
是类别类型自变量。
X1 X2 X3 y
22 67 1 0
33 87 1 0
55 66 1 0
77 12 1 0
28 68 1 1
12 64 2 0
19 17 2 1
10 62 2 1
88 19 2 1
99 20 2 1
虽然 y
中的数据是平衡的(1:1 分布),但 X3
在每个类别中都有不平衡的数据(4:1 分布)。
我是否也需要在 X3 中进行均等分配?
没关系,真正重要的是标签。
在你的模型化过程中,你的模型在这里是一个决策树,它将在 X 中搜索信息(所以你的特征)。你要找的是,这个功能是否带来信息,如果没有就放弃,如果是就保留。
不平衡数据是指目标 class 观测值分布不均匀的数据集类型,因此我们不关心特征的重新划分
我知道我们需要 y
中的数据平衡才能拥有更好的模型。但是,我想知道我们是否也需要在自变量中有平衡数据。
在下面的数据框中,X3
是类别类型自变量。
X1 X2 X3 y
22 67 1 0
33 87 1 0
55 66 1 0
77 12 1 0
28 68 1 1
12 64 2 0
19 17 2 1
10 62 2 1
88 19 2 1
99 20 2 1
虽然 y
中的数据是平衡的(1:1 分布),但 X3
在每个类别中都有不平衡的数据(4:1 分布)。
我是否也需要在 X3 中进行均等分配?
没关系,真正重要的是标签。
在你的模型化过程中,你的模型在这里是一个决策树,它将在 X 中搜索信息(所以你的特征)。你要找的是,这个功能是否带来信息,如果没有就放弃,如果是就保留。
不平衡数据是指目标 class 观测值分布不均匀的数据集类型,因此我们不关心特征的重新划分