使用有偏数据集训练决策树

Training decision tree with biased data set

我是数据挖掘的新手,我正在尝试训练决策树,但我选择的数据集有很大的偏差,因此我得到的结果也有偏差。我在网上搜索过,我发现平衡的准确性。我对结果不满意。

如果我对我的数据集进行抽样,将其平均分配,例如 1000 例 YES 和 1000 例 NO,这会是个好主意吗?

处理 class 不平衡的一种方法是对较大的 class 进行欠采样,以便 class 分布大约一半。

你的问题的答案是肯定的,前提是 1000 是较小 class 的大小,这样你丢失的较大 class 数据点就会更少。

注意:从较大的class数据点中选择时,尽量忽略那些缺失值较多的数据点。

建模的时候也可以给权重。您可以为少数 class 分配更高的权重,这将补偿不平衡。