使用有偏数据集训练决策树

Training decision tree with biased data set

我是数据挖掘的新手，我正在尝试训练决策树，但我选择的数据集有很大的偏差，因此我得到的结果也有偏差。我在网上搜索过，我发现平衡的准确性。我对结果不满意。

如果我对我的数据集进行抽样，将其平均分配，例如 1000 例 YES 和 1000 例 NO，这会是个好主意吗？

处理 class 不平衡的一种方法是对较大的 class 进行欠采样，以便 class 分布大约一半。

你的问题的答案是肯定的，前提是 1000 是较小 class 的大小，这样你丢失的较大 class 数据点就会更少。

注意：从较大的class数据点中选择时，尽量忽略那些缺失值较多的数据点。

建模的时候也可以给权重。您可以为少数 class 分配更高的权重，这将补偿不平衡。