使用有偏数据集训练决策树
Training decision tree with biased data set
我是数据挖掘的新手,我正在尝试训练决策树,但我选择的数据集有很大的偏差,因此我得到的结果也有偏差。我在网上搜索过,我发现平衡的准确性。我对结果不满意。
如果我对我的数据集进行抽样,将其平均分配,例如 1000 例 YES
和 1000 例 NO
,这会是个好主意吗?
处理 class 不平衡的一种方法是对较大的 class 进行欠采样,以便 class 分布大约一半。
你的问题的答案是肯定的,前提是 1000 是较小 class 的大小,这样你丢失的较大 class 数据点就会更少。
注意:从较大的class数据点中选择时,尽量忽略那些缺失值较多的数据点。
建模的时候也可以给权重。您可以为少数 class 分配更高的权重,这将补偿不平衡。
我是数据挖掘的新手,我正在尝试训练决策树,但我选择的数据集有很大的偏差,因此我得到的结果也有偏差。我在网上搜索过,我发现平衡的准确性。我对结果不满意。
如果我对我的数据集进行抽样,将其平均分配,例如 1000 例 YES
和 1000 例 NO
,这会是个好主意吗?
处理 class 不平衡的一种方法是对较大的 class 进行欠采样,以便 class 分布大约一半。
你的问题的答案是肯定的,前提是 1000 是较小 class 的大小,这样你丢失的较大 class 数据点就会更少。
注意:从较大的class数据点中选择时,尽量忽略那些缺失值较多的数据点。
建模的时候也可以给权重。您可以为少数 class 分配更高的权重,这将补偿不平衡。