Class 权重对比 under/oversampling
Class weights vs under/oversampling
在不平衡分类(使用 scikit-learn)中平衡 类(即将 class_weight 设置为平衡)与使用 SMOTE 进行过采样有什么区别?
两者的预期效果是什么?
Class 权重通过对具有更多(或更少)权重的 class 给予更多(或更少)惩罚来直接修改损失函数。实际上,通过故意使模型偏向于更准确地预测更高权重 class,基本上牺牲了一些预测较低权重 class(不平衡数据集的大多数 class)的能力(少数class)。
过采样和欠采样方法本质上也给特定的 classes 更多的权重(重复观察会重复对这些特定观察的惩罚,使它们对模型拟合有更大的影响),但由于数据拆分通常发生在训练中,这也会产生略有不同的结果。
请参考https://datascience.stackexchange.com/questions/52627/why-class-weight-is-outperforming-oversampling
在不平衡分类(使用 scikit-learn)中平衡 类(即将 class_weight 设置为平衡)与使用 SMOTE 进行过采样有什么区别? 两者的预期效果是什么?
Class 权重通过对具有更多(或更少)权重的 class 给予更多(或更少)惩罚来直接修改损失函数。实际上,通过故意使模型偏向于更准确地预测更高权重 class,基本上牺牲了一些预测较低权重 class(不平衡数据集的大多数 class)的能力(少数class)。
过采样和欠采样方法本质上也给特定的 classes 更多的权重(重复观察会重复对这些特定观察的惩罚,使它们对模型拟合有更大的影响),但由于数据拆分通常发生在训练中,这也会产生略有不同的结果。
请参考https://datascience.stackexchange.com/questions/52627/why-class-weight-is-outperforming-oversampling