分类精度向一 class 优化?

Classification Precision Optimization towards one class?

我的数据集有两个 class。不感兴趣的占90%,感兴趣的class占10%左右。

我已经做了重采样,不止一次,而且是一堆平衡集(比如10组)。并做多数表决得到最终的预测结果。在比较了许多模型之后,树给出了最好的结果。我已经根据重要性分数挑选出了最重要的特征。

整体准确率还不错,75%,但是对我感兴趣的class准确率只有30%,不太好。如何针对目标class的精度进行优化?我认为 R 中 ctree 包背后的算法是针对整体精度进行优化。我也试过 one-class classification,像 svm,但不好。顺便说一句,我同时使用了 R 和 python。但是我没有找到任何关于我的问题的相关包。我是否需要编写自己的树算法来优化 class 感兴趣的精度?谢谢

有很多模型可以让您重量 classes。这通常比仅仅过采样要好,因为它直接交替 objective,而不是人为地欺骗模型超重。如果您使用 python,并且喜欢基于树的方法,scikit-learn 中的随机森林具有 class 权重功能,只要未获得所需的精度,只需对您的少数 class 进行加权.