F1 - 不平衡数据得分

F1 - score with imbalanced data

我正在处理二进制 classification 任务。我的评估数据不平衡,由 appr 组成。 20% 来自 class1,80% 来自 class2。即使我在每个 class 类型上都有很好的 classification 准确性,如果我计算 class1 上的 f1 分数,class1 上的 0.602,class2 上的 0.792 ,我得到 0.46,因为误报数很大。如果我计算它超过 class2,我得到的 f1-score 为 0.84。

我的问题是,评估class不平衡数据化任务的最佳做法是什么?我可以获得这些 f1 分数的平均值还是应该选择其中之一? class不平衡数据化任务评估的最佳评估指标是什么?

顺便说一句,这些是我的 TP、TN、FN、FP 计数;

TP: 115

TN: 716

FN: 76

FP: 188

我不确定这是否是您要查找的内容,但由于您要从中获取性能指标的数据是不平衡的,因此您可以尝试应用加权测量,例如加权 f1-score . 来自 scikit-learn 的 f1-score 有一个 'weighted' 选项,它考虑每个标签的实例数。这样您可以获得平均 F1 分数。

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

希望对您有所帮助!