R 中二进制分类的随机森林截止和准确度指标
Random forest cutoff and accuracy metrics for binary classification in R
我正在使用 mlr 在 R 中训练随机森林分类器进行二元分类。
我的类很平衡。
0 1
0.5162791 0.4837209
我以各种方式调整了我的各种模型 修改树数和mtry.
但我在选择正确的准确度指标和确定截止值时遇到了问题。
目前我有
tpr.test.mean fpr.test.mean fnr.test.mean fpr.test.mean acc.test.mean mmce.test.mean
0.7908072 0.2872358 0.2091928 0.2872358 0.7531250 0.2468750
f1.test.mean
0.7736447
如何确定我的 类 的理想截止值?到目前为止,我发现 45/55 的效果最好,但有更好的方法吗?哪些准确度指标通常最适合二元分类器?
F1 通常是一个安全的选择。它不允许分类器通过具有 100% 的召回率或 100% 的精确率来 "trick" 测量;因为调和平均值都需要并排增加才能获得好的结果。
当然也有例外,比如召回率比精确率更重要(例如在癌症诊断中)。
因此,该指标应反映您最终尝试优化的对象。