R 中二进制分类的随机森林截止和准确度指标

Random forest cutoff and accuracy metrics for binary classification in R

我正在使用 mlr 在 R 中训练随机森林分类器进行二元分类。

我的类很平衡。

      0         1 
0.5162791 0.4837209 

我以各种方式调整了我的各种模型 修改树数和mtry.

但我在选择正确的准确度指标和确定截止值时遇到了问题。

目前我有

tpr.test.mean  fpr.test.mean  fnr.test.mean  fpr.test.mean   acc.test.mean mmce.test.mean 
 0.7908072      0.2872358      0.2091928      0.2872358      0.7531250      0.2468750 

f1.test.mean 
0.7736447 

如何确定我的 类 的理想截止值?到目前为止,我发现 45/55 的效果最好,但有更好的方法吗?哪些准确度指标通常最适合二元分类器?

F1 通常是一个安全的选择。它不允许分类器通过具有 100% 的召回率或 100% 的精确率来 "trick" 测量;因为调和平均值都需要并排增加才能获得好的结果。

当然也有例外,比如召回率比精确率更重要(例如在癌症诊断中)。

因此,该指标应反映您最终尝试优化的对象。