如何使用 H2o 获得最佳分类阈值 Python
How get the best threshold for classification using H2o Python
我有一个在 Python 中使用 H2o 的分类模型,其 AUC = 71%
但是基于混淆矩阵的准确率只有61%。我知道混淆矩阵是基于 .5 阈值
如何确定哪个阈值的准确度为 71%?
ROC曲线的AUC不准确,该值与阈值无关。它衡量两个 classes 的分离程度。 71% 的值告诉您随机抽样正样本 class 的预测概率高于随机抽样负样本 class 的概率。请参阅 this 说明。
阈值的选择应取决于您的成本矩阵(假阳性或假阴性的惩罚是多少)。您可能希望 select 最大化所需指标的阈值(最大 F1、精度、准确度)。 H2O 给出 multiple options。在 H2O 中,如果调用模型性能(Python 例如:your_model.model_performance()
),您将获得 max accuracy
的阈值和列出的其他优化指标。
我有一个在 Python 中使用 H2o 的分类模型,其 AUC = 71%
但是基于混淆矩阵的准确率只有61%。我知道混淆矩阵是基于 .5 阈值
如何确定哪个阈值的准确度为 71%?
ROC曲线的AUC不准确,该值与阈值无关。它衡量两个 classes 的分离程度。 71% 的值告诉您随机抽样正样本 class 的预测概率高于随机抽样负样本 class 的概率。请参阅 this 说明。
阈值的选择应取决于您的成本矩阵(假阳性或假阴性的惩罚是多少)。您可能希望 select 最大化所需指标的阈值(最大 F1、精度、准确度)。 H2O 给出 multiple options。在 H2O 中,如果调用模型性能(Python 例如:your_model.model_performance()
),您将获得 max accuracy
的阈值和列出的其他优化指标。