比较 h2o gbm 中多项式模型的预测概率

Comparing predicted probabilities from multinomial models in h2o gbm

我 运行 一个 h2o 梯度提升 class 模型来预测三个 classes 0,1 和 2 的概率。存在严重的 class 不平衡( 93:5:2) 在训练数据中。

尽管在混淆矩阵中未正确预测个体 classes 1 和 2(正如预期的那样),但 AUC 对这些 classes 个体来说是不错的。

我打算手动预测最后的classes

我的理解是,结果概率(P0、P1 和 P2)经过校准并加起来为 1。

由于 h2o 中的多项式模型本质上是一对多方法,但分数总和为 1,添加或比较概率是否正确?

因此,如果 P0 = 0.40、P1 =0.35 和 P2=0.25,则预测的 class 将为 0(基于最大概率)

  1. 这是否意味着P(1,2) = 0.6 或者 p(不是 0)= 0.6? (因为 class 0 的模型对所有其他 classes 实际上是 0)

  2. 然后我可以比较1&2的概率,说P1(0.35)> P2(0.25),所以预测的class应该是1? (由于结果class是互斥的且概率加起来为1,它们是否具有可比性?)

对于不平衡的目标列,我会避免使用 AUC(因为它通常会很高)。考虑使用 AUC-PR 或 Logloss。

对于 multiclass/multinomial,您会有一对一的预测。因此,每个预测都基于其 class 与其余预测的对比。所以 P0 是 class_0 vs class_1 + class_2 的概率。所以 P(1,2) = 0.6 是有道理的。

为了比较概率,是的,您可以 select 预测 class 具有最高概率输出 P1 (0.35) > P2 (0.25) -> Class = 1