h2o.ai 普拉特标度校准

h2o.ai Platt Scaling calibration

我注意到 h2o.ai 套件中有一个相对较新的添加,它能够执行补充 Platt 缩放以改进输出概率的校准。 (参见 calibrate_model in h2o manual。)然而,在线帮助文​​档中提供的指导很少。特别是我想知道是否启用了 Platt 缩放:

提前致谢

校准是模型完成后的 post 处理步骤 运行。因此它不会影响排行榜,也不会影响训练指标。它在评分帧中增加了 2 列(带有校准预测)。

This article 提供如何构建校准框架的指导:

  1. 将数据集拆分为测试和训练
  2. 将训练集拆分为模型训练和校准。

它还说: 最重要的一步是创建一个单独的数据集来执行校准。

我认为校准框架应该只用于校准,因此与验证框架不同。保守的答案是它们应该是分开的——当您使用验证框架进行提前停止或任何内部模型调整(例如 H2O GLM 中的 lambda 搜索)时,该验证框架成为 "training data" 的扩展,所以它很好那时的禁区。不过你可以两个版本都试一下,直接观察效果如何,再做决定。以下是文章中的一些额外指导:

"How much data to use for calibration will depend on the amount of data you have available. The calibration model will generally only be fitting a small number of parameters (so you do not need a huge volume of data). I would aim for around 10% of your training data, but at a minimum of at least 50 examples."