h2o.ai 普拉特标度校准

h2o.ai Platt Scaling calibration

我注意到 h2o.ai 套件中有一个相对较新的添加，它能够执行补充 Platt 缩放以改进输出概率的校准。（参见 calibrate_model in h2o manual。）然而，在线帮助文档中提供的指导很少。特别是我想知道是否启用了 Platt 缩放：

它如何影响模特的排行榜？即platt scaling是在ranking metric之后还是之前计算的？
它如何影响计算性能？
calibration_frame 是否可以与 validation_frame 相同或不应该相同（无论是从计算角度还是理论角度）？

提前致谢

校准是模型完成后的 post 处理步骤运行。因此它不会影响排行榜，也不会影响训练指标。它在评分帧中增加了 2 列（带有校准预测）。

This article 提供如何构建校准框架的指导：

将数据集拆分为测试和训练
将训练集拆分为模型训练和校准。

它还说： 最重要的一步是创建一个单独的数据集来执行校准。

我认为校准框架应该只用于校准，因此与验证框架不同。保守的答案是它们应该是分开的——当您使用验证框架进行提前停止或任何内部模型调整（例如 H2O GLM 中的 lambda 搜索）时，该验证框架成为 "training data" 的扩展，所以它很好那时的禁区。不过你可以两个版本都试一下，直接观察效果如何，再做决定。以下是文章中的一些额外指导：

"How much data to use for calibration will depend on the amount of data you have available. The calibration model will generally only be fitting a small number of parameters (so you do not need a huge volume of data). I would aim for around 10% of your training data, but at a minimum of at least 50 examples."