从网格搜索中获取 cross_validation_holdout_predictions() 个模型

Question

我正在尝试以不同的方式计算性能，现在它是如何内置在模型中的。

我想在交叉验证期间访问原始预测，这样我就可以自己计算性能。

g = h2o.get_grid(grid_id)
for m in g.models:
    print "Model %s" % m.model_id
    rrc[m.model_id] = m.cross_validation_holdout_predictions()

我可以运行使用我的数据集上的模型进行预测，但我认为此测试可能有偏差，因为模型之前已经看到过这些数据，或者没有？我可以对同一数据集做出新的预测并用它来计算性能吗？

Answer 1

I would like to access raw predictions during cross-validation, so I can calculate performance on my own.

如果您想计算交叉验证预测的自定义指标，请像上面那样设置 keep_cross_validation_predictions = True and you can access the raw predicted values using the .cross_validation_holdout_predictions() 方法。

Can I take new predictions made on the same data set and use it to calculate performance?

听起来你在问是否可以只使用训练数据来估计模型性能？是的，使用交叉验证。如果您设置 nfolds > 1，H2O 将进行交叉验证并为您计算一些交叉验证的性能指标。此外，如果您告诉 H2O 保存交叉验证的预测，您可以自己计算 "cross-validated metrics"。

Get cross_validation_holdout_predictions() of models from a grid search