从网格搜索中获取 cross_validation_holdout_predictions() 个模型

Get cross_validation_holdout_predictions() of models from a grid search

我正在尝试以不同的方式计算性能,现在它是如何内置在模型中的。

我想在交叉验证期间访问原始预测,这样我就可以自己计算性能。

g = h2o.get_grid(grid_id)
for m in g.models:
    print "Model %s" % m.model_id
    rrc[m.model_id] = m.cross_validation_holdout_predictions()

我可以 运行 使用我的数据集上的模型进行预测,但我认为此测试可能有偏差,因为模型之前已经看到过这些数据,或者没有?我可以对同一数据集做出新的预测并用它来计算性能吗?

I would like to access raw predictions during cross-validation, so I can calculate performance on my own.

如果您想计算交叉验证预测的自定义指标,请像上面那样设置 keep_cross_validation_predictions = True and you can access the raw predicted values using the .cross_validation_holdout_predictions() 方法。

Can I take new predictions made on the same data set and use it to calculate performance?

听起来你在问是否可以只使用训练数据来估计模型性能?是的,使用交叉验证。如果您设置 nfolds > 1,H2O 将进行交叉验证并为您计算一些交叉验证的性能指标。此外,如果您告诉 H2O 保存交叉验证的预测,您可以自己计算 "cross-validated metrics"。