stopping_tolerance、score_each_iteration、score_tree_interval 等的 H2O 文档问题

H2O document question for stopping_tolerance, score_each_iteration, score_tree_interval, etc

在阅读了h2o文档后,我有以下问题仍然困扰着我。谁能给我解释一下

  1. 对于stopping_tolerance = 0.001,我们以AUC为例,当前AUC为0.8。那是说AUC需要增加0.8+0.001还是需要增加0.8*(1+0.1%)?
  2. score_each_iteration,在 H2O 文档中 (http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/score_each_iteration.html) 它只是说 "iteration"。但是每个的定义到底是什么 "iteration",就是每棵树或者每格搜索或者每K个文件夹 交叉验证或其他?
  3. 我可以定义 score_tree_interval 并设置 score_each_iteration = True 同时或者我只能使用其中一个来制作网格 搜索可重复?
  4. 放'stopping_metric'有什么区别吗, 'stopping_tolerance'、'stopping_rounds' 中 H2OGradientBoostingEstimator 与 H2OGridSearch search_criteria 中的对比? 我发现放入 H2OGradientBoostingEstimator 将使代码 运行 当我在 Spark 环境中测试它时要快得多
  1. 0.001 与 0.1% 相同,因为 AUC 越大越好,您会希望在指定的评分轮数后看到至少增加 .001。

  2. 您已链接到文档的一部分,该文档特定于页面顶部 Available in 中列出的算法。因此,让我们坚持针对单个模型而不是网格搜索来回答这个问题。如果您想查看每次迭代的评分,请查看 Flow 中的模型结果或使用 my_model.plot()(对于 python api)查看评分在每次迭代中。对于 GBM 和 DRF,这将是 ntrees,但由于不同的算法会有不同的方面,因此使用迭代一词,因为它更通用。

  3. 你测试了吗?当你这样做的时候你发现了什么?查看 flow 中的评分历史记录图,注意当您同时设置 score_tree_interval 和 score_each_iteration = True 与仅设置 score_tree_interval 时会发生什么(我建议尝试理解这些参数在使用网格搜索之前在单个模型级别)。

  4. 是的,在网格搜索的情况下,如果您在构建单个模型时指定提前停止,那么您会指示是否不构建更多模型。