为什么在模型训练期间选择的超参数与来自重采样的超参数不同?
Why during model training chosen is different hyperparameter than that coming from resampling?
重采样时,测试max_depth参数值为5和9。然而,在训练时,使用了一个完全不同的值 10。我预计在训练期间将设置返回最小 RMSE 的参数。在这种情况下,选择了一个完全不同的参数值。
library("mlr3")
library("paradox")
library("mlr3learners")
library("mlr3tuning")
library("data.table")
set.seed(10)
x1 = 1:100
x2 = 2 * x1
y = x1^2 - x2 + rnorm(100)
data = data.table(
x1 = x1,
x2 = x2,
y = y
)
task = TaskRegr$new("task", backend = data, target = "y")
lrn_xgb = mlr_learners$get("regr.xgboost")
ps = ParamSet$new(
params = list(
ParamInt$new(id = "max_depth", lower = 4, upper = 10)
))
at = AutoTuner$new(learner = lrn_xgb,
resampling = rsmp("cv", folds = 2),
measures = msr("regr.rmse"),
tune_ps = ps,
terminator = term("evals", n_evals = 1),
tuner = tnr("random_search"))
resampling_outer = rsmp("cv", folds = 2)
rr = resample(task = task, learner = at, resampling = resampling_outer)
#> max_depth = 5
#> max_depth = 9
at$train(task)
#> max_depth = 10
Session 信息:
R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 8.1 x64 (build 9600)
Matrix products: default
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] mlr3learners_0.1.3 mlr3tuning_0.1.0 data.table_1.12.2
[4] paradox_0.1.0 mlr3_0.1.3
loaded via a namespace (and not attached):
[1] lgr_0.3.3 lattice_0.20-38 mlr3misc_0.1.4
[4] digest_0.6.21 crayon_1.3.4 grid_3.6.1
[7] R6_2.4.0 backports_1.1.4 magrittr_1.5
[10] stringi_1.4.3 uuid_0.1-2 Matrix_1.2-17
[13] checkmate_1.9.4 xgboost_0.90.0.2 tools_3.6.1
[16] compiler_3.6.1 Metrics_0.1.4
发生的一切都是正确的。重点是:
AutoTuner 在 xgboost 的训练算法前添加了一个调优方法,它找到(最优?好?表现良好?)超参数,然后将它们设置在学习器中,然后通过训练算法的最终调用来训练模型。
您可以将其设想为
数据 -> [拆分数据] -> [调整] -(opt.HPs, 数据) -> [训练] -> 模型
如果你想要一张(只是稍微)不那么难看的照片,请看看我的讲座:
https://compstat-lmu.github.io/lecture_i2ml/articles/content.html
(参见第 5 天,调整和嵌套重采样)
现在,在您上面的代码中,上述管道发生了 3 次传递。
2 在你的 2-fold CV 中,1 在最后。
在每次传递中,都会发生调整调用。在不同的数据上。
因此无法保证 3 个最佳 HP 配置相同。
首先,前 2 个是来自样本底层数据分布的数据样本,并且大小相同。
所以很多是 "the same",但它们仍然是随机样本。所以结果可能不同。
特别是当有许多 HP 配置的性能与最佳 HP 配置几乎相同时。而且数据很小。调谐器非常随机。
(注意:所有这些对于您的示例都是正确的……)
对于第三次调整 运行,基础数据分布仍然相同,但现在训练数据甚至更大了一点(由于 2CV,在你的情况下大小加倍)。
这也会导致不同的结果。
总的来说,你可以检查你至少大致相似的调优结果,
正如你在上面所做的那样,并开始 "worry" / 检查 / 使用你的人类学习工具(大脑)为什么调音实际上是
"unstable"。但在你的情况下,数据是如此之小,实验更像是一个 "toy experiment"
我认为在这里思考这个问题没有意义。为什么它在技术上不是我上面解释的错误。
这是另一个很有帮助的类比:
忘记 AutoTuner,运行 与简单线性回归完全相同的代码。
你 运行 一个 2CV,你把它放在完整的数据上。
为线性模型创建了 3 "beta" 个参数向量。
你希望他们都一样吗?不。
如果它们都非常不同,您会担心吗?有可能。
我的最后一个例子和你的代码非常相关。
我的最后一个例子我称之为“第一级学习”。
我们在数值上优化了线性模型的风险函数。
调整是“第二级学习”。它仍然优化参数,
超参数,或二级参数。
它优化了一个不同的"risk":交叉验证错误。
并使用其他优化技术,可能是随机搜索,可能是贝叶斯优化。
但在抽象层面上,这两种技术非常相似。
这个比较对我这个学生帮助很大,这也是为什么
在某种程度上,关于 AutoTuner,mlr 看起来确实如此。
重采样时,测试max_depth参数值为5和9。然而,在训练时,使用了一个完全不同的值 10。我预计在训练期间将设置返回最小 RMSE 的参数。在这种情况下,选择了一个完全不同的参数值。
library("mlr3")
library("paradox")
library("mlr3learners")
library("mlr3tuning")
library("data.table")
set.seed(10)
x1 = 1:100
x2 = 2 * x1
y = x1^2 - x2 + rnorm(100)
data = data.table(
x1 = x1,
x2 = x2,
y = y
)
task = TaskRegr$new("task", backend = data, target = "y")
lrn_xgb = mlr_learners$get("regr.xgboost")
ps = ParamSet$new(
params = list(
ParamInt$new(id = "max_depth", lower = 4, upper = 10)
))
at = AutoTuner$new(learner = lrn_xgb,
resampling = rsmp("cv", folds = 2),
measures = msr("regr.rmse"),
tune_ps = ps,
terminator = term("evals", n_evals = 1),
tuner = tnr("random_search"))
resampling_outer = rsmp("cv", folds = 2)
rr = resample(task = task, learner = at, resampling = resampling_outer)
#> max_depth = 5
#> max_depth = 9
at$train(task)
#> max_depth = 10
Session 信息:
R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 8.1 x64 (build 9600)
Matrix products: default
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] mlr3learners_0.1.3 mlr3tuning_0.1.0 data.table_1.12.2
[4] paradox_0.1.0 mlr3_0.1.3
loaded via a namespace (and not attached):
[1] lgr_0.3.3 lattice_0.20-38 mlr3misc_0.1.4
[4] digest_0.6.21 crayon_1.3.4 grid_3.6.1
[7] R6_2.4.0 backports_1.1.4 magrittr_1.5
[10] stringi_1.4.3 uuid_0.1-2 Matrix_1.2-17
[13] checkmate_1.9.4 xgboost_0.90.0.2 tools_3.6.1
[16] compiler_3.6.1 Metrics_0.1.4
发生的一切都是正确的。重点是: AutoTuner 在 xgboost 的训练算法前添加了一个调优方法,它找到(最优?好?表现良好?)超参数,然后将它们设置在学习器中,然后通过训练算法的最终调用来训练模型。
您可以将其设想为
数据 -> [拆分数据] -> [调整] -(opt.HPs, 数据) -> [训练] -> 模型
如果你想要一张(只是稍微)不那么难看的照片,请看看我的讲座:
https://compstat-lmu.github.io/lecture_i2ml/articles/content.html (参见第 5 天,调整和嵌套重采样)
现在,在您上面的代码中,上述管道发生了 3 次传递。 2 在你的 2-fold CV 中,1 在最后。 在每次传递中,都会发生调整调用。在不同的数据上。 因此无法保证 3 个最佳 HP 配置相同。 首先,前 2 个是来自样本底层数据分布的数据样本,并且大小相同。 所以很多是 "the same",但它们仍然是随机样本。所以结果可能不同。 特别是当有许多 HP 配置的性能与最佳 HP 配置几乎相同时。而且数据很小。调谐器非常随机。 (注意:所有这些对于您的示例都是正确的……) 对于第三次调整 运行,基础数据分布仍然相同,但现在训练数据甚至更大了一点(由于 2CV,在你的情况下大小加倍)。 这也会导致不同的结果。
总的来说,你可以检查你至少大致相似的调优结果, 正如你在上面所做的那样,并开始 "worry" / 检查 / 使用你的人类学习工具(大脑)为什么调音实际上是 "unstable"。但在你的情况下,数据是如此之小,实验更像是一个 "toy experiment" 我认为在这里思考这个问题没有意义。为什么它在技术上不是我上面解释的错误。
这是另一个很有帮助的类比: 忘记 AutoTuner,运行 与简单线性回归完全相同的代码。 你 运行 一个 2CV,你把它放在完整的数据上。 为线性模型创建了 3 "beta" 个参数向量。 你希望他们都一样吗?不。 如果它们都非常不同,您会担心吗?有可能。
我的最后一个例子和你的代码非常相关。 我的最后一个例子我称之为“第一级学习”。 我们在数值上优化了线性模型的风险函数。 调整是“第二级学习”。它仍然优化参数, 超参数,或二级参数。 它优化了一个不同的"risk":交叉验证错误。 并使用其他优化技术,可能是随机搜索,可能是贝叶斯优化。 但在抽象层面上,这两种技术非常相似。
这个比较对我这个学生帮助很大,这也是为什么 在某种程度上,关于 AutoTuner,mlr 看起来确实如此。