在 mlr 中调整超参数不会产生合理的结果？

Question

我正在尝试使用 tuneParams 函数调整 mlr 中的超参数。但是，我无法理解它给我的结果（或者我使用不正确）。

例如，如果我创建一些具有二进制响应的数据，然后创建一个 mlr h2o 分类模型，然后检查准确性和 AUC，我将获得一些值。然后，如果我在某些参数上使用 tuneParams 并找到更好的准确性和 AUC，然后将它们插入我的模型。生成的准确度和 AUC（对于模型）与使用 tuneParams.

找到的结果不匹配

希望下面的代码能够说明我的问题：

library(mlr)

# Create data
set.seed(1234)
Species <- sample(c("yes", "no"), size = 150, replace = T)

dat <- data.frame(
  x1 = (Species == "yes") + rnorm(150),
  x2 = (Species == "no") + rnorm(150), Species
)

# split into training and test
train <- sample(nrow(dat), round(.7*nrow(dat))) # split 70-30
datTrain <- dat[train, ]
datTest <- dat[-train, ]

# create mlr h2o model
task <- makeClassifTask(data = dat, target = "Species")
learner <- makeLearner("classif.h2o.deeplearning", predict.type = "prob", 
                       par.vals = list(reproducible = TRUE,
                                       seed = 1))
Mod <- train(learner, task)

# Test predictions
pred <- predict(Mod, newdata = datTest)
# Evaluate performance accuracy & area under curve 
performance(pred, measures = list(acc, auc))

以上性能检查结果为：

acc       auc 
0.7111111 0.7813765

现在，如果我只调整其中一个参数（例如纪元）：

set.seed(1234)
# Tune epoch parameter
param_set <- makeParamSet(
  makeNumericParam("epochs", lower = 1, upper = 10))
rdesc <- makeResampleDesc("CV", iters = 3L, predict = "both") 
ctrl <- makeTuneControlRandom(maxit = 3)

res <- tuneParams(
  learner = learner, task = task, resampling = rdesc, measures = list(auc, acc),
  par.set = param_set, control = ctrl
)

我从调整时期得到的结果是：

Tune result:
Op. pars: epochs=1.95
auc.test.mean=0.8526496,acc.test.mean=0.7466667

现在，如果我将 epochs 的值再次插入学习器和运行模型并检查性能：

set.seed(1234)
# plugging the tuned value into model and checking performance again:
learner <- makeLearner("classif.h2o.deeplearning", predict.type = "prob", 
                       par.vals = list(epochs = 1.95,
                                       reproducible = TRUE,
                                       seed = 1))
Mod <- train(learner, task)

# Test predictions
pred1 <- predict(Mod, newdata = datTest)
# Evaluate performance accuracy & area under curve 
performance(pred1, measures = list(acc, auc))

我得到的准确率和 AUC 现在是：

   acc       auc 
0.6666667 0.8036437

我的问题是，为什么使用 tuneParams 的结果的准确性和 AUC 与我将调优值插入学习器时的结果存在如此差异？还是我使用或解释 tuneParams 不正确？

Answer 1

您得到不同的结果是因为您使用不同的训练和测试数据评估学习器。如果我使用相同的 3 折 CV，我会得到相同的结果：

set.seed(1234)
resample(learner, task, cv3, list(auc, acc))

Aggr perf: auc.test.mean=0.8526496,acc.test.mean=0.7466667

一般来说，每个计算的性能只是真实泛化性能的估计。这将根据您选择的重采样方法和数据而有所不同。

在 mlr 中调整超参数不会产生合理的结果？

Tuning hyperparameters in mlr does not produce sensible results?

r

h2o

mlr