对 MLR 中数据子集的重复交叉验证

Question

我正在尝试设置一个 mlr 分类任务，其中 75% 的数据将用于训练，这 75% 将通过重复交叉验证重新采样。

我的任务设置如下

pred.Bin.Task <- makeClassifTask(id="CountyCrime", data=df, target="count.bins")
preProc.Task <- normalizeFeatures(pred.Bin.Task, method="range")
rdesc <- makeResampleDesc("RepCV", reps=3, folds=5)
inTraining <- caret::createDataPartition(df$count.bins, p = .75, list = FALSE)

但我无法使重采样工作。当我做 lda.train <- resample("classif.lda", preProc.Task, rdesc, subset=inTraining)

我收到错误

Error in setHyperPars2.Learner(learner, insert(par.vals, args)) : 
  classif.lda: Setting parameter subset without available description object!
You can switch off this check by using configureMlr!

没有子集的训练（即 lda.train <- resample("classif.lda", preProc.Task, rdesc) ）有效。

我宁愿拥有整个数据，而不仅仅是任务中的训练数据，这样当我使用保留数据进行预测时，我不需要预处理和重新提交新数据。关于如何正确设置子集的任何建议？

Answer 1

错误的原因是 resample 函数没有 subset 参数，所以它被传递给学习器，它也没有这样的参数。

mlr 的重采样描述不允许您像您尝试的那样将数据完全分开（即在训练期间根本不使用它）。但是，可以使用subsetTask函数对数据进行分区，而无需再次进行预处理：

preproc.task.train = subsetTask(preproc.task, inTraining)
resample("classif.lda", preproc.task.train, rdesc)

对 MLR 中数据子集的重复交叉验证

Repeated crossvalidation on subset of data in MLR

r

mlr