对训练或验证分区执行交叉验证以调整参数

Question

我有一个大数据集，它被分成三个块（训练-验证-测试）。我想执行交叉验证 (CV)，因为我有一个大数据集，对整个数据集执行 CV 会花费很长时间。执行 CV 的正确分区是什么？我见过只使用训练分割的教程，其他教程只使用验证分割，而其他教程则使用整个数据集。

感谢您的澄清或帮助。

Answer 1

为了简单起见，我们假设您只有一个超参数。如果你想做交叉验证，你会选择 N 个不同的超参数值，并在训练集上训练 N 个不同的模型。然后，您将选择在验证集上具有最佳性能的超参数。然后，您将使用 selected 超参数使用训练集和验证集重新训练模型。然后在测试集上评估模型性能。

如果您的数据集很大，您可以 select 一个小子集，找到最佳超参数并继续增加子集，直到您可以推断出最佳超参数是什么数据集大小。在实践中，你通常可以摆脱 select 尽可能大的子集，你可能会被打扰，并且只为该子集使用最佳超参数。

编辑：

如果您使用 scikit-learn，这里是带有超参数 C 的假设 model 的伪代码：

from sklearn.model_selection import GridSearchCV

# X_train, X_test are the train and test features
# Y_train, Y_test are the corresponding labels/values to predict.
# model is some scikit-learn regression or classification model

# Create a parameter grid
param_grid = {'C': [0.1, 1, 5, 15, 100]}

# Do two fold CV. You can do other types of CV as well by passing
# a cross-validation generator
estimator = GridSearchCV(model, cv=2, param_grid=param_grid)
# Do the cross validation procedure explained below
estimator.fit(X_train, Y_train)

当您运行 fit 方法时，您将训练集 (X_train, Y_train) 一分为二。然后使用前半部分数据训练 C=0.1 模型，并对后半部分的性能进行评分。在这种情况下，前半部分是训练集，后半部分是验证集。之后重复该过程，但使用后半部分作为训练集，前半部分作为验证集。然后对性能进行平均并存储。

然后对 C 的剩余值重复此过程。然后检查 C 的哪个值提供最佳预测精度。然后使用该值使用整个训练集 (X_train, Y_train) 训练最终模型。然后可以通过

在遗漏的测试集上评估模型性能

score = estimator.score(X_test, Y_test)

对训练或验证分区执行交叉验证以调整参数

Perform cross-validation on training or validation partition to tune parameters

machine-learning

svm

training-data

cross-validation