对训练或验证分区执行交叉验证以调整参数

Perform cross-validation on training or validation partition to tune parameters

我有一个大数据集,它被分成三个块(训练-验证-测试)。我想执行交叉验证 (CV),因为我有一个大数据集,对整个数据集执行 CV 会花费很长时间。执行 CV 的正确分区是什么?我见过只使用训练分割的教程,其他教程只使用验证分割,而其他教程则使用整个数据集。

感谢您的澄清或帮助。

为了简单起见,我们假设您只有一个超参数。如果你想做交叉验证,你会选择 N 个不同的超参数值,并在训练集上训练 N 个不同的模型。然后,您将选择在验证集上具有最佳性能的超参数。然后,您将使用 selected 超参数使用训练集和验证集重新训练模型。然后在测试集上评估模型性能。

如果您的数据集很大,您可以 select 一个小子集,找到最佳超参数并继续增加子集,直到您可以推断出最佳超参数是什么数据集大小。在实践中,你通常可以摆脱 select 尽可能大的子集,你可能会被打扰,并且只为该子集使用最佳超参数。

编辑:

如果您使用 scikit-learn,这里是带有超参数 C 的假设 model 的伪代码:

from sklearn.model_selection import GridSearchCV

# X_train, X_test are the train and test features
# Y_train, Y_test are the corresponding labels/values to predict.
# model is some scikit-learn regression or classification model

# Create a parameter grid
param_grid = {'C': [0.1, 1, 5, 15, 100]}

# Do two fold CV. You can do other types of CV as well by passing
# a cross-validation generator
estimator = GridSearchCV(model, cv=2, param_grid=param_grid)
# Do the cross validation procedure explained below
estimator.fit(X_train, Y_train)

当您 运行 fit 方法时,您将训练集 (X_train, Y_train) 一分为二。然后使用前半部分数据训练 C=0.1 模型,并对后半部分的性能进行评分。在这种情况下,前半部分是训练集,后半部分是验证集。之后重复该过程,但使用后半部分作为训练集,前半部分作为验证集。然后对性能进行平均并存储。

然后对 C 的剩余值重复此过程。然后检查 C 的哪个值提供最佳预测精度。然后使用该值使用整个训练集 (X_train, Y_train) 训练最终模型。然后可以通过

在遗漏的测试集上评估模型性能
score = estimator.score(X_test, Y_test)