交叉验证+提前停止是否显示小样本的实际性能?

Does cross validation + early stopping show the actual performance for small sample?

我在一些模拟中 运行ning xgboost,我的样本量是 125。我正在测量 5 倍交叉验证误差,即在每一轮中我的训练样本量是 100 并且测试样本大小为 25。假设所有其他参数都是固定的,但 "n_estimators",即增强轮数。

我有两个选择:

问题是

总结:小样本选择模型的最佳方式是什么?

使用非常少量的数据作为验证数据,过拟合的风险非常高,不推荐。选项 1 优于选项 2,交叉验证的平均数比使用最佳参数再次训练模型更好。

但是,在这种小样本情况下,最好的方法是选择简单的模型而不是复杂的模型。