我们还需要实施 K 折 train_test_split 吗?

K-folds do we still need to implement train_test_split?

我读了很多书,对 k-folds 有点困惑。我理解它背后的概念,但我不确定如何部署它。

我在数据探索后看到的通常步骤是 train_test_split,对训练集进行编码和缩放 fit_transform,然后在测试哪些算法有效之前拟合测试集。之后他们调整超参数。

所以如果我现在使用 k-folds,我会避免使用 train_test_split 吗?我们在什么地方使用 k-folds?

谢谢!

没有。 K-fold 将您的数据拆分为训练测试拆分 K 次,因此您可以训练 K 不同的模型。

这种方法使您的模型结果更加稳健,因为您使用数据集的不同部分训练 K 不同的模型,并且您预测数据的不同部分 K 次。最后,你可以简单地取K模型的平均分。