我们还需要实施 K 折 train_test_split 吗?
K-folds do we still need to implement train_test_split?
我读了很多书,对 k-folds 有点困惑。我理解它背后的概念,但我不确定如何部署它。
我在数据探索后看到的通常步骤是 train_test_split
,对训练集进行编码和缩放 fit_transform
,然后在测试哪些算法有效之前拟合测试集。之后他们调整超参数。
所以如果我现在使用 k-folds,我会避免使用 train_test_split 吗?我们在什么地方使用 k-folds?
谢谢!
没有。 K-fold 将您的数据拆分为训练测试拆分 K
次,因此您可以训练 K
不同的模型。
这种方法使您的模型结果更加稳健,因为您使用数据集的不同部分训练 K
不同的模型,并且您预测数据的不同部分 K
次。最后,你可以简单地取K
模型的平均分。
我读了很多书,对 k-folds 有点困惑。我理解它背后的概念,但我不确定如何部署它。
我在数据探索后看到的通常步骤是 train_test_split
,对训练集进行编码和缩放 fit_transform
,然后在测试哪些算法有效之前拟合测试集。之后他们调整超参数。
所以如果我现在使用 k-folds,我会避免使用 train_test_split 吗?我们在什么地方使用 k-folds?
谢谢!
没有。 K-fold 将您的数据拆分为训练测试拆分 K
次,因此您可以训练 K
不同的模型。
这种方法使您的模型结果更加稳健,因为您使用数据集的不同部分训练 K
不同的模型,并且您预测数据的不同部分 K
次。最后,你可以简单地取K
模型的平均分。