我需要多个模型进行交叉验证吗?

Do i need multiple models for cross validation?

所以我看到了交叉验证的不同实现。 我目前正在使用 pytorch 来训练神经网络。 我当前的布局如下所示: 我有 6 个离散数据集。 5个用于交叉验证。

Network_1 trains on Datasets: 1,2,3,4 computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 computes loss on 1

然后是纪元 2,我再次做同样的事情:

Network_1 trains on Datasets: 1,2,3,4 computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 computes loss on 1

为了在数据集 6 上进行测试,我应该合并来自所有 5 个网络的预测并取预测的平均分数(仍然需要对预测矩阵进行平均)。

我对交叉验证的理解正确吗?这是它应该如何工作的吗?这会正常工作吗? 我努力不使用我已经训练过的数据进行测试。我还是不

非常感谢您的帮助:)

您当然可以对神经网络应用交叉验证,但由于神经网络是计算要求很高的模型,因此通常不会这样做。为了减少方差,还有其他通常应用于神经网络的技术,例如提前停止或丢弃。

话虽这么说,但我不确定您是否以正确的方式应用它。您应该在所有时期进行训练,以便:

Network_1 trains on Datasets: 1,2,3,4 up to the end of training. Then computes loss on 5
Network_2 trains on Datasets: 1,2,3,5 up to the end of training. Then computes loss on 4
Network_3 trains on Datasets: 1,2,4,5 up to the end of training. Then computes loss on 3
Network_4 trains on Datasets: 1,3,4,5 up to the end of training. Then computes loss on 2
Network_5 trains on Datasets: 2,3,4,5 up to the end of training. Then computes loss on 1

一旦每个网络都被训练到训练结束(因此跨越所有时期),并在遗漏的数据集(称为验证数据集)上进行验证,您可以对获得的分数进行平均。
这个分数(实际上是交叉验证的真正意义)应该给你一个对你的模型的公平评估,当你要在测试集(你从一开始就从训练中遗漏的那个)上测试它时,它不应该下降).

交叉验证通常与某种形式的网格搜索结合使用,以对您要比较的不同模型进行无偏见的评估。因此,如果您想要比较 NetworkANetworkB,它们在某些参数方面有所不同,您可以对 NetworkA 使用交叉验证,对 NetworkB 使用交叉验证,然后取交叉验证得分最高的模型作为最终模型。

作为最后一步,一旦你决定了哪个是最好的模型,你通常会使用训练集中的所有数据(即你的数据集 1、2、3、4、5)重新训练你的模型,并且在测试集(数据集 6)上测试该模型。