为什么加载 Pytorch 模型的损失会大大增加?

Why loaded Pytorch model's loss highly increased?

我正在尝试参考 to 训练 Arcface。

据我所知,Arcface 需要在 CASIA-webface 上训练 200 多个 epoch,并且批处理量很大。

在训练的100个epochs内,我停止了一段时间的训练,因为我需要使用GPU做其他任务。并保存模型(Resnet)和边缘的检查点。停用前,其loss值在0.3~1.0之间,训练准确率提升至80~95%。

当我通过使用 load_sate 加载检查点文件恢复 Arcface 训练时,第一批处理似乎正常。但是突然loss猛增,准确率变得很低

它的损失突然变大了。这怎么发生的?我别无选择,所以无论如何继续训练,但我认为损失并没有很好地减少,即使它是一个超过 100 个时期的训练模型......

我搜索类似的问题,他们说问题是优化器没有保存(因为参考github页面没有保存优化器,我也是,是真的吗?

My losses after loading

如果你看到这个line! 您正在通过伽玛衰减每个参数组的学习率。 当您达到第 100 个纪元时,这改变了您的学习率。此外,您在保存模型时没有保存优化器状态。
这使您的代码在恢复训练后从起始 lr 即 0.1 开始。 这又增加了你的损失。

如果觉得有用请投票