为什么在不改变学习率的情况下训练错误会跳跃?

Why training error jumps without changing learning rate?

我正在训练一个包含大约 10 个卷积层和几个池化层的卷积网络。训练集大约有 250,000 个样本(16,000 个长度向量)。通过第一个时期大约 50%,训练和测试错误从大约 68% 跃升至 92%。学习率相同(批量梯度下降)。批量大小为 32。是什么导致了跳跃,如何解释跳跃?

在斯坦福的深度学习课程中找到这张幻灯片 https://youtu.be/wEoyxE0GP2M?t=1h18m2s

给出的解释是这是参数初始化错误的症状。有一段时间几乎没有学习,然后突然间参数在正确的方向上调整得足够多,你的准确率 and/or 损失显着增加。