小学习率 vs 大学习率

small learning rate vs big learning rate

我是 ML 新手。在阅读反向传播时,我突然有疑问。
在神经网络的反向传播学习中,
是否应该从小的学习率开始,在学习过程中慢慢增加?或者
我们是否应该从大学习率开始,然后在学习过程中慢慢降低它?

哪个是正确的?

一般来说,第二个正确 - 以这种方式思考——大学习率意味着你粗略地搜索 space 中的最佳区域。然后,通过少量学习调整权重以找到最佳值。

如果你使用恒定的大学习率,你会在最小点附近“跳跃”。如果你使用恒定的小学习率,那么收敛会花费很多时间。这就是为什么学习率衰减是个好主意。

话虽如此,学习率调度还有一些更高级的技巧,它们不会单调地降低学习率。