小学习率 vs 大学习率

small learning rate vs big learning rate

我是 ML 新手。在阅读反向传播时，我突然有疑问。
在神经网络的反向传播学习中，
是否应该从小的学习率开始，在学习过程中慢慢增加？或者
我们是否应该从大学习率开始，然后在学习过程中慢慢降低它？

哪个是正确的？

一般来说，第二个正确 - 以这种方式思考——大学习率意味着你粗略地搜索 space 中的最佳区域。然后，通过少量学习调整权重以找到最佳值。

如果你使用恒定的大学习率，你会在最小点附近“跳跃”。如果你使用恒定的小学习率，那么收敛会花费很多时间。这就是为什么学习率衰减是个好主意。

话虽如此，学习率调度还有一些更高级的技巧，它们不会单调地降低学习率。