为什么模型通常受益于在训练期间降低学习率

Why models often benefit from reducing the learning rate during training

在 ReduceLROnPlateau 的 Keras 官方文档中 class (https://keras.io/api/callbacks/reduce_lr_on_plateau/) 他们提到

"Models often benefit from reducing the learning rate"

为什么会这样？至少对我来说这是违反直觉的，因为据我所知-更高的学习率允许我从当前位置采取进一步的步骤。

谢谢！

训练神经网络时，学习率既不能太高也不能太低。较大的学习率可能会错过全局最小值，并且在极端情况下会导致模型完全偏离最优解。另一方面，较小的学习率可能会陷入局部最小值。

ReduceLROnPlateau 的目的是跟踪模型的性能并在 x 个时期没有改进时降低学习率。直觉是模型在当前学习率下接近次优解，并在全局最小值附近振荡。降低学习率将使模型能够以更小的学习步骤获得成本函数的最优解。