学习率和梯度下降的区别?

Learning rate & gradient descent difference?

两者有什么区别?,例如,两者是为了达到一个函数的最小点(较低的损失)。

我理解(我认为)学习率乘以梯度(斜率)来进行梯度下降,但真的是这样吗?我错过了什么吗?

lr和gradient有什么区别?

谢谢

深度学习神经网络使用随机梯度下降算法进行训练。

随机 梯度下降 是一种优化算法,它使用训练数据集中的示例估计模型当前状态的误差梯度,然后使用误差反向传播算法,简称反向传播。

训练期间更新权重的量称为步长或“学习率。”

Specifically, the learning rate is a configurable hyperparameter used in the training of neural networks that has a small positive value, often in the range between 0.0 and 1.0.

学习率控制模型适应问题的速度。考虑到每次更新对权重所做的较小更改,较小的学习率需要更多的训练时期,而较大的学习率会导致快速变化并且需要较少的训练时期。

学习率太大会导致模型过快地收敛到次优解决方案,而学习率太小会导致过程卡住。

训练深度学习神经网络的挑战在于仔细选择学习率。它可能是模型最重要的超参数。

学习率可能是最重要的超参数。如果您有时间只调整一个超参数,请调整学习率。

— Page 429, Deep Learning, 2016.

有关什么是学习率及其工作原理的更多信息,请参阅 post:

How to Configure the Learning Rate Hyperparameter When Training Deep Learning Neural Networks

也可以参考这里:Understand the Impact of Learning Rate on Neural Network Performance