学习率和梯度下降的区别？

Learning rate & gradient descent difference?

两者有什么区别？，例如，两者是为了达到一个函数的最小点（较低的损失）。

我理解（我认为）学习率乘以梯度（斜率）来进行梯度下降，但真的是这样吗？我错过了什么吗？

lr和gradient有什么区别？

谢谢

深度学习神经网络使用随机梯度下降算法进行训练。

随机 梯度下降 是一种优化算法，它使用训练数据集中的示例估计模型当前状态的误差梯度，然后使用误差反向传播算法，简称反向传播。

训练期间更新权重的量称为步长或“学习率。”

Specifically, the learning rate is a configurable hyperparameter used in the training of neural networks that has a small positive value, often in the range between 0.0 and 1.0.

学习率控制模型适应问题的速度。考虑到每次更新对权重所做的较小更改，较小的学习率需要更多的训练时期，而较大的学习率会导致快速变化并且需要较少的训练时期。

学习率太大会导致模型过快地收敛到次优解决方案，而学习率太小会导致过程卡住。

训练深度学习神经网络的挑战在于仔细选择学习率。它可能是模型最重要的超参数。

学习率可能是最重要的超参数。如果您有时间只调整一个超参数，请调整学习率。

— Page 429, Deep Learning, 2016.

有关什么是学习率及其工作原理的更多信息，请参阅 post:

How to Configure the Learning Rate Hyperparameter When Training Deep Learning Neural Networks

也可以参考这里：Understand the Impact of Learning Rate on Neural Network Performance

学习率和梯度下降的区别？

Learning rate & gradient descent difference?

machine-learning

cross-validation

deep-learning

pytorch

fast-ai