为什么有时将学习率称为 alpha?

Why is the learning rate sometimes called alpha?

在查看多个代码时,我遇到了一些不同的人将学习率称为“alpha”。它的根源在哪里?常见吗?

梯度下降算法中parameter/weight的更新规则是

即我们取梯度的一个小值(倍数)并调整参数的当前值。我们采用的梯度量由 alpha 决定。 alpha 越高,当前梯度的较大部分被考虑,alpha 越小,被考虑的梯度越小。

这个 alpha 称为学习率,因为 alpha 越高,我们移动得越快,alpha 越低,移动越慢。

我不确定确切的历史渊源,但一般来说,在数学和计算机科学中使用希腊字母作为 shorthand 是很常见的。 Alpha 就是符号 α - 希腊字母表的第一个字母。