为什么动量梯度下降是指数加权平均值？

why is gradient descent with momentum an exponentially weighted average?

我最近看了Andrew Ng's video on SGDM。我知道动量项通过对最后一个梯度进行加权并使用 V_dw 的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外，在 6:37 的 Ng 视频中，他说使用 Beta = 0.9 有效地意味着使用最后 10 个梯度的平均值。有人可以解释它是如何工作的吗？对我来说，它只是向量 dW 中所有梯度的 1-0.9 的标量权重。

感谢任何见解！我觉得我缺少一些基本的东西。

你只需要考虑上一个渐变中的内容。由于动量项，最后一个梯度已经是加权梯度。

在第一步中，您只需进行梯度下降。在第二步中，您将获得 m_grad_2 = grad_2 + 0.9 m_grad_1 的动量梯度。在第三步中，您将再次获得动量梯度 m_grad_3 = grad_3 + 0.9 m_grad_2，但旧梯度由动量项组成。因此 0.9*m_grad_2 = 0.9 * (grad_2 + 0.9 grad_1)，即 0.9grad_2 + 0.81grad_1。因此，梯度对第 k 步的影响将为 0.9^k。 10步后影响就很小了。

为什么动量梯度下降是指数加权平均值？

why is gradient descent with momentum an exponentially weighted average?

mathematical-optimization

neural-network

momentum

deep-learning