深度学习的随机梯度

stochastic graident for deep learning

我正在阅读深度学习概念随机梯度。在下面的快照中，我不理解语句 "The general problem with taking a significant step in this direction, however, is that the gradient could be changing under our feet as we move!" 是什么，我们在下图中演示了这个简单的事实。我无法解释这个数字。请解释

我们想减少预测值和实际值之间的误差。将实际值和预测值视为 2D 中的一个点。您应该将预测值点移动到与实际值点尽可能接近的位置。要移动点，您需要一个方向，SGD 提供了方向。

看图，C，等高线的中心是实际值，P1是第一个预测值，SGD（蓝色箭头）显示的方向是缩小P1和C之间的距离。如果你开始从 P1 开始，你在第一个箭头方向上迈出了重要的（大）一步，你将在远离 C 的 P2 处结束。但是，如果你采取小步（蓝点），并且在每一步中你都会根据新的SGD 方向（每个点的蓝色箭头）你会到达接近 C 的点。

步幅大会让您在实际值附近波动，步幅太小则需要很长时间才能达到实际值。大多数时候，我们在学习过程的开始使用大步骤，然后将其逐渐缩小。

深度学习的随机梯度

stochastic graident for deep learning

deep-learning

stochastic-gradient