深度学习的随机梯度

stochastic graident for deep learning

我正在阅读深度学习概念随机梯度。在下面的快照中,我不理解语句 "The general problem with taking a significant step in this direction, however, is that the gradient could be changing under our feet as we move!" 是什么,我们在下图中演示了这个简单的事实。我无法解释这个数字。请解释

我们想减少预测值和实际值之间的误差。将实际值和预测值视为 2D 中的一个点。您应该将预测值点移动到与实际值点尽可能接近的位置。要移动点,您需要一个方向,SGD 提供了方向。

看图,C,等高线的中心是实际值,P1是第一个预测值,SGD(蓝色箭头)显示的方向是缩小P1和C之间的距离。如果你开始从 P1 开始,你在第一个箭头方向上迈出了重要的(大)一步,你将在远离 C 的 P2 处结束。但是,如果你采取小步(蓝点),并且在每一步中你都会根据新的SGD 方向(每个点的蓝色箭头)你会到达接近 C 的点。

步幅大会让您在实际值附近波动,步幅太小则需要很长时间才能达到实际值。大多数时候,我们在学习过程的开始使用大步骤,然后将其逐渐缩小。