梯度函数在反向传播中是如何工作的?

How does the Gradient function work in Backpropagation?

在反向传播中,Lossw.r.t层的梯度是使用梯度w.r.t计算得到的。 L-1层?或者,是Loss的梯度w.r.t。使用梯度w.r.t层L-1计算层L?

在反向传播中使用梯度下降函数来找到调整权重的最佳值。有两种常见的梯度下降类型:Gradient DescentStochastic Gradient Descent.

梯度下降是一种确定最佳调整值以改变权重的函数。在每次迭代中,它确定volume/amount个权重应该被调整,离最佳确定的权重越远,调整值就越大。你可以把它想象成一个从山上滚下来的球;球的速度是调整值,山是可能的调整值。本质上,您希望球(调整值)尽可能靠近世界底部(可能的调整)。球的速度将增加,直到它到达山底 - 山底是可能的最佳值。 可以找到更实用的解释 here.

随机梯度下降是梯度下降函数的更复杂版本,它用于可能具有错误最佳调整值的神经网络,其中常规梯度下降不会找到最佳值,但它认为的价值是最好的。这可以类比为滚下两座山的球,山的高度不同。它从第一个山上滚下来,到达第一个山的底部,认为它已经达到了最好的答案,但是通过随机梯度下降,它会知道它现在所处的位置不是最好的位置,但实际上,第二座山脚下。

左边是梯度下降法的输出。 右边是随机梯度下降会找到的(最佳可能值)。 可在 here.

中找到此解释的更具描述性和实用性的版本

最后总结我对你问题的回答,在反向传播中你计算最右边的权重矩阵的梯度,然后相应地调整权重,然后向左移动一层,L-1, (在下一个权重矩阵上)并重复该步骤,换句话说,您确定梯度,相应地进行调整,然后向左移动。

这个我在另一个问题中也有详细讲过,可能对有帮助。

简而言之,

前馈从左层右层

右层左层的反向传播可以更新所有层的权重和偏差,从而使成本最小化。在每次迭代中,我们计算损失并更新权重和偏差。

L wrt 层 l−1 的梯度是使用梯度 wrt 层 l

计算的