梯度函数在反向传播中是如何工作的？

How does the Gradient function work in Backpropagation?

在反向传播中，Lossw.r.t层的梯度是使用梯度w.r.t计算得到的。 L-1层？或者，是Loss的梯度w.r.t。使用梯度w.r.t层L-1计算层L?

在反向传播中使用梯度下降函数来找到调整权重的最佳值。有两种常见的梯度下降类型：Gradient Descent和Stochastic Gradient Descent.

梯度下降是一种确定最佳调整值以改变权重的函数。在每次迭代中，它确定volume/amount个权重应该被调整，离最佳确定的权重越远，调整值就越大。你可以把它想象成一个从山上滚下来的球；球的速度是调整值，山是可能的调整值。本质上，您希望球（调整值）尽可能靠近世界底部（可能的调整）。球的速度将增加，直到它到达山底 - 山底是可能的最佳值。可以找到更实用的解释 here.

随机梯度下降是梯度下降函数的更复杂版本，它用于可能具有错误最佳调整值的神经网络，其中常规梯度下降不会找到最佳值，但它认为的价值是最好的。这可以类比为滚下两座山的球，山的高度不同。它从第一个山上滚下来，到达第一个山的底部，认为它已经达到了最好的答案，但是通过随机梯度下降，它会知道它现在所处的位置不是最好的位置，但实际上，第二座山脚下。

左边是梯度下降法的输出。右边是随机梯度下降会找到的（最佳可能值）。可在 here.

中找到此解释的更具描述性和实用性的版本

最后总结我对你问题的回答，在反向传播中你计算最右边的权重矩阵的梯度，然后相应地调整权重，然后向左移动一层，L-1，（在下一个权重矩阵上）并重复该步骤，换句话说，您确定梯度，相应地进行调整，然后向左移动。

这个我在另一个问题中也有详细讲过，可能对有帮助。

简而言之，

前馈从左层到右层

从右层到左层的反向传播可以更新所有层的权重和偏差，从而使成本最小化。在每次迭代中，我们计算损失并更新权重和偏差。

L wrt 层 l−1 的梯度是使用梯度 wrt 层 l

计算的

梯度函数在反向传播中是如何工作的？

How does the Gradient function work in Backpropagation?

neural-network

gradient-descent

deep-learning