梯度函数在反向传播中是如何工作的?
How does the Gradient function work in Backpropagation?
在反向传播中,Lossw.r.t层的梯度是使用梯度w.r.t计算得到的。 L-1层?或者,是Loss的梯度w.r.t。使用梯度w.r.t层L-1计算层L?
在反向传播中使用梯度下降函数来找到调整权重的最佳值。有两种常见的梯度下降类型:Gradient Descent
和Stochastic Gradient Descent
.
梯度下降是一种确定最佳调整值以改变权重的函数。在每次迭代中,它确定volume/amount个权重应该被调整,离最佳确定的权重越远,调整值就越大。你可以把它想象成一个从山上滚下来的球;球的速度是调整值,山是可能的调整值。本质上,您希望球(调整值)尽可能靠近世界底部(可能的调整)。球的速度将增加,直到它到达山底 - 山底是可能的最佳值。
可以找到更实用的解释 here.
随机梯度下降是梯度下降函数的更复杂版本,它用于可能具有错误最佳调整值的神经网络,其中常规梯度下降不会找到最佳值,但它认为的价值是最好的。这可以类比为滚下两座山的球,山的高度不同。它从第一个山上滚下来,到达第一个山的底部,认为它已经达到了最好的答案,但是通过随机梯度下降,它会知道它现在所处的位置不是最好的位置,但实际上,第二座山脚下。
左边是梯度下降法的输出。
右边是随机梯度下降会找到的(最佳可能值)。
可在 here.
中找到此解释的更具描述性和实用性的版本
最后总结我对你问题的回答,在反向传播中你计算最右边的权重矩阵的梯度,然后相应地调整权重,然后向左移动一层,L-1
, (在下一个权重矩阵上)并重复该步骤,换句话说,您确定梯度,相应地进行调整,然后向左移动。
这个我在另一个问题中也有详细讲过,可能对有帮助。
简而言之,
前馈从左层到右层
从右层到左层的反向传播可以更新所有层的权重和偏差,从而使成本最小化。在每次迭代中,我们计算损失并更新权重和偏差。
L wrt 层 l−1 的梯度是使用梯度 wrt 层 l
计算的
在反向传播中,Lossw.r.t层的梯度是使用梯度w.r.t计算得到的。 L-1层?或者,是Loss的梯度w.r.t。使用梯度w.r.t层L-1计算层L?
在反向传播中使用梯度下降函数来找到调整权重的最佳值。有两种常见的梯度下降类型:Gradient Descent
和Stochastic Gradient Descent
.
梯度下降是一种确定最佳调整值以改变权重的函数。在每次迭代中,它确定volume/amount个权重应该被调整,离最佳确定的权重越远,调整值就越大。你可以把它想象成一个从山上滚下来的球;球的速度是调整值,山是可能的调整值。本质上,您希望球(调整值)尽可能靠近世界底部(可能的调整)。球的速度将增加,直到它到达山底 - 山底是可能的最佳值。
随机梯度下降是梯度下降函数的更复杂版本,它用于可能具有错误最佳调整值的神经网络,其中常规梯度下降不会找到最佳值,但它认为的价值是最好的。这可以类比为滚下两座山的球,山的高度不同。它从第一个山上滚下来,到达第一个山的底部,认为它已经达到了最好的答案,但是通过随机梯度下降,它会知道它现在所处的位置不是最好的位置,但实际上,第二座山脚下。
左边是梯度下降法的输出。
右边是随机梯度下降会找到的(最佳可能值)。
最后总结我对你问题的回答,在反向传播中你计算最右边的权重矩阵的梯度,然后相应地调整权重,然后向左移动一层,L-1
, (在下一个权重矩阵上)并重复该步骤,换句话说,您确定梯度,相应地进行调整,然后向左移动。
这个我在另一个问题中也有详细讲过,可能对
简而言之,
前馈从左层到右层
从右层到左层的反向传播可以更新所有层的权重和偏差,从而使成本最小化。在每次迭代中,我们计算损失并更新权重和偏差。
L wrt 层 l−1 的梯度是使用梯度 wrt 层 l
计算的