梯度下降的更新方程

Update equation for gradient descent

如果我们有一个近似函数y = f(w,x),其中x是输入,y是输出,w是权重。根据梯度下降法则,我们应该根据w = w - df/dw来更新权值。但是我们有可能根据 w = w - w * df/dw 更新权重吗?谁看过这个吗?我想这样做的原因是因为在我的算法中这样做更容易。

回想一下,梯度下降是基于 f(w, x) 在 w 附近的泰勒展开,并且有其目的---在你的上下文中---在 反复修改重量小步。反向梯度方向只是一个搜索方向,基于函数 f(w, x) 的局部知识。

通常权重的迭代包括步长,产生表达式

w_(i+1) = w_(i) - nu_j df/dw,

其中步长 nu_j 的值是通过使用线搜索找到的,参见例如https://en.wikipedia.org/wiki/Line_search.

因此,根据上面的讨论,回答你的问题:不,根据

更新不是一个好主意
w_(i+1) = w_(i) - w_(i) df/dw.

为什么?如果 w_(i) 很大(在上下文中),我们将根据非常局部的信息迈出一大步,并且我们将使用与细步梯度下降法截然不同的方法。

此外,正如 lejlot 在下面的评论中指出的那样,w(i) 的负值意味着您沿梯度的(正)方向遍历,即沿函数增长最快的方向,这是局部最差的搜索方向(对于最小化问题)。