梯度下降的更新方程

Question

如果我们有一个近似函数y = f(w,x)，其中x是输入，y是输出，w是权重。根据梯度下降法则，我们应该根据w = w - df/dw来更新权值。但是我们有可能根据 w = w - w * df/dw 更新权重吗？谁看过这个吗？我想这样做的原因是因为在我的算法中这样做更容易。

Answer 1

回想一下，梯度下降是基于 f(w, x) 在 w 附近的泰勒展开，并且有其目的---在你的上下文中---在 反复修改重量小步。反向梯度方向只是一个搜索方向，基于函数 f(w, x) 的局部知识。

通常权重的迭代包括步长，产生表达式

w_(i+1) = w_(i) - nu_j df/dw,

其中步长 nu_j 的值是通过使用线搜索找到的，参见例如https://en.wikipedia.org/wiki/Line_search.

因此，根据上面的讨论，回答你的问题：不，根据

更新不是一个好主意

w_(i+1) = w_(i) - w_(i) df/dw.

为什么？如果 w_(i) 很大（在上下文中），我们将根据非常局部的信息迈出一大步，并且我们将使用与细步梯度下降法截然不同的方法。

此外，正如 lejlot 在下面的评论中指出的那样，w(i) 的负值意味着您沿梯度的（正）方向遍历，即沿函数增长最快的方向，这是局部最差的搜索方向（对于最小化问题）。

Update equation for gradient descent