梯度下降会不会卡在非极小点？我们怎样才能证明它的正确性呢？

Will gradient descent be stuck in non-minima point? How can we prove its correctness?

machine-learning
gradient-descent

对于卡住的例子，让我们的成本函数为 J(x,y) = x * y 并且我们目前在点 (0,0)

那么梯度向量将为(0,0)。这意味着我们不会使用梯度下降算法移动到任何其他点。

对于后面的问题，我们再考虑一个例子：函数F(x,y)(暂且称它为Fx(x,y))对x的导数为负，函数F( x,y)（我们称它为 Fy(x,y)）也是负数。然后，我们将对梯度下降做的是沿着向量 alpha * (Fx(x,y), Fy(x,y)) 移动。我们如何保证 F(x + alpha * Fx(x,y),y + alpha * Fy(x,y)) < F(x,y) 对于任何足够小的 alpha？

梯度下降算法无法保证找到全局最小值甚至局部最小值。是的，如您所述，该算法将停留在 (0,0)。但是，您很可能永远不会正好达到 (0,0)。还有很多技术可以防止这种情况发生。

梯度下降会不会卡在非极小点？我们怎样才能证明它的正确性呢？

Will gradient descent be stuck in non-minima point? How can we prove its correctness?

machine-learning

gradient-descent