梯度下降会不会卡在非极小点?我们怎样才能证明它的正确性呢?

Will gradient descent be stuck in non-minima point? How can we prove its correctness?

对于卡住的例子,让我们的成本函数为 J(x,y) = x * y 并且我们目前在点 (0,0)

那么梯度向量将为(0,0)。这意味着我们不会使用梯度下降算法移动到任何其他点。

对于后面的问题,我们再考虑一个例子:函数F(x,y)(暂且称它为Fx(x,y))对x的导数为负,函数F( x,y)(我们称它为 Fy(x,y))也是负数。然后,我们将对梯度下降做的是沿着向量 alpha * (Fx(x,y), Fy(x,y)) 移动。我们如何保证 F(x + alpha * Fx(x,y),y + alpha * Fy(x,y)) < F(x,y) 对于任何足够小的 alpha?

梯度下降算法无法保证找到全局最小值甚至局部最小值。 是的,如您所述,该算法将停留在 (0,0)。但是,您很可能永远不会 正好 达到 (0,0)。 还有很多技术可以防止这种情况发生。