如果我们两次使用相同的数据（初始参数的两次随机化），我们的算法是否有可能收敛到不同的局部最小值？

Is it possible that our algorithm will converge to different local minima if we use same data twice (twice randomization of the initial parameters)?

假设我们正在使用相同的数据两次（初始参数的两次随机化）使用梯度下降训练神经网络。我们的算法是否有可能收敛到不同的局部最小值？

是的。梯度下降，顾名思义，相对于损失函数 "downhill"。但简单的下坡并不意味着你会到达最低谷。

考虑这个例子有两个局部最小值。

如果随机初始化的参数导致 A 附近的初始输出，在 b 的左侧，则梯度下降将朝着 A 走下坡路。但如果初始参数导致输出在 b 右侧，更接近 C，则下坡方向是朝向 C.

梯度下降只会走下坡路。那是哪条路，你可能会在哪里结束，很大程度上取决于你从哪里开始。