如果我们两次使用相同的数据(初始参数的两次随机化),我们的算法是否有可能收敛到不同的局部最小值?

Is it possible that our algorithm will converge to different local minima if we use same data twice (twice randomization of the initial parameters)?

假设我们正在使用相同的数据两次(初始参数的两次随机化)使用梯度下降训练神经网络。我们的算法是否有可能收敛到不同的局部最小值?

是的。梯度下降,顾名思义,相对于损失函数 "downhill"。但简单的下坡并不意味着你会到达最低谷。

考虑这个例子有两个局部最小值。

如果随机初始化的参数导致 A 附近的初始输出,在 b 的左侧,则梯度下降将朝着 A 走下坡路。但如果初始参数导致输出在 b 右侧,更接近 C,则下坡方向是朝向 C.

梯度下降只会走下坡路。那是哪条路,你可能会在哪里结束,很大程度上取决于你从哪里开始。