如果我们两次使用相同的数据(初始参数的两次随机化),我们的算法是否有可能收敛到不同的局部最小值?
Is it possible that our algorithm will converge to different local minima if we use same data twice (twice randomization of the initial parameters)?
假设我们正在使用相同的数据两次(初始参数的两次随机化)使用梯度下降训练神经网络。我们的算法是否有可能收敛到不同的局部最小值?
是的。梯度下降,顾名思义,相对于损失函数 "downhill"。但简单的下坡并不意味着你会到达最低谷。
考虑这个例子有两个局部最小值。
如果随机初始化的参数导致 A
附近的初始输出,在 b
的左侧,则梯度下降将朝着 A
走下坡路。但如果初始参数导致输出在 b
右侧,更接近 C
,则下坡方向是朝向 C
.
梯度下降只会走下坡路。那是哪条路,你可能会在哪里结束,很大程度上取决于你从哪里开始。
假设我们正在使用相同的数据两次(初始参数的两次随机化)使用梯度下降训练神经网络。我们的算法是否有可能收敛到不同的局部最小值?
是的。梯度下降,顾名思义,相对于损失函数 "downhill"。但简单的下坡并不意味着你会到达最低谷。
考虑这个例子有两个局部最小值。
如果随机初始化的参数导致 A
附近的初始输出,在 b
的左侧,则梯度下降将朝着 A
走下坡路。但如果初始参数导致输出在 b
右侧,更接近 C
,则下坡方向是朝向 C
.
梯度下降只会走下坡路。那是哪条路,你可能会在哪里结束,很大程度上取决于你从哪里开始。