梯度下降的更好替代方案

Better alternative to gradient descent

在更新神经网络中的权重时,是否有比梯度下降更快更有效的方法。我们可以使用乘法权重更新代替梯度下降吗?是不是比较好

你可以看看LMA。我听说用它训练 MLP 最有效。

另一个有前途的算法是BFGS

两种算法都是基于Newton's method来逼近函数。在我看来比反向传播更难理解。