牛顿法是否属于梯度下降法？

Would Newton's method classify as a Gradient Descent Method?

这可能是一个需要回答的微不足道的问题，但我只是想说得更清楚一些。从现有文献和 What is the difference between Gradient Descent and Newton's Gradient Descent? 中的讨论来看，这两种方法都涉及计算导数，然后向最小值移动。对于简单的梯度下降法，我们只计算一阶导数；在牛顿法中，我们计算二阶导数和 hessian，并将其应用于向量。此外，Newton/s 方法中向量的更新可能并不总是在（-ive）梯度的方向上。

此外，对于给定的函数f(x)，两种方法都试图找到满足f'(x)=0的最小值；在梯度下降法中，objective 是 argmin f(x)，而在牛顿法中，objective 是 f'(x) = 0。另一个区别是停止标准，在梯度下降法中方法是 f'(x) = 0，而在牛顿法中，它是 f(x)=0.

基于以上论点，可以说牛顿法是基于梯度的优化方法的（高级）示例吗？上面引用的讨论也没有回答这个问题。

in gradient-descent method, the objective is argmin f(x), whereas in Newton's method, the objective is f'(x)=0

事实并非如此，两个目标都是f'(x)=0。使用梯度下降法，就像使用牛顿法一样，您没有关于您达到的最小值是全局还是局部的任何信息，因此 argmin f(x) 仅适用于非常小的邻域。

Another difference is stopping criterion, which in Gradient-descent method is f'(x) = 0, whereas in newton's method, it is f(x)=0

同样，这是不正确的。两者都试图最小化成本函数 f(x)，并且无法保证 f(x) 的最小值将为零。它可以是任意值，因此选择 f(x)=0 作为停止标准显然是错误的。停止这两种方法的一个很好的标准是查看在几次连续迭代中有多少 f(x) 发生了变化。如果它在一段时间内没有变化，那么您可能会得出结论，您已经达到了稳定状态并停下来。作为替代方案，您可以使用梯度的绝对值等标准，或者如果您有时间限制，您可以只使用固定的迭代次数。

would it be justified to say that Newton's method is an (advanced) example of gradient-based optimisation methods

根据定义，渐变法是从渐变的方向看的。如您所知，牛顿法使用局部曲率来定义通向局部最优的路径，并且可能根本不遵循与梯度相同的方向，因此将其称为基于梯度是没有意义的。

would it be justified to say that Newton's method is an (advanced) example of gradient-based optimisation methods?

我认为这绝对是公平的说法。对于简单的 1-d 情况，我喜欢将牛顿法视为梯度下降，其中 i) 步长（alpha 在规范梯度下降中）等于 1 和 ii) 调整使得（保持一阶导数常数）更新越大，函数的曲率（即二阶导数）越小，在当前猜测。

牛顿法是否属于梯度下降法？

Would Newton's method classify as a Gradient Descent Method?

newtons-method

gradient-descent