牛顿法是否属于梯度下降法?

Would Newton's method classify as a Gradient Descent Method?

这可能是一个需要回答的微不足道的问题,但我只是想说得更清楚一些。从现有文献和 What is the difference between Gradient Descent and Newton's Gradient Descent? 中的讨论来看,这两种方法都涉及计算导数,然后向最小值移动。对于简单的梯度下降法,我们只计算一阶导数;在牛顿法中,我们计算二阶导数和 hessian,并将其应用于向量。此外,Newton/s 方法中向量的更新可能并不总是在(-ive)梯度的方向上。

此外,对于给定的函数f(x),两种方法都试图找到满足f'(x)=0的最小值;在梯度下降法中,objective 是 argmin f(x),而在牛顿法中,objective 是 f'(x) = 0。另一个区别是停止标准,在梯度下降法中方法是 f'(x) = 0,而在牛顿法中,它是 f(x)=0.

基于以上论点,可以说牛顿法是基于梯度的优化方法的(高级)示例吗?上面引用的讨论也没有回答这个问题。

in gradient-descent method, the objective is argmin f(x), whereas in Newton's method, the objective is f'(x)=0

事实并非如此,两个目标都是f'(x)=0。使用梯度下降法,就像使用牛顿法一样,您没有关于您达到的最小值是全局还是局部的任何信息,因此 argmin f(x) 仅适用于非常小的邻域。

Another difference is stopping criterion, which in Gradient-descent method is f'(x) = 0, whereas in newton's method, it is f(x)=0

同样,这是不正确的。两者都试图最小化成本函数 f(x),并且无法保证 f(x) 的最小值将为零。它可以是任意值,因此选择 f(x)=0 作为停止标准显然是错误的。停止这两种方法的一个很好的标准是查看在几次连续迭代中有多少 f(x) 发生了变化。如果它在一段时间内没有变化,那么您可能会得出结论,您已经达到了稳定状态并停下来。作为替代方案,您可以使用梯度的绝对值等标准,或者如果您有时间限制,您可以只使用固定的迭代次数。

would it be justified to say that Newton's method is an (advanced) example of gradient-based optimisation methods

根据定义,渐变法是从渐变的方向看的。如您所知,牛顿法使用局部曲率来定义通向局部最优的路径,并且可能根本不遵循与梯度相同的方向,因此将其称为基于梯度是没有意义的。

would it be justified to say that Newton's method is an (advanced) example of gradient-based optimisation methods?

我认为这绝对是公平的说法。对于简单的 1-d 情况,我喜欢将牛顿法视为梯度下降,其中 i) 步长(alpha 在规范梯度下降中)等于 1 和 ii) 调整使得(保持一阶导数常数)更新越大,函数的曲率(即二阶导数)越小,在当前猜测。