梯度下降——步长值

Gradient Descent - Step Value

k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1

theta1 := theta1 - k.

在Andrew的课程中,他说alpha是学习率。如果导数是正数,我们减去 alpha * k,如果是负数,我们加上它。为什么我们需要减去这个 alpha * partial_derivative ( J (theta1) ) w.r.t theta1 而不是 alpha * just the sign of derivative

那里的乘法有什么用?谢谢。

我们需要在达到最小值时减小 k 的值 - 步长值。正如我们所知,当我们达到最小值时,导数也变为零。因此,我们将 alpha 和导数相乘以生成一个步进值,当我们达到最小值时该步进值趋于零。