梯度下降——步长值

Gradient Descent - Step Value

machine-learning
gradient-descent

让k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1

theta1 := theta1 - k.

在Andrew的课程中，他说alpha是学习率。如果导数是正数，我们减去 alpha * k，如果是负数，我们加上它。为什么我们需要减去这个 alpha * partial_derivative ( J (theta1) ) w.r.t theta1 而不是 alpha * just the sign of derivative？

那里的乘法有什么用？谢谢。

我们需要在达到最小值时减小 k 的值 - 步长值。正如我们所知，当我们达到最小值时，导数也变为零。因此，我们将 alpha 和导数相乘以生成一个步进值，当我们达到最小值时该步进值趋于零。

梯度下降——步长值

Gradient Descent - Step Value

machine-learning

gradient-descent